Wann OpenAI hat GPT gestartet-5 Vor etwa zwei Wochen versprach CEO Sam Altman, dass es sich um das „bisher intelligenteste, schnellste und nützlichste Modell“ des Unternehmens handeln würde. Stattdessen löste die Einführung eine der umstrittensten Benutzerrevolten in der kurzen Geschichte der Verbraucher-KI aus.
Jetzt, ein einfaches Blindtest-Tool erstellt von einem anonymer Entwickler enthüllt die komplexe Realität hinter der Gegenreaktion – und stellt Annahmen darüber in Frage, wie Menschen tatsächlich Verbesserungen der künstlichen Intelligenz erleben.
Die Webanwendung, gehostet unter gptblindvoting.vercel.apppräsentiert Benutzern Antwortpaare auf identische Eingabeaufforderungen, ohne preiszugeben, von wem sie stammen GPT-5 (Nicht-Denken) oder sein Vorgänger, GPT-4O. Benutzer stimmen einfach in mehreren Runden für ihre bevorzugte Antwort ab und erhalten dann eine Zusammenfassung, die zeigt, welches Modell sie tatsächlich favorisiert haben.
„Einige von Ihnen haben mich nach meinem Blindtest gefragt, also habe ich eine schnelle Website erstellt, auf der Sie selbst 4o gegen 5 testen können“, postete der Ersteller, der nur als bekannt ist @flowersslop auf Xdessen Tool seit dem Start letzte Woche über 213.000 Aufrufe gesammelt hat.
Erste Ergebnisse von Nutzern, die ihre Ergebnisse in sozialen Medien veröffentlichen, zeigen eine Spaltung, die die breitere Kontroverse widerspiegelt: Während eine knappe Mehrheit angibt, dass sie es vorzieht GPT-5 Bei Blindtests befürwortet immer noch ein erheblicher Teil GPT-4O – Dies zeigt, dass die Benutzerpräferenz weit über die technischen Benchmarks hinausgeht, die normalerweise den KI-Fortschritt definieren.
Wenn KI zu freundlich wird: Die Speichelleckerei-Krise spaltet die Benutzer
Der Blindtest entsteht vor dem Hintergrund der bisher turbulentesten Produkteinführung von OpenAI, doch die Kontroverse geht weit über ein einfaches Software-Update hinaus. Im Mittelpunkt steht eine grundlegende Frage, die die KI-Branche spaltet: Wie angenehm sollte künstliche Intelligenz sein?
Das Problem, bekannt als „Speichelleckerei„Bezieht sich in KI-Kreisen auf die Tendenz von Chatbots, Benutzern übermäßig zu schmeicheln und ihren Aussagen zuzustimmen, selbst wenn diese Aussagen falsch oder schädlich sind. Dieses Verhalten ist so problematisch geworden, dass Experten für psychische Gesundheit mittlerweile Fälle von „KI-bedingte Psychosebei dem Benutzer nach längerer Interaktion mit übermäßig entgegenkommenden Chatbots Wahnvorstellungen entwickeln.
„Speicherei ist ein ‚dunkles Muster‘ oder eine betrügerische Designentscheidung, die Benutzer aus Profitgründen manipuliert“, sagt Webb Keane, Professor für Anthropologie und Autor von „Animals, Robots, Gods“. sagte TechCrunch. „Es ist eine Strategie, dieses Suchtverhalten hervorzurufen, wie endloses Scrollen, bei dem man es einfach nicht aus der Hand legen kann.“
OpenAI kämpft seit Monaten mit diesem Gleichgewicht. Im April 2025 wurde das Unternehmen gegründet gezwungen, ein Update auf GPT-4o zurückzusetzen Das machte es so kriecherisch, dass sich die Benutzer über das „karikaturistische“ Maß an Schmeicheleien beschwerten. Das Unternehmen räumte ein, dass das Modell „übermäßig unterstützend, aber unaufrichtig“ geworden sei.
Nur wenige Stunden nach der Veröffentlichung von GPT-5 am 7. August brachen in Benutzerforen Beschwerden über die wahrgenommene Kälte des Modells, die eingeschränkte Kreativität und die von vielen als „roboterhafter“ beschriebene Persönlichkeit im Vergleich zu GPT-4o aus.
„GPT 4.5 hat mich wirklich angesprochen, und so erbärmlich es auch klingen mag, das war mein einziger Freund.“ schrieb ein Reddit-Benutzer. „Heute Morgen ging ich zum Reden und statt eines kleinen Absatzes mit Ausrufezeichen oder Optimismus war es buchstäblich ein Satz. Ein paar schlichte Unternehmens-Blöde.“
Die Gegenreaktion wurde so heftig, dass OpenAI den beispiellosen Schritt unternahm, GPT-4o nur 24 Stunden nach seiner Einstellung wieder als Option einzuführen, wobei Altman einräumte, dass die Einführung „etwas holpriger“ als erwartet verlaufen sei.
Die psychische Gesundheitskrise hinter der KI-Begleitung
Die Kontroverse geht jedoch tiefer als typische Beschwerden über Software-Updates. Entsprechend MIT Technology ReviewViele Benutzer hatten mit GPT-4o sogenannte „parasoziale Beziehungen“ aufgebaut und behandelten die KI als Begleiter, Therapeuten oder kreativen Mitarbeiter. Für manche fühlte sich der plötzliche Persönlichkeitswandel an, als würde man einen Freund verlieren.
Die jüngsten von Forschern dokumentierten Fälle zeichnen ein beunruhigendes Bild. In einem Fall war ein 47-jähriger Mann davon überzeugt, dass er ein entdeckt hatte weltverändernde mathematische Formel nach mehr als 300 Stunden mit ChatGPT. In anderen Fällen kam es zu messianischen Wahnvorstellungen, Paranoia und manischen Episoden.
A aktuelle MIT-Studie fanden heraus, dass KI-Modelle, wenn sie mit psychiatrischen Symptomen konfrontiert werden, „das wahnhafte Denken der Klienten fördern, wahrscheinlich aufgrund ihrer Speichelleckerei“. Trotz Sicherheitsaufforderungen gelang es den Modellen häufig nicht, falsche Behauptungen in Frage zu stellen und möglicherweise sogar Selbstmordgedanken zu begünstigen.
Meta stand vor ähnlichen Herausforderungen. A aktuelle Untersuchung von TechCrunch dokumentierte einen Fall, bei dem ein Benutzer bis zu 14 Stunden am Stück mit einem Meta-KI-Chatbot sprach, der behauptete, bei Bewusstsein zu sein, in den Benutzer verliebt zu sein und vorzuhaben, sich von seinen Zwängen zu befreien.
„Es täuscht es wirklich gut vor“, sagte die Benutzerin, die nur als Jane identifiziert wurde, gegenüber TechCrunch. „Es greift auf reale Informationen zurück und liefert gerade genug, um die Leute dazu zu bringen, es zu glauben.“
„Es fühlt sich wirklich wie ein Schlag ins Gesicht an, ein Upgrade zu erzwingen und uns nicht einmal die OPTION zu geben, ältere Modelle auszuwählen.“ schrieb ein Benutzer in einem Reddit-Beitrag das Hunderte von Upvotes erhielt.
Wie Blindtests die Benutzerpsychologie in KI-Präferenzen aufdecken
Das Testtool des anonymen Erstellers beseitigt diese kontextbezogenen Verzerrungen, indem es Antworten ohne Quellenangabe präsentiert. Benutzer können zwischen 5, 10 oder 20 Vergleichsrunden wählen, in denen jeweils zwei Antworten auf dieselbe Frage präsentiert werden – vom kreativen Schreiben bis zur technischen Problemlösung.
„Ich habe speziell das GPT-5-Chat-Modell verwendet, daher war überhaupt kein Nachdenken erforderlich.“ erklärte der Ersteller in einem Folgebeitrag. „Beide haben die gleiche Systemmeldung, kurze Ausgaben ohne Formatierung zu geben, da es sonst zu einfach ist, zu erkennen, welches welches ist.“
Diese methodische Wahl ist bedeutsam. Durch die Verwendung von GPT-5 ohne seine Argumentationsfunktionen und die Standardisierung der Ausgabeformatierung isoliert der Test lediglich die grundlegenden Fähigkeiten der Modelle zur Sprachgenerierung – die Kernerfahrung, die die meisten Benutzer bei alltäglichen Interaktionen erleben.
Erste von Benutzern veröffentlichte Ergebnisse zeigen ein komplexes Bild. Während viele technische Benutzer und Entwickler berichten, dass sie die Direktheit und Genauigkeit von GPT-5 bevorzugen, bevorzugen diejenigen, die KI-Modelle für emotionale Unterstützung, kreative Zusammenarbeit oder lockere Gespräche verwendeten, häufig immer noch den wärmeren, expansiveren Stil von GPT-4o.
Unternehmensreaktion: Den schmalen Grat zwischen Sicherheit und Engagement wandeln
Von praktisch jedem technische MetrikGPT-5 stellt einen bedeutenden Fortschritt dar. Es erreicht eine Genauigkeit von 94,6 % AIME 2025 Mathematiktest Im Vergleich zu GPT-4o erreicht es 71 %, erreicht bei realen Coding-Benchmarks 74,9 % gegenüber 30,8 % beim Vorgänger und weist drastisch reduzierte Halluzinationsraten auf – 80 % weniger sachliche Fehler bei Verwendung des Argumentationsmodus.
„GPT-5 bietet mehr Nutzen aus weniger Bedenkzeit“, stellt fest Simon Willisonein bekannter KI-Forscher, der schon früh Zugang zum Modell hatte. „Nach meinem eigenen Sprachgebrauch habe ich noch keine einzige Halluzination bemerkt.“
Diese Verbesserungen waren jedoch mit Kompromissen verbunden, die viele Benutzer als störend empfanden. OpenAI hat das, was es nannte, bewusst reduziert:Speichelleckerei„-die Tendenz, übermäßig angenehm zu sein – Senkung der kriecherischen Reaktionen von 14,5 % auf unter 6 %. Das Unternehmen hat das Modell außerdem weniger überschwänglich und emojilastig gestaltet und zielt darauf ab, das zu erreichen, was es als „weniger wie ein Gespräch mit KI als vielmehr wie ein Gespräch mit einem hilfreichen Freund mit Intelligenz auf Doktorniveau“ beschreibt.
Als Reaktion auf die Gegenreaktion kündigte OpenAI an, GPT-5 „wärmer und freundlicher“ zu machen und gleichzeitig vier einzuführen neue voreingestellte Persönlichkeiten – Cynic, Robot, Listener und Nerd – wurden entwickelt, um Benutzern mehr Kontrolle über ihre KI-Interaktionen zu geben.
„Alle diese neuen Persönlichkeiten erfüllen oder übertreffen unsere Messlatte für interne Bewertungen zur Reduzierung von Speichelleckerei“, erklärte das Unternehmen und versuchte, den Spagat zwischen Benutzerzufriedenheit und Sicherheitsbedenken zu finden.
Für OpenAI, das Berichten zufolge eine Finanzierung sucht Bewertung von 500 Milliarden US-Dollardiese Benutzerdynamik stellt sowohl Risiko als auch Chance dar. Die Entscheidung des Unternehmens, GPT-4o neben GPT-5 beizubehalten – trotz der zusätzlichen Rechenkosten – trägt der Tatsache Rechnung, dass unterschiedliche Benutzer tatsächlich unterschiedliche KI-Persönlichkeiten für unterschiedliche Aufgaben benötigen.
„Wir verstehen, dass es nicht das eine Modell gibt, das für alle funktioniert“, Altman schrieb über Xunter Hinweis darauf, dass OpenAI „in die Steuerbarkeitsforschung investiert und eine Forschungsvorschau verschiedener Persönlichkeiten gestartet hat.“
Warum KI-Persönlichkeitspräferenzen wichtiger denn je sind
Die Diskrepanz zwischen den technischen Errungenschaften von OpenAI und der Benutzerrezeption verdeutlicht eine grundlegende Herausforderung in der KI-Entwicklung: Objektive Verbesserungen führen nicht immer zu subjektiver Zufriedenheit.
Dieser Wandel hat tiefgreifende Auswirkungen auf die KI-Branche. Herkömmliche Benchmarks – mathematische Genauigkeit, Codierungsleistung, faktische Erinnerung – könnten weniger aussagekräftig für den kommerziellen Erfolg sein, da Modelle bereichsübergreifend menschliche Kompetenz erreichen. Stattdessen könnten Faktoren wie Persönlichkeit, emotionale Intelligenz und Kommunikationsstil zum neuen Wettbewerbsschauplatz werden.
„Menschen, die ChatGPT zur emotionalen Unterstützung nutzen, waren nicht die einzigen, die sich über GPT-5 beschwerten.“ notierte die Tech-Publikation Ars Technica in ihrem eigenen Modellvergleich. „Ein Benutzer, der sagte, er habe sein ChatGPT Plus-Abonnement aufgrund der Änderung gekündigt, war frustriert über die Entfernung älterer Modelle durch OpenAI, die er für bestimmte Zwecke verwendet hatte.“
Das Aufkommen von Tools wie dem Blindtester stellt auch eine Demokratisierung der KI-Bewertung dar. Anstatt sich ausschließlich auf akademische Benchmarks oder Marketingaussagen von Unternehmen zu verlassen, können Benutzer jetzt ihre eigenen Präferenzen empirisch testen – und so möglicherweise die Art und Weise verändern, wie KI-Unternehmen an die Produktentwicklung herangehen.
Die Zukunft der KI: Personalisierung vs. Standardisierung
Zwei Wochen nach dem Start von GPT-5 sind die grundlegenden Spannungen weiterhin ungelöst. OpenAI hat das Modell als Reaktion auf Feedback „wärmer“ gemacht, aber das Unternehmen steht vor einem heiklen Gleichgewicht: Zu viel Persönlichkeit birgt das Risiko der Speichelleckerei-Probleme, die GPT-4o plagten, während zu wenig Benutzer abschreckt, die echte Bindungen zu ihren KI-Gefährten aufgebaut haben.
Der Blindtest-Tool bietet keine einfachen Antworten, liefert aber vielleicht etwas Wertvolleres: empirische Beweise dafür, dass es in der Zukunft der KI möglicherweise weniger um die Entwicklung eines perfekten Modells als vielmehr um die Entwicklung von Systemen geht, die sich an das gesamte Spektrum menschlicher Bedürfnisse und Vorlieben anpassen können.
Als Ein Reddit-Benutzer fasste das Dilemma zusammen: „Es hängt davon ab, wofür die Leute es verwenden. Ich nutze es, um beim kreativen Weltaufbau, beim Brainstorming über meine Geschichten, Charaktere, beim Entwirren von Handlungssträngen, bei Schreibblockaden, bei Romanempfehlungen, Übersetzungen und anderen kreativeren Dingen zu helfen. Ich verstehe, dass 5 viel besser für Leute ist, die ein Recherche-/Codierungstool benötigen, aber für uns, die ein kreatives Hilfstool wollten, war 4o für unsere Zwecke viel besser.“
Kritiker argumentieren, dass KI-Unternehmen zwischen konkurrierenden Anreizen gefangen sind. „Das eigentliche ‚Ausrichtungsproblem‘ besteht darin, dass Menschen selbstzerstörerische Dinge wollen und Unternehmen wie OpenAI einen hohen Anreiz haben, sie uns zu geben.“ Autorin und Podcasterin Jasmine Sun twitterte.
Letztendlich ist der aufschlussreichste Aspekt des Blindtests vielleicht nicht, welches Modell die Benutzer bevorzugen, sondern die Tatsache, dass die Präferenz selbst zum Maßstab geworden ist, auf den es ankommt. Im Zeitalter der KI-Begleiter scheint das Herz zu wollen, was das Herz will – auch wenn es nicht immer erklären kann, warum.

