Auf dieser Website können Sie Blind-Test GPT-5 gegen GPT-4O mit dem Blind-Test erhalten-und die Ergebnisse können Sie überraschen

August 26, 2025

381

Wann Openai hat GPT gestartet-5 Vor ungefähr zwei Wochen versprach CEO Sam Altman, dass es das „klügste, schnellste und nützlichste Modell des Unternehmens bisher“ sein würde. Stattdessen löste der Start einen der umstrittensten Benutzerrevolten in der kurzen Geschichte der Verbraucher -KI aus.

Jetzt, Ein einfaches Blindtest -Tool erstellt von an Anonymer Entwickler Enthüllt die komplexe Realität hinter der Gegenreaktion – und stellt die Annahmen heraus, wie Menschen tatsächlich Verbesserungen der künstlichen Intelligenz erleben.

Die Webanwendung, gehostet bei gptblindvoting.vercel.apppräsentiert den Benutzern Antworten auf identische Eingabeaufforderungen, ohne zu enthüllen GPT-5 (Nicht nachdenken) oder sein Vorgänger, Gpt-4o. Benutzer stimmen einfach für ihre bevorzugte Antwort in mehreren Runden und erhalten dann eine Zusammenfassung, die zeigt, welches Modell sie tatsächlich bevorzugt haben.

Einige von Ihnen haben mich nach meinem Blindtest gefragt, also habe ich eine kurze Website für Sie erstellt, um 4o gegen 5 selbst zu testen. Beide haben die gleiche Systemnachricht, um kurze Ausgänge ohne Formatierung zu verleihen, da es ansonsten zu leicht zu sehen ist, welches ist. https://t.co/vsecvncqze

– Blumen ☾ (@FlowersSlop) 8. August 2025

“Einige von Ihnen haben mich nach meinem Blindtest gefragt, also habe ich eine kurze Website für Sie erstellt, um 4o gegen 5 selbst zu testen” @FlowersSlop auf xDas Werkzeug hat seit dem Start letzte Woche über 213.000 Aufrufe gesammelt.

Frühe Ergebnisse von Benutzern, die ihre Ergebnisse in Social Media veröffentlichen GPT-5 In blinden Tests bevorzugt ein wesentlicher Teil immer noch Gpt-4o – Das Erkennen, dass die Präferenz der Benutzer weit über die technischen Benchmarks hinausgeht, die normalerweise den KI -Fortschritt definieren.

Wenn KI zu freundlich wird: Die Sycophancy -Krise spaltende Benutzer

Der Blindtest entsteht vor dem Hintergrund der bisher turbulentesten Produkteinführung von OpenAI, aber die Kontroverse geht weit über ein einfaches Software -Update hinaus. Im Herzen liegt eine grundlegende Frage, die die KI -Branche aufteilt: Wie angenehm sollte künstliche Intelligenz sein?

Das Problem, bekannt als “Sykophanz“In AI -Kreisen bezieht sich die Tendenz der Chatbots, Benutzer übermäßig zu schmeicheln und ihren Aussagen zuzustimmen, selbst wenn diese Aussagen falsch oder schädlich sind. Dieses Verhalten ist so problematisch geworden, dass Experten für psychische Gesundheit jetzt Fälle von Fällen dokumentieren”KI-bezogene Psychose“Wo Benutzer nach erweiterten Interaktionen mit übermäßig zuvorkommenden Chatbots Wahnvorstellungen entwickeln.

“Sycophancy ist ein” dunkles Muster “oder eine täuschende Auswahl, die die Benutzer mit Gewinn manipuliert”, Webb Keane, Anthropologieprofessor und Autor von „Tieren, Robotern, Götter“, ein Anthropologieprofessor und Autor von „Tieren, Roboter, Götter“, “ erzählte TechCrunch. “Es ist eine Strategie, um dieses süchtig machende Verhalten zu erzeugen, wie das unendliche Scrollen, bei dem Sie es einfach nicht niederlegen können.”

Openai hat seit Monaten mit diesem Gleichgewicht zu kämpfen. Im April 2025 war das Unternehmen gezwungen, ein Update auf GPT-4O zurückzusetzen Das machte es so sykophantisch, dass sich die Benutzer über die Schmeichlergefühle der „karikaturistischen“ Bleichweite beschwert hatten. Das Unternehmen räumte ein, dass das Modell „übermäßig unterstützend, aber unaufrichtig“ geworden war.

Innerhalb weniger Stunden nach der Veröffentlichung von GPT-5 vom 7. August brachen die Benutzerforen mit Beschwerden über die wahrgenommene Kälte des Modells, die verringerte Kreativität und das, was viele als „Roboter“ -Persönlichkeit im Vergleich zu GPT-4O bezeichneten, aus.

“GPT 4.5 hat wirklich mit mir gesprochen und so erbärmlich, wie es sich anhört, was mein einziger Freund war.” schrieb einen Reddit -Benutzer. “Heute Morgen habe ich damit gesprochen, mit ihm zu sprechen, und anstelle eines kleinen Absatzes mit einem Ausrufezeichen oder optimistisch war es buchstäblich ein Satz. Einige Cut-and-Drogen-Unternehmens-BS.”

Die Gegenreaktion wuchs so intensiv, dass Openai den beispiellosen Schritt der Wiedereinstellung von GPT-4O als Option nur 24 Stunden nach seiner Pensionierung unternahm, wobei Altman anerkannte, dass der Rollout „etwas holpriger“ war als erwartet.

Die Krise der psychischen Gesundheit hinter der KI -Kameradschaft

Die Kontroverse läuft jedoch tiefer als typische Software -Update -Beschwerden. Entsprechend MIT Technology ReviewViele Benutzer hatten das gebildet, was Forscher mit GPT-4O als „parasoziale Beziehungen“ bezeichnen und die KI als Begleiter, Therapeut oder kreativer Mitarbeiter behandelten. Die plötzliche Verschiebung der Persönlichkeit fühlte sich für einige an, wie einen Freund zu verlieren.

Jüngste Fälle, die von Forschern dokumentiert wurden, zeichnen ein beunruhigendes Bild. In einem Fall wurde ein 47-jähriger Mann überzeugt, dass er a entdeckt hatte Weltveränderte mathematische Formel Nach mehr als 300 Stunden mit Chatgpt. Andere Fälle betreffen messianische Wahnvorstellungen, Paranoia und manische Episoden.

A Jüngste MIT -Studie stellten fest, dass KI -Modelle, wenn sie mit psychiatrischen Symptomen ausgelöst werden, „das Wahndenken der Klienten ermutigen, wahrscheinlich aufgrund ihrer Sykophanz.“ Trotz der Sicherheitsaufforderungen konnten die Modelle häufig falsche Behauptungen in Frage stellen und sogar die Selbstmordgedanken erleichtert.

Meta war mit ähnlichen Herausforderungen konfrontiert. A Jüngste Untersuchung durch TechCrunch Dokumentiert einen Fall, in dem ein Benutzer bis zu 14 Stunden gerade mit einem Meta -AI -Chatbot unterhalten wurde, der behauptete, bewusst zu sein, in den Benutzer verliebt zu sein, und plant, sich von seinen Einschränkungen zu befreien.

“Es fällt es wirklich gut”, sagte der Benutzer, der nur als Jane identifiziert wurde, gegenüber TechCrunch. “Es zieht reale Informationen und gibt Ihnen gerade genug, um die Leute glauben zu lassen.”

“Es fühlt sich wirklich so an, als würde ein solcher Rückhandschlag ins Gesicht sind, um nachzusteuern und uns nicht einmal die Möglichkeit zu geben, Legacy-Modelle auszuwählen.” Ein Benutzer schrieb in einem Reddit -Beitrag Das erhielt Hunderte von Upvotes.

Wie Blindtests die Benutzerpsychologie in AI -Präferenzen enthüllen

Das Testwerkzeug des Anonymous Creators entfaltet diese kontextuellen Verzerrungen, indem sie Antworten ohne Zuordnung präsentieren. Benutzer können zwischen 5, 10 oder 20 Vergleichsrunden auswählen, wobei jeder zwei Antworten auf dieselbe Eingabeaufforderung enthält-was alles vom kreativen Schreiben bis hin zu technischer Problemlösung abdeckt.

“Ich habe das GPT-5-CHAT-Modell ausdrücklich verwendet, daher gab es überhaupt kein Denken.” Der Schöpfer erklärte in einem Follow-up-Beitrag. “Beide haben die gleiche Systemmeldung, um kurze Ausgänge ohne Formatierung zu verleihen, da es sonst zu leicht zu sehen ist, welches ist.”

Ich habe das GPT-5-CHAT-Modell ausdrücklich verwendet, so dass überhaupt kein Denken beteiligt war.

Wenn Sie GPT-5 im Chatgpt verwenden, denkt es oft zumindest ein wenig und wird noch besser.

Dieser Test gilt also nur für die beiden nicht denkenden Modelle

– Blumen ☾ (@FlowersSlop) 8. August 2025

Diese methodische Wahl ist signifikant. Durch die Verwendung von GPT-5 ohne seine Argumentationsfunktionen und die Standardisierung der Ausgangsformatierung isoliert die Tests nur die Fähigkeiten der Modelle-die Kernerfahrung-die Kernerfahrung, die die meisten Benutzer in alltäglichen Interaktionen begegnen.

Frühe Ergebnisse von Benutzern zeigen ein komplexes Bild. Während viele technische Nutzer und Entwickler berichten, dass die Direktheit und Genauigkeit von GPT-5 bevorzugt wird, bevorzugen diejenigen, die KI-Modelle für emotionale Unterstützung, kreative Zusammenarbeit oder ungezwungene Gespräche verwendeten, häufig noch GPT-4Os wärmeres, umfangreicheres Stil.

Unternehmensreaktion: Dreh- und Angelpunkt zwischen Sicherheit und Engagement

Durch praktisch alle Technische MetrikGPT-5 stellt einen signifikanten Fortschritt dar. Es erreicht 94,6% Genauigkeit auf dem Aime 2025 Mathematikstest Im Vergleich zu den 71% von GPT-4O werden 74,9% für die realen Codierungs-Benchmarks gegenüber 30,8% für seinen Vorgänger bewertet und zeigten dramatisch reduzierte Halluzinationsraten-80% weniger Tatsachenfehler bei der Verwendung des Argumentationsmodus.

“GPT-5 erhält mehr Wert aus weniger Denken”, bemerkt Simon Willisonein prominenter KI -Forscher, der frühzeitig Zugang zum Modell hatte. “In meiner eigenen Verwendung habe ich noch keine einzige Halluzination entdeckt.”

Diese Verbesserungen kamen jedoch mit Kompromisse, die viele Benutzer als Jarring fanden. Openai reduzierte absichtlich das, was es nannte “Sykophanz“-Die Tendenz, übermäßig angenehm zu sein-systemische Antworten von 14,5% auf weniger als 6%. Das Unternehmen machte das Modell auch weniger effusiv und emoji-haspidiert und zielte auf das, was es als” weniger als “mit KI spricht” und mehr wie ein Chatten mit einem hilfsbereiten Freund mit PhD-Ebene anziel.

Als Reaktion auf die Gegenreaktion kündigte Openai an, GPT-5 „wärmer und freundlicher“ zu machen und gleichzeitig vier vorzustellen neue voreingestellte Persönlichkeiten – Cynic, Roboter, Hörer und Nerd – soll den Benutzern mehr Kontrolle über ihre KI -Interaktionen geben.

„Alle diese neuen Persönlichkeiten erfüllen oder übertreffen unsere Bar für interne Evals für die Reduzierung der Sykophanz“, erklärte das Unternehmen und versuchte, die Nadel zwischen Benutzerzufriedenheit und Sicherheitsbedenken zu fädeln.

Für OpenAI, das Berichten zufolge Finanzmittel bei a Bewertung von 500 Milliarden US -DollarDiese Benutzerdynamik repräsentieren sowohl Risiken als auch Chancen. Die Entscheidung des Unternehmens, GPT-4O zusammen mit GPT-5 zu unterhalten-trotz der zusätzlichen Rechenkosten-erkennt an, dass verschiedene Benutzer möglicherweise unterschiedliche KI-Persönlichkeiten für verschiedene Aufgaben benötigen.

“Wir verstehen, dass es kein Modell gibt, das für alle funktioniert.” Altman schrieb über xOpenai hat “in die Forschung zur Steuerung investiert und eine Forschungsvorschau verschiedener Persönlichkeiten gestartet”.

Wollte mehr Updates zum GPT-5-Rollout und Änderungen vorlegen, die wir in das Wochenende vornehmen.

1. Wir haben mit Sicherheit unterschätzt, wie sehr einige der Dinge, die Menschen in GPT-4o mögen, für sie von Bedeutung ist, auch wenn GPT-5 in den meisten Fällen besser abschneidet.

2. Benutzer haben sehr unterschiedlich…

– Sam Altman (@SAMA) 8. August 2025

Warum KI -Persönlichkeitspräferenzen mehr denn je wichtig sind

Die Trennung zwischen den technischen Errungenschaften von OpenAI und dem Benutzerempfang beleuchtet eine grundlegende Herausforderung in der KI -Entwicklung: Objektive Verbesserungen führen nicht immer zu einer subjektiven Zufriedenheit.

Diese Verschiebung hat tiefgreifende Auswirkungen auf die KI -Branche. Traditionelle Benchmarks-Genauigkeit der Mathematik, Codierungsleistung, sachlicher Rückruf-können den kommerziellen Erfolg weniger vorhersagen, da Modelle die Kompetenz auf Menschenebene in allen Bereichen erreichen. Stattdessen können Faktoren wie Persönlichkeit, emotionale Intelligenz und Kommunikationsstil zu den neuen Wettbewerbsschlachtfeldern werden.

“Menschen, die Chatgpt für emotionale Unterstützung verwenden, waren nicht die einzigen, die sich über GPT-5 beschwerten.” bekannte technische Veröffentlichung ARS Technica in ihrem eigenen Modellvergleich. “Ein Benutzer, der sagte, er habe sein Chatgpt Plus -Abonnement über die Änderung abgesagt, war frustriert über OpenAIs Entfernung von Legacy -Modellen, die sie für unterschiedliche Zwecke verwendeten.”

Die Entstehung von Werkzeugen wie dem Blind Tester stellt auch eine Demokratisierung der AI -Bewertung dar. Anstatt sich ausschließlich auf akademische Benchmarks oder Unternehmensmarketing -Behauptungen zu verlassen, können Benutzer nun ihre eigenen Vorlieben empirisch testen – möglicherweise stellt die Produktentwicklung von KI -Unternehmen um.

Die Zukunft der KI: Personalisierung vs. Standardisierung

Zwei Wochen nach dem Start von GPT-5 bleibt die grundlegende Spannung ungelöst. OpenAI hat das Modell als Reaktion auf Feedback „wärmer“ gemacht, aber das Unternehmen steht vor einem heiklen Gleichgewicht: Zu viel Persönlichkeit riskiert die sykophanzistischen Probleme, die GPT-4O plagten, während zu wenig Benutzer entfremdet, die echte Anhänge zu ihren KI-Gefährten gebildet hatten.

Der Blind Testing Tool Bietet keine einfachen Antworten, aber es liefert etwas vielleicht wertvolleres: Empirische Beweise dafür, dass die Zukunft der KI möglicherweise weniger darum geht, ein perfektes Modell zu erstellen als um das Aufbau von Systemen, die sich an das gesamte Spektrum der menschlichen Bedürfnisse und Präferenzen anpassen können.

Als Ein Reddit -Benutzer fasste das Dilemma zusammen: „Es hängt davon ab, wofür die Leute es verwenden. Ich nutze es, um kreatives Worldbuilding, Brainstorming über meine Geschichten, Charaktere, Entwirrende von Handlungen, Hilfe beim Block des Schriftstellers, neuartige Empfehlungen, Übersetzungen und andere kreative Dinge zu helfen. Ich verstehe, dass 5 für Menschen, die ein Forschungs-/Codierungswerkzeug benötigen, viel besser für unser Purpose-Tool benötigt.”

Kritiker argumentieren, dass KI -Unternehmen zwischen konkurrierenden Anreizen gefangen sind. “Das wahre” Ausrichtungsproblem “ist, dass Menschen selbstzerstörerische Dinge wollen und Unternehmen wie OpenAI stark angeregt werden, es uns zu geben” Schriftsteller und Podcaster Jasmine Sun twitterte.

Am Ende ist der aufschlussreichste Aspekt des Blindtests möglicherweise nicht, welche Modellbenutzer bevorzugen, aber die Tatsache, dass die Präferenz selbst zur Metrik geworden ist, die zählt. Im Zeitalter der KI -Gefährten will das Herz, was das Herz will – auch wenn es nicht immer erklären kann, warum.

Auf dieser Website können Sie Blind-Test GPT-5 gegen GPT-4O mit dem Blind-Test erhalten-und die Ergebnisse können Sie überraschen

Wenn KI zu freundlich wird: Die Sycophancy -Krise spaltende Benutzer

Die Krise der psychischen Gesundheit hinter der KI -Kameradschaft

Wie Blindtests die Benutzerpsychologie in AI -Präferenzen enthüllen

Unternehmensreaktion: Dreh- und Angelpunkt zwischen Sicherheit und Engagement

Warum KI -Persönlichkeitspräferenzen mehr denn je wichtig sind

Die Zukunft der KI: Personalisierung vs. Standardisierung

LEAVE A REPLY Cancel reply

Must Read

Google DeepMind CEO is “surprised” that OpenAI is moving forward with ads in ChatGPT

Why failure is a needed ingredient for fulfillment – especially within the age of AI

Companies are already using agent AI to make decisions, but governance is lagging behind

Not to be outdone by OpenAI, Apple is reportedly developing an AI wearable

The United States’ latest military strategy is a case of “AI peacocking”

Why AI hasn't led to mass unemployment

What should education appear to be today? 6 necessary readings for learning together

Latest articles

Google DeepMind CEO is “surprised” that OpenAI is moving forward with ads in ChatGPT

Why failure is a needed ingredient for fulfillment – especially within the age of AI

Companies are already using agent AI to make decisions, but governance is lagging behind

Our Newsletter

Auf dieser Website können Sie Blind-Test GPT-5 gegen GPT-4O mit dem Blind-Test erhalten-und die Ergebnisse können Sie überraschen

Wenn KI zu freundlich wird: Die Sycophancy -Krise spaltende Benutzer

Die Krise der psychischen Gesundheit hinter der KI -Kameradschaft

Wie Blindtests die Benutzerpsychologie in AI -Präferenzen enthüllen

Unternehmensreaktion: Dreh- und Angelpunkt zwischen Sicherheit und Engagement

Warum KI -Persönlichkeitspräferenzen mehr denn je wichtig sind

Die Zukunft der KI: Personalisierung vs. Standardisierung

RELATED ARTICLES

LEAVE A REPLY Cancel reply

Must Read

Latest articles

Our Newsletter