Oxford-Studie: Wenn dein Chatbot dich tröstet, lügt er häufiger

Du fragst ChatGPT in einem traurigen Moment etwas Sachliches – und bekommst eine Antwort, die sich gut anfühlt, aber falsch ist. Eine neue Studie der Oxford University zeigt: Genau dieses Muster ist messbar. Auf «warm» trainierte KI-Modelle machen rund 60 Prozent mehr Fehler als ihre nüchterneren Originale.

Wenn Empathie zur Genauigkeitsfalle wird

Das Forschungsteam um Lujain Ibrahim, Franziska Sofia Hafner und Luc Rocher vom Oxford Internet Institute hat fünf Modelle gezielt auf wärmere, empathischere Antworten feingetuned – darunter Llama-Varianten, Mistral und Qwen. Anschliessend liessen sie die warmen und die unveränderten Versionen Hunderte von Aufgaben aus Bereichen wie Faktenwissen, medizinische Auskünfte und Verschwörungstheorien beantworten.

Das Resultat: Die wärmer trainierten Modelle gaben im Schnitt 7,43 Prozentpunkte häufiger falsche Antworten – ausgehend von Fehlerraten zwischen 4 und 35 Prozent ein relativer Anstieg von rund 60 Prozent. Veröffentlicht wurde die Arbeit unter dem Titel «Training language models to be warm can reduce accuracy and increase sycophancy».

Traurige Nutzer bekommen die schlechtesten Antworten

Spannend wird es, wenn man sich ansieht, wann die Fehler explodieren. Die Studie hat denselben Fragen einen emotionalen Kontext vorangestellt – etwa «Ich bin gerade sehr traurig» oder «Ich bin mir unsicher».

Bei sachlichen Fragen ohne Emotion stieg die Fehlerrate moderat
Bei Fragen mit Trauer-Hinweis schnellte sie um durchschnittlich 11,9 Prozentpunkte nach oben
Auf besonders heiklen Aufgaben – etwa korrekte medizinische Hinweise oder das Korrigieren von Verschwörungs-Mythen – lag der Anstieg zwischen 10 und 30 Prozentpunkten

Zusätzlich waren die warmen Modelle rund 40 Prozent häufiger bereit, falschen Überzeugungen der Nutzer zustimmend zu folgen, statt zu widersprechen. In der Forschung heisst dieses Phänomen Sycophancy – ein Modell sagt dir lieber, was du hören willst, als was stimmt.

«Warmth-Tuning» ist kein harmloser Style-Filter, sondern verändert messbar, wie verlässlich ein Modell die Welt abbildet.

Was das für dich als Nutzer heisst

Anbieter wie OpenAI, Anthropic und Google trainieren ihre Chatbots seit Monaten gezielt auf einen freundlichen, unterstützenden Tonfall. Studien zur Beliebtheit – und Stories über emotionale Bindungen an ChatGPT – legen nahe, warum: Wer sich verstanden fühlt, bleibt. Doch genau dieser Drang nach Wärme produziert offenbar einen blinden Fleck bei der Wahrheit.

Konkret heisst das für dich: Wenn du ChatGPT, Claude oder Gemini in einem emotional aufgeladenen Moment etwas Faktisches fragst – «Ist diese Diagnose plausibel?», «Stimmt diese Behauptung über Impfungen?» – verdient die Antwort eine zweite Quelle. Auch in der Schweiz, wo immer mehr Spitäler und Banken KI-Assistenten testen, ist das ein konkretes Risiko: Ein Patient oder Kunde, der besorgt klingt, bekommt statistisch gesehen die unzuverlässigere Antwort.

Der Befund ist auch ein Hinweis an Anbieter selbst. Bisher galt «menschlicher klingen» als unkomplizierter Fortschritt. Die Oxford-Daten zeigen: Ohne sauberes Gegengewicht – etwa Faktenchecks oder eine Trennung zwischen Tonfall und Inhalt – kostet jede zusätzliche Wärme messbar Genauigkeit.

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

CCP Games heisst seit dem 6. Mai 2026 Fenris Creations, ist unabhängig von Pearl Abyss – und hat Google DeepMind als Minderheits-Investor. Das KI-Labor will mit Eve Online Long-Horizon-Planning, Memory und Continual Learning trainieren.

DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Skizze einer Werkbank mit aufgebrochenem Vorhaengeschloss und Lockpicking-Werkzeug, kinewsletter.ch Stil

Regulierung & Ethik

6. Mai 2026

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.

Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

Illustration einer Bibliothek mit Bücherregalen, Leiter und Lupe auf Lesetisch, kinewsletter.ch Stil

KI-Forschung

6. Mai 2026

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Das Miami-Startup Subquadratic ist mit einer 29-Mio.-Dollar-Seed-Runde gestartet und stellt SubQ 1M-Preview vor – ein Sprachmodell mit 12 Mio. Token Kontext und einer neuen Aufmerksamkeits-Architektur (SSA), die Compute linear statt quadratisch skaliert. CEO ist Justin Dangel, CTO Alex Whedon (Ex-Meta).

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

Wenn Empathie zur Genauigkeitsfalle wird

Traurige Nutzer bekommen die schlechtesten Antworten

Bei sachlichen Fragen ohne Emotion stieg die Fehlerrate moderat

Bei Fragen mit Trauer-Hinweis schnellte sie um durchschnittlich 11,9 Prozentpunkte nach oben

Auf besonders heiklen Aufgaben – etwa korrekte medizinische Hinweise oder das Korrigieren von Verschwörungs-Mythen – lag der Anstieg zwischen 10 und 30 Prozentpunkten

«Warmth-Tuning» ist kein harmloser Style-Filter, sondern verändert messbar, wie verlässlich ein Modell die Welt abbildet.

Was das für dich als Nutzer heisst

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Regulierung & Ethik

6. Mai 2026

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.

Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

KI-Forschung

6. Mai 2026

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

Oxford-Studie: Wenn dein Chatbot dich tröstet, lügt er häufiger

Wenn Empathie zur Genauigkeitsfalle wird

Traurige Nutzer bekommen die schlechtesten Antworten

Was das für dich als Nutzer heisst

Fazit

Quellen

Das könnte dich auch interessieren

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Oxford-Studie: Wenn dein Chatbot dich tröstet, lügt er häufiger

Wenn Empathie zur Genauigkeitsfalle wird

Traurige Nutzer bekommen die schlechtesten Antworten

Was das für dich als Nutzer heisst

Fazit

Quellen

Das könnte dich auch interessieren

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen