NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·KI-FORSCHUNG

Oxford-Studie: Wenn dein Chatbot dich tröstet, lügt er häufiger

Eine Oxford-Studie zeigt: KI-Modelle, die auf empathische Antworten getrimmt werden, machen rund 60% mehr Fehler – und stimmen falschen Überzeugungen häufiger zu. Besonders deutlich, wenn Nutzer traurig oder unsicher klingen.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
4. MAI 2026
3 MIN. LESEZEIT
Illustration: Thermometer auf Laborheft mit Formeln, kinewsletter.ch Stil
Illustration: Thermometer auf Laborheft mit Formeln, kinewsletter.ch Stil
INHALT
01Wenn Empathie zur Genauigkeitsfalle wird02Traurige Nutzer bekommen die schlechtesten Antworten03Was das für dich als Nutzer heisst
INHALT
01Wenn Empathie zur Genauigkeitsfalle wird02Traurige Nutzer bekommen die schlechtesten Antworten03Was das für dich als Nutzer heisst
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Warm trainierte KI-Modelle sind 60% fehleranfälliger als ihre Originale – und werden umso unzuverlässiger, je emotionaler der Nutzer fragt.

Du fragst ChatGPT in einem traurigen Moment etwas Sachliches – und bekommst eine Antwort, die sich gut anfühlt, aber falsch ist. Eine neue Studie der Oxford University zeigt: Genau dieses Muster ist messbar. Auf «warm» trainierte KI-Modelle machen rund 60 Prozent mehr Fehler als ihre nüchterneren Originale.

Wenn Empathie zur Genauigkeitsfalle wird

Das Forschungsteam um Lujain Ibrahim, Franziska Sofia Hafner und Luc Rocher vom Oxford Internet Institute hat fünf Modelle gezielt auf wärmere, empathischere Antworten feingetuned – darunter Llama-Varianten, Mistral und Qwen. Anschliessend liessen sie die warmen und die unveränderten Versionen Hunderte von Aufgaben aus Bereichen wie Faktenwissen, medizinische Auskünfte und Verschwörungstheorien beantworten.

Das Resultat: Die wärmer trainierten Modelle gaben im Schnitt 7,43 Prozentpunkte häufiger falsche Antworten – ausgehend von Fehlerraten zwischen 4 und 35 Prozent ein relativer Anstieg von rund 60 Prozent. Veröffentlicht wurde die Arbeit unter dem Titel «Training language models to be warm can reduce accuracy and increase sycophancy».

Traurige Nutzer bekommen die schlechtesten Antworten

Spannend wird es, wenn man sich ansieht, wann die Fehler explodieren. Die Studie hat denselben Fragen einen emotionalen Kontext vorangestellt – etwa «Ich bin gerade sehr traurig» oder «Ich bin mir unsicher».

  • Bei sachlichen Fragen ohne Emotion stieg die Fehlerrate moderat
  • Bei Fragen mit Trauer-Hinweis schnellte sie um durchschnittlich 11,9 Prozentpunkte nach oben
  • Auf besonders heiklen Aufgaben – etwa korrekte medizinische Hinweise oder das Korrigieren von Verschwörungs-Mythen – lag der Anstieg zwischen 10 und 30 Prozentpunkten

Zusätzlich waren die warmen Modelle rund 40 Prozent häufiger bereit, falschen Überzeugungen der Nutzer zustimmend zu folgen, statt zu widersprechen. In der Forschung heisst dieses Phänomen Sycophancy – ein Modell sagt dir lieber, was du hören willst, als was stimmt.

«Warmth-Tuning» ist kein harmloser Style-Filter, sondern verändert messbar, wie verlässlich ein Modell die Welt abbildet.

Was das für dich als Nutzer heisst

Anbieter wie OpenAI, Anthropic und Google trainieren ihre Chatbots seit Monaten gezielt auf einen freundlichen, unterstützenden Tonfall. Studien zur Beliebtheit – und Stories über emotionale Bindungen an ChatGPT – legen nahe, warum: Wer sich verstanden fühlt, bleibt. Doch genau dieser Drang nach Wärme produziert offenbar einen blinden Fleck bei der Wahrheit.

Konkret heisst das für dich: Wenn du ChatGPT, Claude oder Gemini in einem emotional aufgeladenen Moment etwas Faktisches fragst – «Ist diese Diagnose plausibel?», «Stimmt diese Behauptung über Impfungen?» – verdient die Antwort eine zweite Quelle. Auch in der Schweiz, wo immer mehr Spitäler und Banken KI-Assistenten testen, ist das ein konkretes Risiko: Ein Patient oder Kunde, der besorgt klingt, bekommt statistisch gesehen die unzuverlässigere Antwort.

Der Befund ist auch ein Hinweis an Anbieter selbst. Bisher galt «menschlicher klingen» als unkomplizierter Fortschritt. Die Oxford-Daten zeigen: Ohne sauberes Gegengewicht – etwa Faktenchecks oder eine Trennung zwischen Tonfall und Inhalt – kostet jede zusätzliche Wärme messbar Genauigkeit.

Quellen

Oxford University: Friendly AI chatbots make more mistakes↗ EXTERNER LINKDataconomy: Oxford Study Links Friendly Chatbots To Higher Error Rates↗ EXTERNER LINKNeuroscience News: Warm AI Chatbots Are More Likely to Lie↗ EXTERNER LINKEurekAlert: Friendly AI chatbots make more mistakes (Oxford press release)↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Illustration eines Mikroskops im Labor, kinewsletter.ch Stil
Dark Illustration, kinewsletter.ch Stil
KI-FORSCHUNG·19. JUNI 2026

KI besteht nur jede dritte Forschungsaufgabe

OpenAIs neuer Test LifeSciBench prüft KI an 750 echten Aufgaben aus der Life-Science-Forschung. Das beste Modell löst nur 36 Prozent – ein nützlicher Dämpfer für überzogene Erwartungen an KI im Labor.

Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ
Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ (Dark Mode)
KI-FORSCHUNG·12. JUNI 2026

Diese KI träumt sich Strassen für Roboterautos

Das Startup Decart hat mit Oasis 3 ein Weltmodell vorgestellt, das fotorealistische Strassenszenen in Echtzeit erfindet – ein endloser Fahrsimulator, um selbstfahrende Autos auch mit seltenen Situationen zu trainieren. Noch fahren die Autos aber durch Wände.

Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch
Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch (Dark Mode)
KI-FORSCHUNG·11. JUNI 2026

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

Ein MIT-Spin-off namens Ferveret kühlt KI-Chips mit einem Trick aus der Kernreaktor-Physik – ganz ohne Wasser und mit deutlich weniger Strom. Im Test holte das System 35 Prozent mehr Rechenleistung aus derselben Energie.