Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

Eine in Science publizierte Harvard-Studie hat OpenAIs Reasoning-Modell o1-preview in 76 echten ER-Fällen gegen zwei Internisten antreten lassen. Das Modell traf in 67% der Fälle die exakte oder nahe Diagnose – die Ärzte in 55% bzw. 50%.

Eine Forscher-Gruppe der Harvard Medical School und des Beth Israel Deaconess Medical Center hat OpenAIs Reasoning-Modell o1-preview in 76 echten Notaufnahme-Fällen gegen zwei menschliche Ärzte antreten lassen. Ergebnis: Das Modell traf die exakte oder sehr nahe Diagnose in 67% der Triage-Situationen – die beiden verglichenen Internisten kamen auf 55% beziehungsweise 50%. Die Studie wurde in Science publiziert; Senior-Author ist Adam Rodman, Internist und Assistant Professor an Harvard Medical School.

Was genau getestet wurde

Die Cases stammen aus drei Stationen einer realen Notaufnahme in Boston: Ankunft (Triage), Erstkontakt mit dem Arzt und Übergabe auf die Station oder Intensiv. Die Forscher haben die Daten nicht vorbereitet – das Modell bekam genau die elektronischen Patientenakten zu lesen, die auch das Personal in dem Moment vor sich hatte. Verglichen wurden nicht nur Diagnosen, sondern auch sogenanntes Management Reasoning: Welche Antibiotika, welche bildgebende Diagnostik, wie sollen Goals-of-Care-Gespräche (inkl. Lebensende-Entscheidungen) geführt werden. Auch hier schlug o1-preview die menschlichen Vergleichspersonen – sogar wenn diese parallel auf Google und UpToDate-Datenbanken zugreifen durften.

Der wichtige Kleingedruckte

Drei Caveats, die in den Schlagzeilen oft untergehen:

Vergleichsgruppe waren Internisten, keine Notfallmediziner. Internisten sind allgemein-internistisch ausgebildet, der Spezialist für die Notaufnahme ist der Notfallmediziner. Die Studie sagt also: Das Modell schlägt zwei generelle Internisten in einem ER-Setting – nicht, dass es ER-Profis ersetzt.
Es geht um textbasierte Diagnose, nicht um die körperliche Untersuchung, das Bauchgefühl im Schockraum oder den Notruf-Anpfiff um 03:00 Uhr.
Haftungsfrage ungelöst. Wenn o1 falsch liegt – wer haftet? Modell-Anbieter? Spital? Behandelnder Arzt? Die Studie liefert keine Antwort.

Rodman selbst sagt im Interview mit Harvard Magazine, das Tempo überrasche ihn: «Wir sind bereits an der Decke dessen, was wir hier messen können» – nicht weil das Modell perfekt sei, sondern weil die Benchmarks an ihre Grenze stossen.

Schweiz-Bezug

Für Schweizer Spitäler ist die Studie ein präziser Datenpunkt in einer Debatte, die hier seit Monaten läuft. Universitätsspital Zürich, CHUV und Inselspital Bern testen alle Reasoning-Modelle in Decision-Support-Pilot-Projekten – meist als zweiter Befunder hinter dem Arzt, nicht statt seiner. Das vor wenigen Tagen kommunizierte CHUV-Pilotprojekt mit dem Apertus-basierten Meditron-Modell ist Ausdruck genau dieser Strategie: KI als Sicherheitsnetz, nicht als Ersatz.

Die Harvard-Daten verschieben den Diskurs trotzdem. Wenn ein generisches Modell – nicht ein medizinisch spezialisiertes – Internisten in der Notaufnahme schlägt, müssen die Spitäler ihre Entscheidungs-Architektur überdenken. Konkret heisst das: Wann ist der Modell-Vorschlag nicht Empfehlung, sondern Default? Und wer dokumentiert, wenn der Arzt davon abweicht?

Einordnung

Studie und Realität klaffen weiter auseinander, als die Schlagzeilen vermuten lassen. Aber die Lücke schliesst sich messbar – und das schneller als die rechtlichen, ethischen und versicherungstechnischen Strukturen, die für so eine Verschiebung gebaut werden müssten. FMH-Standesregeln, FINMA-Regulierung der digitalen Versicherer und das revidierte Heilmittelgesetz sind alle nicht für ein Szenario formuliert, in dem ein KI-Modell im Median präzisere Erstdiagnosen liefert als ein Spital-Internist. Die Aufholjagd der Regulatorik beginnt jetzt.

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

CCP Games heisst seit dem 6. Mai 2026 Fenris Creations, ist unabhängig von Pearl Abyss – und hat Google DeepMind als Minderheits-Investor. Das KI-Labor will mit Eve Online Long-Horizon-Planning, Memory und Continual Learning trainieren.

DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Skizze einer Werkbank mit aufgebrochenem Vorhaengeschloss und Lockpicking-Werkzeug, kinewsletter.ch Stil

Regulierung & Ethik

6. Mai 2026

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.

Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

Illustration einer Bibliothek mit Bücherregalen, Leiter und Lupe auf Lesetisch, kinewsletter.ch Stil

KI-Forschung

6. Mai 2026

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Das Miami-Startup Subquadratic ist mit einer 29-Mio.-Dollar-Seed-Runde gestartet und stellt SubQ 1M-Preview vor – ein Sprachmodell mit 12 Mio. Token Kontext und einer neuen Aufmerksamkeits-Architektur (SSA), die Compute linear statt quadratisch skaliert. CEO ist Justin Dangel, CTO Alex Whedon (Ex-Meta).

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

Was genau getestet wurde

Der wichtige Kleingedruckte

Drei Caveats, die in den Schlagzeilen oft untergehen:

Vergleichsgruppe waren Internisten, keine Notfallmediziner. Internisten sind allgemein-internistisch ausgebildet, der Spezialist für die Notaufnahme ist der Notfallmediziner. Die Studie sagt also: Das Modell schlägt zwei generelle Internisten in einem ER-Setting – nicht, dass es ER-Profis ersetzt.

Es geht um textbasierte Diagnose, nicht um die körperliche Untersuchung, das Bauchgefühl im Schockraum oder den Notruf-Anpfiff um 03:00 Uhr.

Haftungsfrage ungelöst. Wenn o1 falsch liegt – wer haftet? Modell-Anbieter? Spital? Behandelnder Arzt? Die Studie liefert keine Antwort.

Schweiz-Bezug

Einordnung

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Regulierung & Ethik

6. Mai 2026

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.

Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

KI-Forschung

6. Mai 2026

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

Was genau getestet wurde

Der wichtige Kleingedruckte

Schweiz-Bezug

Einordnung

Fazit

Quellen

Das könnte dich auch interessieren

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

Was genau getestet wurde

Der wichtige Kleingedruckte

Schweiz-Bezug

Einordnung

Fazit

Quellen

Das könnte dich auch interessieren

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen