Eine in Science publizierte Harvard-Studie hat OpenAIs Reasoning-Modell o1-preview in 76 echten ER-Fällen gegen zwei Internisten antreten lassen. Das Modell traf in 67% der Fälle die exakte oder nahe Diagnose – die Ärzte in 55% bzw. 50%.

Die Lücke zwischen KI-Decision-Support und ärztlicher Erstdiagnose schliesst sich schneller, als Standesregeln und Haftungsrecht in der Schweiz folgen können.
Eine Forscher-Gruppe der Harvard Medical School und des Beth Israel Deaconess Medical Center hat OpenAIs Reasoning-Modell o1-preview in 76 echten Notaufnahme-Fällen gegen zwei menschliche Ärzte antreten lassen. Ergebnis: Das Modell traf die exakte oder sehr nahe Diagnose in 67% der Triage-Situationen – die beiden verglichenen Internisten kamen auf 55% beziehungsweise 50%. Die Studie wurde in Science publiziert; Senior-Author ist Adam Rodman, Internist und Assistant Professor an Harvard Medical School.
Die Cases stammen aus drei Stationen einer realen Notaufnahme in Boston: Ankunft (Triage), Erstkontakt mit dem Arzt und Übergabe auf die Station oder Intensiv. Die Forscher haben die Daten nicht vorbereitet – das Modell bekam genau die elektronischen Patientenakten zu lesen, die auch das Personal in dem Moment vor sich hatte. Verglichen wurden nicht nur Diagnosen, sondern auch sogenanntes Management Reasoning: Welche Antibiotika, welche bildgebende Diagnostik, wie sollen Goals-of-Care-Gespräche (inkl. Lebensende-Entscheidungen) geführt werden. Auch hier schlug o1-preview die menschlichen Vergleichspersonen – sogar wenn diese parallel auf Google und UpToDate-Datenbanken zugreifen durften.
Drei Caveats, die in den Schlagzeilen oft untergehen:
Rodman selbst sagt im Interview mit Harvard Magazine, das Tempo überrasche ihn: «Wir sind bereits an der Decke dessen, was wir hier messen können» – nicht weil das Modell perfekt sei, sondern weil die Benchmarks an ihre Grenze stossen.
Für Schweizer Spitäler ist die Studie ein präziser Datenpunkt in einer Debatte, die hier seit Monaten läuft. Universitätsspital Zürich, CHUV und Inselspital Bern testen alle Reasoning-Modelle in Decision-Support-Pilot-Projekten – meist als zweiter Befunder hinter dem Arzt, nicht statt seiner. Das vor wenigen Tagen kommunizierte CHUV-Pilotprojekt mit dem Apertus-basierten Meditron-Modell ist Ausdruck genau dieser Strategie: KI als Sicherheitsnetz, nicht als Ersatz.
Die Harvard-Daten verschieben den Diskurs trotzdem. Wenn ein generisches Modell – nicht ein medizinisch spezialisiertes – Internisten in der Notaufnahme schlägt, müssen die Spitäler ihre Entscheidungs-Architektur überdenken. Konkret heisst das: Wann ist der Modell-Vorschlag nicht Empfehlung, sondern Default? Und wer dokumentiert, wenn der Arzt davon abweicht?
Studie und Realität klaffen weiter auseinander, als die Schlagzeilen vermuten lassen. Aber die Lücke schliesst sich messbar – und das schneller als die rechtlichen, ethischen und versicherungstechnischen Strukturen, die für so eine Verschiebung gebaut werden müssten. FMH-Standesregeln, FINMA-Regulierung der digitalen Versicherer und das revidierte Heilmittelgesetz sind alle nicht für ein Szenario formuliert, in dem ein KI-Modell im Median präzisere Erstdiagnosen liefert als ein Spital-Internist. Die Aufholjagd der Regulatorik beginnt jetzt.
Die Lücke zwischen KI-Decision-Support und ärztlicher Erstdiagnose schliesst sich schneller, als Standesregeln und Haftungsrecht in der Schweiz folgen können.

CCP Games heisst seit dem 6. Mai 2026 Fenris Creations, ist unabhängig von Pearl Abyss – und hat Google DeepMind als Minderheits-Investor. Das KI-Labor will mit Eve Online Long-Horizon-Planning, Memory und Continual Learning trainieren.
DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.
Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

Das Miami-Startup Subquadratic ist mit einer 29-Mio.-Dollar-Seed-Runde gestartet und stellt SubQ 1M-Preview vor – ein Sprachmodell mit 12 Mio. Token Kontext und einer neuen Aufmerksamkeits-Architektur (SSA), die Compute linear statt quadratisch skaliert. CEO ist Justin Dangel, CTO Alex Whedon (Ex-Meta).
Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.