NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·KI-FORSCHUNG

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

Eine in Science publizierte Harvard-Studie hat OpenAIs Reasoning-Modell o1-preview in 76 echten ER-Fällen gegen zwei Internisten antreten lassen. Das Modell traf in 67% der Fälle die exakte oder nahe Diagnose – die Ärzte in 55% bzw. 50%.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
5. MAI 2026
3 MIN. LESEZEIT
Illustration eines Notfallraum-Korridors mit Stretcher, Stethoskop und Vital-Monitor, kinewsletter.ch Stil
Illustration eines Notfallraum-Korridors mit Stretcher, Stethoskop und Vital-Monitor, kinewsletter.ch Stil
INHALT
01Was genau getestet wurde02Der wichtige Kleingedruckte03Schweiz-Bezug04Einordnung
INHALT
01Was genau getestet wurde02Der wichtige Kleingedruckte03Schweiz-Bezug04Einordnung
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Die Lücke zwischen KI-Decision-Support und ärztlicher Erstdiagnose schliesst sich schneller, als Standesregeln und Haftungsrecht in der Schweiz folgen können.

Eine Forscher-Gruppe der Harvard Medical School und des Beth Israel Deaconess Medical Center hat OpenAIs Reasoning-Modell o1-preview in 76 echten Notaufnahme-Fällen gegen zwei menschliche Ärzte antreten lassen. Ergebnis: Das Modell traf die exakte oder sehr nahe Diagnose in 67% der Triage-Situationen – die beiden verglichenen Internisten kamen auf 55% beziehungsweise 50%. Die Studie wurde in Science publiziert; Senior-Author ist Adam Rodman, Internist und Assistant Professor an Harvard Medical School.

Was genau getestet wurde

Die Cases stammen aus drei Stationen einer realen Notaufnahme in Boston: Ankunft (Triage), Erstkontakt mit dem Arzt und Übergabe auf die Station oder Intensiv. Die Forscher haben die Daten nicht vorbereitet – das Modell bekam genau die elektronischen Patientenakten zu lesen, die auch das Personal in dem Moment vor sich hatte. Verglichen wurden nicht nur Diagnosen, sondern auch sogenanntes Management Reasoning: Welche Antibiotika, welche bildgebende Diagnostik, wie sollen Goals-of-Care-Gespräche (inkl. Lebensende-Entscheidungen) geführt werden. Auch hier schlug o1-preview die menschlichen Vergleichspersonen – sogar wenn diese parallel auf Google und UpToDate-Datenbanken zugreifen durften.

Der wichtige Kleingedruckte

Drei Caveats, die in den Schlagzeilen oft untergehen:

  • Vergleichsgruppe waren Internisten, keine Notfallmediziner. Internisten sind allgemein-internistisch ausgebildet, der Spezialist für die Notaufnahme ist der Notfallmediziner. Die Studie sagt also: Das Modell schlägt zwei generelle Internisten in einem ER-Setting – nicht, dass es ER-Profis ersetzt.
  • Es geht um textbasierte Diagnose, nicht um die körperliche Untersuchung, das Bauchgefühl im Schockraum oder den Notruf-Anpfiff um 03:00 Uhr.
  • Haftungsfrage ungelöst. Wenn o1 falsch liegt – wer haftet? Modell-Anbieter? Spital? Behandelnder Arzt? Die Studie liefert keine Antwort.

Rodman selbst sagt im Interview mit Harvard Magazine, das Tempo überrasche ihn: «Wir sind bereits an der Decke dessen, was wir hier messen können» – nicht weil das Modell perfekt sei, sondern weil die Benchmarks an ihre Grenze stossen.

Schweiz-Bezug

Für Schweizer Spitäler ist die Studie ein präziser Datenpunkt in einer Debatte, die hier seit Monaten läuft. Universitätsspital Zürich, CHUV und Inselspital Bern testen alle Reasoning-Modelle in Decision-Support-Pilot-Projekten – meist als zweiter Befunder hinter dem Arzt, nicht statt seiner. Das vor wenigen Tagen kommunizierte CHUV-Pilotprojekt mit dem Apertus-basierten Meditron-Modell ist Ausdruck genau dieser Strategie: KI als Sicherheitsnetz, nicht als Ersatz.

Die Harvard-Daten verschieben den Diskurs trotzdem. Wenn ein generisches Modell – nicht ein medizinisch spezialisiertes – Internisten in der Notaufnahme schlägt, müssen die Spitäler ihre Entscheidungs-Architektur überdenken. Konkret heisst das: Wann ist der Modell-Vorschlag nicht Empfehlung, sondern Default? Und wer dokumentiert, wenn der Arzt davon abweicht?

Einordnung

Studie und Realität klaffen weiter auseinander, als die Schlagzeilen vermuten lassen. Aber die Lücke schliesst sich messbar – und das schneller als die rechtlichen, ethischen und versicherungstechnischen Strukturen, die für so eine Verschiebung gebaut werden müssten. FMH-Standesregeln, FINMA-Regulierung der digitalen Versicherer und das revidierte Heilmittelgesetz sind alle nicht für ein Szenario formuliert, in dem ein KI-Modell im Median präzisere Erstdiagnosen liefert als ein Spital-Internist. Die Aufholjagd der Regulatorik beginnt jetzt.

Quellen

In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors – TechCrunch↗ EXTERNER LINKAI Outperforms Doctors in Emergency Room Tasks, New Harvard Study Shows – Harvard Magazine↗ EXTERNER LINKA Harvard study just found AI can now out-diagnose physicians in the ER – Fortune↗ EXTERNER LINKHarvard Study Finds OpenAI's o1 Model Outperforms Physicians in ER Triage Diagnoses – AI Insider↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Illustration eines Mikroskops im Labor, kinewsletter.ch Stil
Dark Illustration, kinewsletter.ch Stil
KI-FORSCHUNG·19. JUNI 2026

KI besteht nur jede dritte Forschungsaufgabe

OpenAIs neuer Test LifeSciBench prüft KI an 750 echten Aufgaben aus der Life-Science-Forschung. Das beste Modell löst nur 36 Prozent – ein nützlicher Dämpfer für überzogene Erwartungen an KI im Labor.

Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ
Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ (Dark Mode)
KI-FORSCHUNG·12. JUNI 2026

Diese KI träumt sich Strassen für Roboterautos

Das Startup Decart hat mit Oasis 3 ein Weltmodell vorgestellt, das fotorealistische Strassenszenen in Echtzeit erfindet – ein endloser Fahrsimulator, um selbstfahrende Autos auch mit seltenen Situationen zu trainieren. Noch fahren die Autos aber durch Wände.

Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch
Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch (Dark Mode)
KI-FORSCHUNG·11. JUNI 2026

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

Ein MIT-Spin-off namens Ferveret kühlt KI-Chips mit einem Trick aus der Kernreaktor-Physik – ganz ohne Wasser und mit deutlich weniger Strom. Im Test holte das System 35 Prozent mehr Rechenleistung aus derselben Energie.