kinewsletter.chkinewsletter.ch
News
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-Archiv
Search
News
Kategorien
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-ArchivÜber unsSuche
Kostenlos abonnieren
kinewsletter.chkinewsletter.ch

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

Navigation

Alle NewsNewsletter-ArchivAutorenÜber unsKontakt

Rechtliches

ImpressumDatenschutzAGB

© 2026Inoo GmbH · Altstätten SG · Schweiz

Swiss Made SoftwareEin Produkt vonInooInoo
  1. Home
  2. KI-News
  3. KI-Forschung
  4. Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten
KI-ForschungKI in der Schweiz

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

Eine in Science publizierte Harvard-Studie hat OpenAIs Reasoning-Modell o1-preview in 76 echten ER-Fällen gegen zwei Internisten antreten lassen. Das Modell traf in 67% der Fälle die exakte oder nahe Diagnose – die Ärzte in 55% bzw. 50%.

Dienstag, 5. Mai 2026~3 Min. Lesezeit
Pascal Eugster
Pascal EugsterGründer & Entwickler
Illustration eines Notfallraum-Korridors mit Stretcher, Stethoskop und Vital-Monitor, kinewsletter.ch Stil
Illustration eines Notfallraum-Korridors mit Stretcher, Stethoskop und Vital-Monitor, kinewsletter.ch Stil
Das Wichtigste

Die Lücke zwischen KI-Decision-Support und ärztlicher Erstdiagnose schliesst sich schneller, als Standesregeln und Haftungsrecht in der Schweiz folgen können.

Eine Forscher-Gruppe der Harvard Medical School und des Beth Israel Deaconess Medical Center hat OpenAIs Reasoning-Modell o1-preview in 76 echten Notaufnahme-Fällen gegen zwei menschliche Ärzte antreten lassen. Ergebnis: Das Modell traf die exakte oder sehr nahe Diagnose in 67% der Triage-Situationen – die beiden verglichenen Internisten kamen auf 55% beziehungsweise 50%. Die Studie wurde in Science publiziert; Senior-Author ist Adam Rodman, Internist und Assistant Professor an Harvard Medical School.

Was genau getestet wurde

Die Cases stammen aus drei Stationen einer realen Notaufnahme in Boston: Ankunft (Triage), Erstkontakt mit dem Arzt und Übergabe auf die Station oder Intensiv. Die Forscher haben die Daten nicht vorbereitet – das Modell bekam genau die elektronischen Patientenakten zu lesen, die auch das Personal in dem Moment vor sich hatte. Verglichen wurden nicht nur Diagnosen, sondern auch sogenanntes Management Reasoning: Welche Antibiotika, welche bildgebende Diagnostik, wie sollen Goals-of-Care-Gespräche (inkl. Lebensende-Entscheidungen) geführt werden. Auch hier schlug o1-preview die menschlichen Vergleichspersonen – sogar wenn diese parallel auf Google und UpToDate-Datenbanken zugreifen durften.

Der wichtige Kleingedruckte

Drei Caveats, die in den Schlagzeilen oft untergehen:

  • Vergleichsgruppe waren Internisten, keine Notfallmediziner. Internisten sind allgemein-internistisch ausgebildet, der Spezialist für die Notaufnahme ist der Notfallmediziner. Die Studie sagt also: Das Modell schlägt zwei generelle Internisten in einem ER-Setting – nicht, dass es ER-Profis ersetzt.
  • Es geht um textbasierte Diagnose, nicht um die körperliche Untersuchung, das Bauchgefühl im Schockraum oder den Notruf-Anpfiff um 03:00 Uhr.
  • Haftungsfrage ungelöst. Wenn o1 falsch liegt – wer haftet? Modell-Anbieter? Spital? Behandelnder Arzt? Die Studie liefert keine Antwort.

Rodman selbst sagt im Interview mit Harvard Magazine, das Tempo überrasche ihn: «Wir sind bereits an der Decke dessen, was wir hier messen können» – nicht weil das Modell perfekt sei, sondern weil die Benchmarks an ihre Grenze stossen.

Schweiz-Bezug

Für Schweizer Spitäler ist die Studie ein präziser Datenpunkt in einer Debatte, die hier seit Monaten läuft. Universitätsspital Zürich, CHUV und Inselspital Bern testen alle Reasoning-Modelle in Decision-Support-Pilot-Projekten – meist als zweiter Befunder hinter dem Arzt, nicht statt seiner. Das vor wenigen Tagen kommunizierte CHUV-Pilotprojekt mit dem Apertus-basierten Meditron-Modell ist Ausdruck genau dieser Strategie: KI als Sicherheitsnetz, nicht als Ersatz.

Die Harvard-Daten verschieben den Diskurs trotzdem. Wenn ein generisches Modell – nicht ein medizinisch spezialisiertes – Internisten in der Notaufnahme schlägt, müssen die Spitäler ihre Entscheidungs-Architektur überdenken. Konkret heisst das: Wann ist der Modell-Vorschlag nicht Empfehlung, sondern Default? Und wer dokumentiert, wenn der Arzt davon abweicht?

Einordnung

Studie und Realität klaffen weiter auseinander, als die Schlagzeilen vermuten lassen. Aber die Lücke schliesst sich messbar – und das schneller als die rechtlichen, ethischen und versicherungstechnischen Strukturen, die für so eine Verschiebung gebaut werden müssten. FMH-Standesregeln, FINMA-Regulierung der digitalen Versicherer und das revidierte Heilmittelgesetz sind alle nicht für ein Szenario formuliert, in dem ein KI-Modell im Median präzisere Erstdiagnosen liefert als ein Spital-Internist. Die Aufholjagd der Regulatorik beginnt jetzt.

Fazit

Die Lücke zwischen KI-Decision-Support und ärztlicher Erstdiagnose schliesst sich schneller, als Standesregeln und Haftungsrecht in der Schweiz folgen können.

Quellen

  • In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors – TechCrunch(wird in neuem Tab geöffnet)
  • AI Outperforms Doctors in Emergency Room Tasks, New Harvard Study Shows – Harvard Magazine(wird in neuem Tab geöffnet)
  • A Harvard study just found AI can now out-diagnose physicians in the ER – Fortune(wird in neuem Tab geöffnet)
  • Harvard Study Finds OpenAI's o1 Model Outperforms Physicians in ER Triage Diagnoses – AI Insider(wird in neuem Tab geöffnet)
Teilen:

Das könnte dich auch interessieren

Planetarium mit Teleskop und Sternenkarte, kinewsletter.ch Stil
Planetarium mit Teleskop und Sternenkarte, kinewsletter.ch Stil
KI-Forschung
8. Mai 2026

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

CCP Games heisst seit dem 6. Mai 2026 Fenris Creations, ist unabhängig von Pearl Abyss – und hat Google DeepMind als Minderheits-Investor. Das KI-Labor will mit Eve Online Long-Horizon-Planning, Memory und Continual Learning trainieren.

DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Weiterlesen
Skizze einer Werkbank mit aufgebrochenem Vorhaengeschloss und Lockpicking-Werkzeug, kinewsletter.ch Stil
Skizze einer Werkbank mit aufgebrochenem Vorhaengeschloss und Lockpicking-Werkzeug, kinewsletter.ch Stil
Regulierung & Ethik
6. Mai 2026

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.

Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

Weiterlesen
Illustration einer Bibliothek mit Bücherregalen, Leiter und Lupe auf Lesetisch, kinewsletter.ch Stil
Illustration einer Bibliothek mit Bücherregalen, Leiter und Lupe auf Lesetisch, kinewsletter.ch Stil
KI-Forschung
6. Mai 2026

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Das Miami-Startup Subquadratic ist mit einer 29-Mio.-Dollar-Seed-Runde gestartet und stellt SubQ 1M-Preview vor – ein Sprachmodell mit 12 Mio. Token Kontext und einer neuen Aufmerksamkeits-Architektur (SSA), die Compute linear statt quadratisch skaliert. CEO ist Justin Dangel, CTO Alex Whedon (Ex-Meta).

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

Weiterlesen