KI besteht nur jede dritte Forschungsaufgabe

KI-Modelle lösen Mathe-Olympiaden und programmieren ganze Apps – aber taugen sie auch für echte Laborarbeit? OpenAI hat dazu einen neuen Test gebaut und am 17. Juni veröffentlicht. Das ernüchternde Ergebnis: Selbst das beste Modell scheitert an zwei von drei Aufgaben.

Ein Test, den Wissenschaftler selbst geschrieben haben

LifeSciBench heisst der neue Massstab, und er ist anders aufgebaut als die üblichen KI-Tests. Statt Multiple-Choice-Fragen mit einer sauberen Musterlösung stellt er 750 Aufgaben, die echten Forschungsalltag nachbilden: Belege widersprüchlicher Studien abwägen, Experimente planen, Risiken einschätzen, Ergebnisse verständlich aufbereiten. Geschrieben wurden sie von 173 Wissenschaftlerinnen und Wissenschaftlern mit Doktortitel und Industrieerfahrung aus Biotech und Pharma.

Bewertet wird jede Antwort nicht mit einem simplen Richtig/Falsch, sondern anhand von insgesamt 19'020 Einzelkriterien – im Schnitt 25 pro Aufgabe. Nochmals 453 unabhängige Fachleute prüften, ob der Test wirklich misst, was im Labor zählt.

36 Prozent – und das ist schon der Spitzenwert

Das stärkste getestete Modell, intern GPT-Rosalind genannt, löste 36,1 Prozent der Aufgaben vollständig. Der Vorgänger GPT-5.5 kam auf 25,7 Prozent. Ein klarer Fortschritt – aber eben auch: Rund zwei Drittel der Forschungsaufgaben überfordern selbst das beste verfügbare System.

Wo die Modelle glänzen und wo sie einbrechen, lässt sich klar trennen:

Stark beim Aufbereiten und Kommunizieren von Ergebnissen sowie beim Übersetzen von Laborbefunden in klinische Schlüsse
Schwach beim Planen und Optimieren von Experimenten (30,7 %) und beim Auswerten von Daten (30,3 %)
Besonders schwach, sobald echte Dokumente, Tabellen oder Sequenzdateien im Spiel sind: Hier fällt die Trefferquote von 45 auf 28 Prozent

Strenge Erkenntnis: Eine KI kann eine Studie überzeugend zusammenfassen – und trotzdem an der eigentlichen wissenschaftlichen Detailarbeit scheitern.

Warum das ein gesunder Dämpfer ist

Gerade für Branchen, die grosse Hoffnungen in KI-gestützte Wirkstoffforschung setzen – von Roche bis Novartis –, ist das ein nützlicher Realitätscheck. LifeSciBench trennt die beeindruckende Demo von der mühsamen Laborrealität. OpenAI selbst betont, dass ein guter Testwert kein Beweis für echten Forschungsnutzen sei: Das zeige sich erst im laufenden Einsatz über Monate.

Konkret heisst das: KI wird in der Forschung zum starken Assistenten, aber noch lange nicht zum eigenständigen Wissenschaftler. Und genau diese Erwartung sauber zu justieren, ist mehr wert als die nächste Rekordmeldung.

Ein Test, den Wissenschaftler selbst geschrieben haben

36 Prozent – und das ist schon der Spitzenwert

Wo die Modelle glänzen und wo sie einbrechen, lässt sich klar trennen:

Stark beim Aufbereiten und Kommunizieren von Ergebnissen sowie beim Übersetzen von Laborbefunden in klinische Schlüsse
Schwach beim Planen und Optimieren von Experimenten (30,7 %) und beim Auswerten von Daten (30,3 %)
Besonders schwach, sobald echte Dokumente, Tabellen oder Sequenzdateien im Spiel sind: Hier fällt die Trefferquote von 45 auf 28 Prozent

Strenge Erkenntnis: Eine KI kann eine Studie überzeugend zusammenfassen – und trotzdem an der eigentlichen wissenschaftlichen Detailarbeit scheitern.

KI besteht nur jede dritte Forschungsaufgabe

Ein Test, den Wissenschaftler selbst geschrieben haben

36 Prozent – und das ist schon der Spitzenwert

Warum das ein gesunder Dämpfer ist

Quellen

KI besteht nur jede dritte Forschungsaufgabe

Ein Test, den Wissenschaftler selbst geschrieben haben

36 Prozent – und das ist schon der Spitzenwert

Warum das ein gesunder Dämpfer ist

Quellen

KI besteht nur jede dritte Forschungsaufgabe

Ein Test, den Wissenschaftler selbst geschrieben haben

36 Prozent – und das ist schon der Spitzenwert

Warum das ein gesunder Dämpfer ist

Quellen

WEITERLESENDas könnte dich auch interessieren.

Diese KI träumt sich Strassen für Roboterautos

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

300 Millionen für eine KI, die Physik versteht

KI besteht nur jede dritte Forschungsaufgabe

Ein Test, den Wissenschaftler selbst geschrieben haben

36 Prozent – und das ist schon der Spitzenwert

Warum das ein gesunder Dämpfer ist

Quellen

WEITERLESENDas könnte dich auch interessieren.

Diese KI träumt sich Strassen für Roboterautos

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

300 Millionen für eine KI, die Physik versteht