OpenAIs neuer Test LifeSciBench prüft KI an 750 echten Aufgaben aus der Life-Science-Forschung. Das beste Modell löst nur 36 Prozent – ein nützlicher Dämpfer für überzogene Erwartungen an KI im Labor.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Selbst Spitzenmodelle scheitern an zwei von drei echten Forschungsaufgaben – KI bleibt vorerst Assistent, nicht Wissenschaftler.
KI-Modelle lösen Mathe-Olympiaden und programmieren ganze Apps – aber taugen sie auch für echte Laborarbeit? OpenAI hat dazu einen neuen Test gebaut und am 17. Juni veröffentlicht. Das ernüchternde Ergebnis: Selbst das beste Modell scheitert an zwei von drei Aufgaben.
LifeSciBench heisst der neue Massstab, und er ist anders aufgebaut als die üblichen KI-Tests. Statt Multiple-Choice-Fragen mit einer sauberen Musterlösung stellt er 750 Aufgaben, die echten Forschungsalltag nachbilden: Belege widersprüchlicher Studien abwägen, Experimente planen, Risiken einschätzen, Ergebnisse verständlich aufbereiten. Geschrieben wurden sie von 173 Wissenschaftlerinnen und Wissenschaftlern mit Doktortitel und Industrieerfahrung aus Biotech und Pharma.
Bewertet wird jede Antwort nicht mit einem simplen Richtig/Falsch, sondern anhand von insgesamt 19'020 Einzelkriterien – im Schnitt 25 pro Aufgabe. Nochmals 453 unabhängige Fachleute prüften, ob der Test wirklich misst, was im Labor zählt.
Das stärkste getestete Modell, intern GPT-Rosalind genannt, löste 36,1 Prozent der Aufgaben vollständig. Der Vorgänger GPT-5.5 kam auf 25,7 Prozent. Ein klarer Fortschritt – aber eben auch: Rund zwei Drittel der Forschungsaufgaben überfordern selbst das beste verfügbare System.
Wo die Modelle glänzen und wo sie einbrechen, lässt sich klar trennen:
Strenge Erkenntnis: Eine KI kann eine Studie überzeugend zusammenfassen – und trotzdem an der eigentlichen wissenschaftlichen Detailarbeit scheitern.
Gerade für Branchen, die grosse Hoffnungen in KI-gestützte Wirkstoffforschung setzen – von Roche bis Novartis –, ist das ein nützlicher Realitätscheck. LifeSciBench trennt die beeindruckende Demo von der mühsamen Laborrealität. OpenAI selbst betont, dass ein guter Testwert kein Beweis für echten Forschungsnutzen sei: Das zeige sich erst im laufenden Einsatz über Monate.
Konkret heisst das: KI wird in der Forschung zum starken Assistenten, aber noch lange nicht zum eigenständigen Wissenschaftler. Und genau diese Erwartung sauber zu justieren, ist mehr wert als die nächste Rekordmeldung.