KI scheitert an echter Biologie – in 7 von 10 Fällen

OpenAI hat einen neuen Prüfstein für künstliche Intelligenz vorgestellt – und das Ergebnis ist eine Lektion in Bescheidenheit: Selbst die besten Modelle scheitern an echter biologischer Forschung in rund sieben von zehn Fällen.

Worum es geht

GeneBench-Pro heisst der neue Benchmark, mit dem OpenAI testet, ob KI-Modelle die Art von urteilsbasierter Analyse hinbekommen, die reale computergestützte Biologie verlangt. Es geht nicht um das Abrufen von Fakten, sondern um echte Forschungsarbeit: Ein Modell erhält einen Datensatz, den experimentellen Kontext und eine Forschungsfrage – und muss die Daten analysieren, die passende Methode wählen und zu einer belastbaren Schlussfolgerung kommen.

Der Test umfasst 129 Aufgaben aus Genomik, quantitativer Biologie und translationaler Medizin. Jede Aufgabe ist synthetisch aus einem bekannten Datenerzeugungsprozess gebaut, sodass OpenAI gegen eine gesicherte Wahrheit bewerten und den Schwierigkeitsgrad justieren kann. Zur Absicherung legte das Unternehmen 82 der 129 Probleme externen Fachleuten vor – Doktorierenden, Postdocs, Industrieforschenden und Professorinnen.

Die ernüchternden Zahlen

Das beste Modell im Test, OpenAIs eigenes GPT-5.6 Sol, kam bei höchster Denkstufe auf eine Erfolgsquote von 28,7 Prozent – mit aktiviertem Pro-Modus stieg der Wert auf 31,5 Prozent. Das stärkste Nicht-OpenAI-Modell war Anthropics Claude Opus 4.8 mit 16,0 Prozent.

Anders gesagt: Selbst das führende Modell liegt bei anspruchsvollen Biologie-Aufgaben noch immer in rund 70 Prozent der Fälle daneben.

Warum das wichtig ist

Rund um KI in der Wissenschaft kursieren derzeit grosse Versprechen – von der Abkürzung ganzer Forschungsprogramme bis zum «KI-Wissenschaftler». GeneBench-Pro setzt dem eine nüchterne Messlatte entgegen. Der Benchmark trennt sauber zwischen dem, was Modelle auswendig wiedergeben, und dem, was sie tatsächlich durchdenken können. Und genau beim Durchdenken – Methode wählen, Fallstricke erkennen, aus unsauberen Daten eine Antwort destillieren – ist die Lücke noch gross.

Für einen Forschungs- und Pharmastandort wie die Schweiz ist das eine doppelt nützliche Nachricht. Sie dämpft überzogene Erwartungen an KI als Ersatz für erfahrene Forschende – und liefert zugleich ein sauberes Werkzeug, um den echten Fortschritt der Modelle über die Zeit zu messen, statt sich von Marketing-Zahlen blenden zu lassen.

Was du im Kopf behalten solltest

Ein Benchmark ist immer nur ein Ausschnitt: GeneBench-Pro misst eine bestimmte, besonders harte Klasse von Aufgaben und nicht die gesamte Nützlichkeit eines Modells im Laboralltag. Dass die Werte tief sind, heisst nicht, dass KI in der Biologie nutzlos wäre – sondern dass die schwierigsten Urteilsfragen weiterhin beim Menschen liegen. Für die kommenden Modellgenerationen ist GeneBench-Pro damit vor allem eines: ein ehrlicher Gradmesser.