NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
KI NewsArchivNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·KI-FORSCHUNG

KI scheitert an echter Biologie – in 7 von 10 Fällen

OpenAIs neuer Benchmark GeneBench-Pro prüft echtes Forschungsurteil statt Faktenwissen. Das beste Modell besteht nur knapp jede dritte der 129 Biologie-Aufgaben – eine nüchterne Messlatte für den Hype um KI in der Wissenschaft.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
1. JULI 2026
2 MIN. LESEZEIT
Handgezeichnete Skizze einer Laborbank mit Mikroskop, Reagenzglasstaender und Whiteboard mit DNA-Doppelhelix, elektroblauer Akzent
Handgezeichnete Skizze einer Laborbank mit Mikroskop, Reagenzglasstaender und Whiteboard mit DNA-Doppelhelix, elektroblauer Akzent (Dark Mode)
INHALT
01Worum es geht02Die ernüchternden Zahlen03Warum das wichtig ist04Was du im Kopf behalten solltest
INHALT
01Worum es geht02Die ernüchternden Zahlen03Warum das wichtig ist04Was du im Kopf behalten solltest
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

GeneBench-Pro zeigt: Selbst Spitzenmodelle scheitern an echter Biologie-Forschung in rund sieben von zehn Fällen.

OpenAI hat einen neuen Prüfstein für künstliche Intelligenz vorgestellt – und das Ergebnis ist eine Lektion in Bescheidenheit: Selbst die besten Modelle scheitern an echter biologischer Forschung in rund sieben von zehn Fällen.

Worum es geht

GeneBench-Pro heisst der neue Benchmark, mit dem OpenAI testet, ob KI-Modelle die Art von urteilsbasierter Analyse hinbekommen, die reale computergestützte Biologie verlangt. Es geht nicht um das Abrufen von Fakten, sondern um echte Forschungsarbeit: Ein Modell erhält einen Datensatz, den experimentellen Kontext und eine Forschungsfrage – und muss die Daten analysieren, die passende Methode wählen und zu einer belastbaren Schlussfolgerung kommen.

Der Test umfasst 129 Aufgaben aus Genomik, quantitativer Biologie und translationaler Medizin. Jede Aufgabe ist synthetisch aus einem bekannten Datenerzeugungsprozess gebaut, sodass OpenAI gegen eine gesicherte Wahrheit bewerten und den Schwierigkeitsgrad justieren kann. Zur Absicherung legte das Unternehmen 82 der 129 Probleme externen Fachleuten vor – Doktorierenden, Postdocs, Industrieforschenden und Professorinnen.

Die ernüchternden Zahlen

Das beste Modell im Test, OpenAIs eigenes GPT-5.6 Sol, kam bei höchster Denkstufe auf eine Erfolgsquote von 28,7 Prozent – mit aktiviertem Pro-Modus stieg der Wert auf 31,5 Prozent. Das stärkste Nicht-OpenAI-Modell war Anthropics Claude Opus 4.8 mit 16,0 Prozent.

Anders gesagt: Selbst das führende Modell liegt bei anspruchsvollen Biologie-Aufgaben noch immer in rund 70 Prozent der Fälle daneben.

Warum das wichtig ist

Rund um KI in der Wissenschaft kursieren derzeit grosse Versprechen – von der Abkürzung ganzer Forschungsprogramme bis zum «KI-Wissenschaftler». GeneBench-Pro setzt dem eine nüchterne Messlatte entgegen. Der Benchmark trennt sauber zwischen dem, was Modelle auswendig wiedergeben, und dem, was sie tatsächlich durchdenken können. Und genau beim Durchdenken – Methode wählen, Fallstricke erkennen, aus unsauberen Daten eine Antwort destillieren – ist die Lücke noch gross.

Für einen Forschungs- und Pharmastandort wie die Schweiz ist das eine doppelt nützliche Nachricht. Sie dämpft überzogene Erwartungen an KI als Ersatz für erfahrene Forschende – und liefert zugleich ein sauberes Werkzeug, um den echten Fortschritt der Modelle über die Zeit zu messen, statt sich von Marketing-Zahlen blenden zu lassen.

Was du im Kopf behalten solltest

Ein Benchmark ist immer nur ein Ausschnitt: GeneBench-Pro misst eine bestimmte, besonders harte Klasse von Aufgaben und nicht die gesamte Nützlichkeit eines Modells im Laboralltag. Dass die Werte tief sind, heisst nicht, dass KI in der Biologie nutzlos wäre – sondern dass die schwierigsten Urteilsfragen weiterhin beim Menschen liegen. Für die kommenden Modellgenerationen ist GeneBench-Pro damit vor allem eines: ein ehrlicher Gradmesser.

Quellen

OpenAI – Introducing GeneBench-Pro↗ EXTERNER LINKInvesting.com – OpenAI introduces GeneBench-Pro to test AI research judgment↗ EXTERNER LINKCrypto Briefing – OpenAI introduces GeneBench to evaluate AI on computational biology↗ EXTERNER LINKAlphaSignal – GeneBench-Pro exposes that top AI fails real biology 70% of the time↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Handgezeichnete Skizze eines Mikroskops mit Petrischalen und Reagenzgläsern auf einer Laborbank, kinewsletter.ch Stil
Skizze Mikroskop mit Petrischalen und Reagenzglaesern, kinewsletter.ch Stil
KI-FORSCHUNG·25. JUNI 2026

GPT-5 löst ein drei Jahre altes Immunologie-Rätsel

Der Immunologe Derya Unutmaz hatte ein Experiment vor drei Jahren ungelöst beiseitegelegt. GPT-5 Pro lieferte die Erklärung in einem Anlauf – und sagte danach sogar das Ergebnis eines unveröffentlichten Versuchs korrekt voraus. Ein Lehrstück darüber, wie KI zur Forschungspartnerin wird, ohne Expertenwissen zu ersetzen.

Illustration eines Mikroskops im Labor, kinewsletter.ch Stil
Dark Illustration, kinewsletter.ch Stil
KI-FORSCHUNG·19. JUNI 2026

KI besteht nur jede dritte Forschungsaufgabe

OpenAIs neuer Test LifeSciBench prüft KI an 750 echten Aufgaben aus der Life-Science-Forschung. Das beste Modell löst nur 36 Prozent – ein nützlicher Dämpfer für überzogene Erwartungen an KI im Labor.

Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ
Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ (Dark Mode)
KI-FORSCHUNG·12. JUNI 2026

Diese KI träumt sich Strassen für Roboterautos

Das Startup Decart hat mit Oasis 3 ein Weltmodell vorgestellt, das fotorealistische Strassenszenen in Echtzeit erfindet – ein endloser Fahrsimulator, um selbstfahrende Autos auch mit seltenen Situationen zu trainieren. Noch fahren die Autos aber durch Wände.

Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch
Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch (Dark Mode)
KI-FORSCHUNG·11. JUNI 2026

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

Ein MIT-Spin-off namens Ferveret kühlt KI-Chips mit einem Trick aus der Kernreaktor-Physik – ganz ohne Wasser und mit deutlich weniger Strom. Im Test holte das System 35 Prozent mehr Rechenleistung aus derselben Energie.

Handgezeichnete Skizze eines aufgeschnittenen Düsentriebwerks auf einer Werkbank mit elektroblau leuchtendem Kern, Messschieber und Arbeitslampe
Handgezeichnete Skizze eines aufgeschnittenen Düsentriebwerks auf einer Werkbank mit elektroblau leuchtendem Kern, Messschieber und Arbeitslampe (Dark Mode)
KI-FORSCHUNG·9. JUNI 2026

300 Millionen für eine KI, die Physik versteht

Das Londoner Startup PhysicsX sammelt 300 Millionen Dollar bei einer Bewertung von 2,4 Milliarden. Seine «Large Physics Models» ersetzen tagelange physikalische Simulationen durch Berechnungen in Sekunden.

Handgezeichnete Skizze einer Schultafel mit Balken- und Tortendiagramm, davor ein Stapel Papier und eine Lupe mit elektroblauem Glas auf einem Staender
Handgezeichnete Skizze einer Schultafel mit Balken- und Tortendiagramm, davor ein Stapel Papier und eine Lupe mit elektroblauem Glas auf einem Staender (Dark Mode)
KI-FORSCHUNG·6. JUNI 2026

Eine Million Diagramme: MITs ChartNet lehrt KI das Lesen

Forschende am MIT veröffentlichen ChartNet – einen offenen Datensatz mit über einer Million Diagrammen. Damit trainierte kleine Modelle schlagen viel grössere kommerzielle KI beim Lesen von Charts.

Mehr aus KI-Forschung →