NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·KI-FORSCHUNG

KI besteht nur jede dritte Forschungsaufgabe

OpenAIs neuer Test LifeSciBench prüft KI an 750 echten Aufgaben aus der Life-Science-Forschung. Das beste Modell löst nur 36 Prozent – ein nützlicher Dämpfer für überzogene Erwartungen an KI im Labor.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
19. JUNI 2026
2 MIN. LESEZEIT
Illustration eines Mikroskops im Labor, kinewsletter.ch Stil
Dark Illustration, kinewsletter.ch Stil
INHALT
01Ein Test, den Wissenschaftler selbst geschrieben haben0236 Prozent – und das ist schon der Spitzenwert03Warum das ein gesunder Dämpfer ist
INHALT
01Ein Test, den Wissenschaftler selbst geschrieben haben0236 Prozent – und das ist schon der Spitzenwert03Warum das ein gesunder Dämpfer ist
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Selbst Spitzenmodelle scheitern an zwei von drei echten Forschungsaufgaben – KI bleibt vorerst Assistent, nicht Wissenschaftler.

KI-Modelle lösen Mathe-Olympiaden und programmieren ganze Apps – aber taugen sie auch für echte Laborarbeit? OpenAI hat dazu einen neuen Test gebaut und am 17. Juni veröffentlicht. Das ernüchternde Ergebnis: Selbst das beste Modell scheitert an zwei von drei Aufgaben.

Ein Test, den Wissenschaftler selbst geschrieben haben

LifeSciBench heisst der neue Massstab, und er ist anders aufgebaut als die üblichen KI-Tests. Statt Multiple-Choice-Fragen mit einer sauberen Musterlösung stellt er 750 Aufgaben, die echten Forschungsalltag nachbilden: Belege widersprüchlicher Studien abwägen, Experimente planen, Risiken einschätzen, Ergebnisse verständlich aufbereiten. Geschrieben wurden sie von 173 Wissenschaftlerinnen und Wissenschaftlern mit Doktortitel und Industrieerfahrung aus Biotech und Pharma.

Bewertet wird jede Antwort nicht mit einem simplen Richtig/Falsch, sondern anhand von insgesamt 19'020 Einzelkriterien – im Schnitt 25 pro Aufgabe. Nochmals 453 unabhängige Fachleute prüften, ob der Test wirklich misst, was im Labor zählt.

36 Prozent – und das ist schon der Spitzenwert

Das stärkste getestete Modell, intern GPT-Rosalind genannt, löste 36,1 Prozent der Aufgaben vollständig. Der Vorgänger GPT-5.5 kam auf 25,7 Prozent. Ein klarer Fortschritt – aber eben auch: Rund zwei Drittel der Forschungsaufgaben überfordern selbst das beste verfügbare System.

Wo die Modelle glänzen und wo sie einbrechen, lässt sich klar trennen:

  • Stark beim Aufbereiten und Kommunizieren von Ergebnissen sowie beim Übersetzen von Laborbefunden in klinische Schlüsse
  • Schwach beim Planen und Optimieren von Experimenten (30,7 %) und beim Auswerten von Daten (30,3 %)
  • Besonders schwach, sobald echte Dokumente, Tabellen oder Sequenzdateien im Spiel sind: Hier fällt die Trefferquote von 45 auf 28 Prozent
Strenge Erkenntnis: Eine KI kann eine Studie überzeugend zusammenfassen – und trotzdem an der eigentlichen wissenschaftlichen Detailarbeit scheitern.

Warum das ein gesunder Dämpfer ist

Gerade für Branchen, die grosse Hoffnungen in KI-gestützte Wirkstoffforschung setzen – von Roche bis Novartis –, ist das ein nützlicher Realitätscheck. LifeSciBench trennt die beeindruckende Demo von der mühsamen Laborrealität. OpenAI selbst betont, dass ein guter Testwert kein Beweis für echten Forschungsnutzen sei: Das zeige sich erst im laufenden Einsatz über Monate.

Konkret heisst das: KI wird in der Forschung zum starken Assistenten, aber noch lange nicht zum eigenständigen Wissenschaftler. Und genau diese Erwartung sauber zu justieren, ist mehr wert als die nächste Rekordmeldung.

Quellen

Introducing LifeSciBench (OpenAI)↗ EXTERNER LINKOpenAI Releases LifeSciBench (MarkTechPost)↗ EXTERNER LINKAI passes only 1 in 3 scientific research tasks (Tech Times)↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ
Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ (Dark Mode)
KI-FORSCHUNG·12. JUNI 2026

Diese KI träumt sich Strassen für Roboterautos

Das Startup Decart hat mit Oasis 3 ein Weltmodell vorgestellt, das fotorealistische Strassenszenen in Echtzeit erfindet – ein endloser Fahrsimulator, um selbstfahrende Autos auch mit seltenen Situationen zu trainieren. Noch fahren die Autos aber durch Wände.

Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch
Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch (Dark Mode)
KI-FORSCHUNG·11. JUNI 2026

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

Ein MIT-Spin-off namens Ferveret kühlt KI-Chips mit einem Trick aus der Kernreaktor-Physik – ganz ohne Wasser und mit deutlich weniger Strom. Im Test holte das System 35 Prozent mehr Rechenleistung aus derselben Energie.

Handgezeichnete Skizze eines aufgeschnittenen Düsentriebwerks auf einer Werkbank mit elektroblau leuchtendem Kern, Messschieber und Arbeitslampe
Handgezeichnete Skizze eines aufgeschnittenen Düsentriebwerks auf einer Werkbank mit elektroblau leuchtendem Kern, Messschieber und Arbeitslampe (Dark Mode)
KI-FORSCHUNG·9. JUNI 2026

300 Millionen für eine KI, die Physik versteht

Das Londoner Startup PhysicsX sammelt 300 Millionen Dollar bei einer Bewertung von 2,4 Milliarden. Seine «Large Physics Models» ersetzen tagelange physikalische Simulationen durch Berechnungen in Sekunden.