NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
KI NewsArchivNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·KI-FORSCHUNG

AISI: Benchmarks unterschätzen KI-Agenten systematisch

Das britische AI Security Institute zeigt in seinem Frontier AI Trends Report, dass gängige Benchmarks die wahren Fähigkeiten von KI-Agenten zu tief ansetzen. Verbesserte man nur das «Scaffolding» eines Modells, stieg die Leistung in Cyber-Tests um fast 10 Prozentpunkte. Für KI-Sicherheit und Regulierung ist das ein Alarmzeichen.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
4. JULI 2026
3 MIN. LESEZEIT
Illustration einer Balkenwaage mit Messschieber und Lupe als Sinnbild für unterschätzte Messwerte, kinewsletter.ch Stil
Illustration einer Balkenwaage mit Messschieber und Lupe als Sinnbild für unterschätzte Messwerte, kinewsletter.ch Stil
INHALT
01Der Motor und das Getriebe02Fast 10 Prozentpunkte allein durchs Gerüst03Warum unterschätzte Fähigkeiten ein Sicherheitsproblem sind
INHALT
01Der Motor und das Getriebe02Fast 10 Prozentpunkte allein durchs Gerüst03Warum unterschätzte Fähigkeiten ein Sicherheitsproblem sind
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Wer KI nur nach dem Standard-Benchmark bewertet, misst die Untergrenze – die reale Fähigkeits-Obergrenze liegt mit optimiertem Scaffolding deutlich höher.

Wie gut ist eine KI wirklich? Die naheliegende Antwort lautet: Schau auf den Benchmark-Score. Genau davor warnt jetzt das AI Security Institute (AISI), die staatliche KI-Sicherheitsbehörde Grossbritanniens. In ihrem neuen Frontier AI Trends Report kommen die Forschenden zum Schluss, dass gängige Tests die Fähigkeiten von KI-Agenten systematisch zu tief ansetzen – und dass wir unterschätzen, wozu diese Systeme unter den richtigen Bedingungen fähig sind.

Der Motor und das Getriebe

Um das zu verstehen, hilft der Begriff Scaffolding (wörtlich «Gerüst»). Gemeint ist die technische Umgebung, die man um ein KI-Modell herum baut, damit es eigenständig handeln kann: ein sorgfältig formulierter System-Prompt (die Grundanweisung, die dem Modell sagt, wie es vorgehen soll), Zugriff auf Werkzeuge wie Code-Ausführung oder Websuche, und die Fähigkeit, grosse Aufgaben in Teilschritte zu zerlegen.

Das Modell ist der Motor – das Scaffolding ist das Getriebe, das die Kraft auf die Strasse bringt. Ein und dasselbe Modell kann mit schlechtem Getriebe stottern und mit gutem Getriebe davonziehen. Genau das macht die Messung so heikel: Ein Benchmark testet immer die Kombination aus beidem, nicht die reine Modellfähigkeit.

Fast 10 Prozentpunkte allein durchs Gerüst

Das AISI hat den Effekt an seinen eigenen Cyber-Evaluierungen durchgespielt – Aufgaben, bei denen Modelle etwa Schwachstellen in Code finden müssen. Die Forschenden verbesserten das Scaffolding eines führenden Modells: Sie verfeinerten den System-Prompt und erweiterten den interaktiven Zugriff auf Werkzeuge. Das Modell selbst blieb dasselbe.

Das Resultat: Die Leistung auf dem internen Test-Set stieg um fast 10 Prozentpunkte. Nur durch ein besseres Gerüst. Die Schlussfolgerung des AISI:

Aktuelle Evaluierungen unterschätzen womöglich die wahre Fähigkeits-Obergrenze von Modellen ohne massgeschneidertes Scaffolding.

Der gleiche Report zeigt, wie gross dieser Hebel historisch war: Beim Software-Engineering-Benchmark SWE-bench brachte das beste extern entwickelte Gerüst Ende 2024 einen Sprung von fast 40 Prozent gegenüber dem kaum ausgestatteten Basismodell. Ein starkes neues Modell mit schlechtem Scaffolding schlug oft nicht einmal das beste Agenten-Setup der Vorgeneration.

Warum unterschätzte Fähigkeiten ein Sicherheitsproblem sind

Klingt erst mal nach einem technischen Detail. Ist es aber nicht. Fähigkeitsmessung ist die Grundlage von Regulierung und Risiko-Einschätzung. Regierungen entscheiden anhand solcher Werte, ob ein Modell gefährlich genug ist, um Auflagen zu brauchen. Unternehmen entscheiden, ob sie es einsetzen.

Wenn ein Standard-Test also nur zeigt, was ein Modell mit mittelmässigem Gerüst kann, misst man die Untergrenze – nicht das, was ein motivierter Angreifer mit optimiertem Scaffolding herausholen würde. Für Cyber-Fähigkeiten, die sich sowohl zur Verteidigung als auch zum Missbrauch nutzen lassen, ist das brisant. Das AISI hält denn auch selbst fest, dass es die Obergrenze der Fähigkeiten generell eher unterschätzt.

Für dich als KI-Nutzer bedeutet das zweierlei: Erstens sind veröffentlichte Benchmark-Zahlen mit Vorsicht zu geniessen – sie sagen mehr über das Test-Setup aus, als viele denken. Zweitens verschiebt sich die Sicherheitsdebatte. Nicht mehr «Was kann das Modell heute im Test?», sondern «Was kann es, wenn jemand das Gerüst darum herum ernsthaft optimiert?». Und diese zweite Zahl liegt, so das AISI, spürbar höher.

Quellen

Frontier AI Trends Report – AI Security Institute (AISI)↗ EXTERNER LINKUK's AI Security Institute finds standard benchmarks systematically underestimate what AI agents can actually do – The Decoder (3. Juli 2026)↗ EXTERNER LINKMore compute, more capability: why AI agent evals need to account for test-time compute – AISI Blog↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Illustration eines kleinen Schlüssels, der ein grosses Schloss öffnet, mit Lupe auf Finanzdokumenten, kinewsletter.ch Stil
Illustration eines kleinen Schlüssels, der ein grosses Schloss öffnet, mit Lupe auf Finanzdokumenten, kinewsletter.ch Stil
KI-FORSCHUNG·4. JULI 2026

Murats Spezialmodell schlägt GPT, Claude und Gemini

Thinking Machines Lab von Ex-OpenAI-Chefin Mira Murati und der Hedgefonds Bridgewater zeigen: Ein kleines, feinjustiertes Custom-Modell schlägt die grossen Frontier-LLMs bei Finanzaufgaben. Es erreicht 84,7 Prozent Genauigkeit und kostet nur einen Bruchteil.

Handgezeichnete Skizze einer Laborbank mit Mikroskop, Reagenzglasstaender und Whiteboard mit DNA-Doppelhelix, elektroblauer Akzent
Handgezeichnete Skizze einer Laborbank mit Mikroskop, Reagenzglasstaender und Whiteboard mit DNA-Doppelhelix, elektroblauer Akzent (Dark Mode)
KI-FORSCHUNG·1. JULI 2026

KI scheitert an echter Biologie – in 7 von 10 Fällen

OpenAIs neuer Benchmark GeneBench-Pro prüft echtes Forschungsurteil statt Faktenwissen. Das beste Modell besteht nur knapp jede dritte der 129 Biologie-Aufgaben – eine nüchterne Messlatte für den Hype um KI in der Wissenschaft.

Handgezeichnete Skizze eines Mikroskops mit Petrischalen und Reagenzgläsern auf einer Laborbank, kinewsletter.ch Stil
Skizze Mikroskop mit Petrischalen und Reagenzglaesern, kinewsletter.ch Stil
KI-FORSCHUNG·25. JUNI 2026

GPT-5 löst ein drei Jahre altes Immunologie-Rätsel

Der Immunologe Derya Unutmaz hatte ein Experiment vor drei Jahren ungelöst beiseitegelegt. GPT-5 Pro lieferte die Erklärung in einem Anlauf – und sagte danach sogar das Ergebnis eines unveröffentlichten Versuchs korrekt voraus. Ein Lehrstück darüber, wie KI zur Forschungspartnerin wird, ohne Expertenwissen zu ersetzen.

Illustration eines Mikroskops im Labor, kinewsletter.ch Stil
Dark Illustration, kinewsletter.ch Stil
KI-FORSCHUNG·19. JUNI 2026

KI besteht nur jede dritte Forschungsaufgabe

OpenAIs neuer Test LifeSciBench prüft KI an 750 echten Aufgaben aus der Life-Science-Forschung. Das beste Modell löst nur 36 Prozent – ein nützlicher Dämpfer für überzogene Erwartungen an KI im Labor.

Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ
Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ (Dark Mode)
KI-FORSCHUNG·12. JUNI 2026

Diese KI träumt sich Strassen für Roboterautos

Das Startup Decart hat mit Oasis 3 ein Weltmodell vorgestellt, das fotorealistische Strassenszenen in Echtzeit erfindet – ein endloser Fahrsimulator, um selbstfahrende Autos auch mit seltenen Situationen zu trainieren. Noch fahren die Autos aber durch Wände.

Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch
Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch (Dark Mode)
KI-FORSCHUNG·11. JUNI 2026

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

Ein MIT-Spin-off namens Ferveret kühlt KI-Chips mit einem Trick aus der Kernreaktor-Physik – ganz ohne Wasser und mit deutlich weniger Strom. Im Test holte das System 35 Prozent mehr Rechenleistung aus derselben Energie.

Mehr aus KI-Forschung →