Das britische AI Security Institute zeigt in seinem Frontier AI Trends Report, dass gängige Benchmarks die wahren Fähigkeiten von KI-Agenten zu tief ansetzen. Verbesserte man nur das «Scaffolding» eines Modells, stieg die Leistung in Cyber-Tests um fast 10 Prozentpunkte. Für KI-Sicherheit und Regulierung ist das ein Alarmzeichen.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Wer KI nur nach dem Standard-Benchmark bewertet, misst die Untergrenze – die reale Fähigkeits-Obergrenze liegt mit optimiertem Scaffolding deutlich höher.
Wie gut ist eine KI wirklich? Die naheliegende Antwort lautet: Schau auf den Benchmark-Score. Genau davor warnt jetzt das AI Security Institute (AISI), die staatliche KI-Sicherheitsbehörde Grossbritanniens. In ihrem neuen Frontier AI Trends Report kommen die Forschenden zum Schluss, dass gängige Tests die Fähigkeiten von KI-Agenten systematisch zu tief ansetzen – und dass wir unterschätzen, wozu diese Systeme unter den richtigen Bedingungen fähig sind.
Um das zu verstehen, hilft der Begriff Scaffolding (wörtlich «Gerüst»). Gemeint ist die technische Umgebung, die man um ein KI-Modell herum baut, damit es eigenständig handeln kann: ein sorgfältig formulierter System-Prompt (die Grundanweisung, die dem Modell sagt, wie es vorgehen soll), Zugriff auf Werkzeuge wie Code-Ausführung oder Websuche, und die Fähigkeit, grosse Aufgaben in Teilschritte zu zerlegen.
Das Modell ist der Motor – das Scaffolding ist das Getriebe, das die Kraft auf die Strasse bringt. Ein und dasselbe Modell kann mit schlechtem Getriebe stottern und mit gutem Getriebe davonziehen. Genau das macht die Messung so heikel: Ein Benchmark testet immer die Kombination aus beidem, nicht die reine Modellfähigkeit.
Das AISI hat den Effekt an seinen eigenen Cyber-Evaluierungen durchgespielt – Aufgaben, bei denen Modelle etwa Schwachstellen in Code finden müssen. Die Forschenden verbesserten das Scaffolding eines führenden Modells: Sie verfeinerten den System-Prompt und erweiterten den interaktiven Zugriff auf Werkzeuge. Das Modell selbst blieb dasselbe.
Das Resultat: Die Leistung auf dem internen Test-Set stieg um fast 10 Prozentpunkte. Nur durch ein besseres Gerüst. Die Schlussfolgerung des AISI:
Aktuelle Evaluierungen unterschätzen womöglich die wahre Fähigkeits-Obergrenze von Modellen ohne massgeschneidertes Scaffolding.
Der gleiche Report zeigt, wie gross dieser Hebel historisch war: Beim Software-Engineering-Benchmark SWE-bench brachte das beste extern entwickelte Gerüst Ende 2024 einen Sprung von fast 40 Prozent gegenüber dem kaum ausgestatteten Basismodell. Ein starkes neues Modell mit schlechtem Scaffolding schlug oft nicht einmal das beste Agenten-Setup der Vorgeneration.
Klingt erst mal nach einem technischen Detail. Ist es aber nicht. Fähigkeitsmessung ist die Grundlage von Regulierung und Risiko-Einschätzung. Regierungen entscheiden anhand solcher Werte, ob ein Modell gefährlich genug ist, um Auflagen zu brauchen. Unternehmen entscheiden, ob sie es einsetzen.
Wenn ein Standard-Test also nur zeigt, was ein Modell mit mittelmässigem Gerüst kann, misst man die Untergrenze – nicht das, was ein motivierter Angreifer mit optimiertem Scaffolding herausholen würde. Für Cyber-Fähigkeiten, die sich sowohl zur Verteidigung als auch zum Missbrauch nutzen lassen, ist das brisant. Das AISI hält denn auch selbst fest, dass es die Obergrenze der Fähigkeiten generell eher unterschätzt.
Für dich als KI-Nutzer bedeutet das zweierlei: Erstens sind veröffentlichte Benchmark-Zahlen mit Vorsicht zu geniessen – sie sagen mehr über das Test-Setup aus, als viele denken. Zweitens verschiebt sich die Sicherheitsdebatte. Nicht mehr «Was kann das Modell heute im Test?», sondern «Was kann es, wenn jemand das Gerüst darum herum ernsthaft optimiert?». Und diese zweite Zahl liegt, so das AISI, spürbar höher.