AISI prüft GPT-5.5: OpenAIs Frontier zieht mit Mythos auf Cyber-Niveau gleich

Das AI Safety Institute (AISI) – die staatliche KI-Sicherheitsbehörde Grossbritanniens – hat OpenAIs neues Modell GPT-5.5 einer harten Cyber-Prüfung unterzogen. Das Ergebnis wirft ein neues Licht auf die Bedrohungslage: GPT-5.5 erreicht in offensiven Cyber-Tasks dieselbe Liga wie Anthropics geheimes Modell Mythos – und schliesst damit eine Lücke, die seit Wochen für Nervosität bei Behörden und Banken sorgt.

Die Veröffentlichung am 30. April war kein gewöhnlicher Benchmark-Bericht. Sie ist die zweite öffentliche Cyber-Evaluation überhaupt, in der ein Frontier-Modell die anspruchsvollste Test-Suite des AISI knackt. Was das konkret heisst und warum die Schweizer Finanzaufsicht jetzt genauer hinschauen sollte, liest du hier.

Zweites Modell schafft den 32-Stufen-Angriff

Das Herzstück der AISI-Evaluation ist eine Test-Range namens «The Last Ones» – ein simulierter, 32-stufiger Angriff auf ein virtuelles Firmennetzwerk. Eine Aufgabe, für die ein menschlicher Cyber-Experte rund 20 Stunden braucht. Bisher hatte nur ein Modell diese Kette eigenständig durchgespielt: Claude Mythos Preview – in 3 von 10 Versuchen.

Mit GPT-5.5 hat nun ein zweites Modell aus einem anderen Labor die Schwelle durchbrochen. OpenAIs Frontier schafft den Durchgang in 2 von 10 Versuchen. Auf den Expert-Tier-Aufgaben des AISI – einer Sammlung kurzer, harter Cyber-Aufgaben auf dem Niveau erfahrener Penetration-Tester – liegt GPT-5.5 mit einer Trefferquote von 71,4 % sogar leicht vor Mythos Preview (68,6 %).

GPT-5.5: 71,4 % auf AISI Expert-Tier, 2/10 auf «The Last Ones»
Claude Mythos Preview: 68,6 % Expert-Tier, 3/10 auf «The Last Ones»
GPT-5.4: 52,4 % Expert-Tier
Claude Opus 4.7: 48,6 % Expert-Tier

Der Sprung zwischen GPT-5.4 und GPT-5.5 ist also massiv – rund 19 Prozentpunkte in einer einzigen Modellgeneration.

Cyber-Skill als Nebeneffekt allgemeiner Fähigkeiten

Die spannendere Beobachtung steckt in der Einordnung des AISI selbst: Offensive Cyber-Fähigkeiten entstehen nicht primär, weil die Labore explizit darauf trainieren. Sie entstehen als Nebenprodukt allgemeiner Fortschritte in Long-Horizon-Planung, Reasoning und Coding. Jedes Modell, das besser über lange agentische Aufgaben hinweg denkt, wird damit auch zwangsläufig zu einem besseren simulierten Angreifer.

Wenn Cyber-Skill als Nebeneffekt von Long-Horizon-Autonomie kommt, sollten weitere Sprünge in den nächsten Modellen erwartet werden. – AI Safety Institute, 30. April 2026

Das hat eine unangenehme Konsequenz: Defensive Vorbereitungen können nicht mehr modellweise geplant werden. Was im Mai noch das Niveau von Mythos und GPT-5.5 ist, könnte im Sommer schon der Standard kleinerer Open-Weight-Modelle sein.

Universal-Jailbreak in sechs Stunden

Auf der Sicherheits-Seite gibt es zwei Schlagzeilen, die zusammengehören. Erstens: AISI-Red-Teamer fanden in nur sechs Stunden einen Universal-Jailbreak, der alle vom Institut getesteten Cyber-Anfragen aus GPT-5.5 herausholte – auch in mehrstufigen agentischen Settings. Zweitens: OpenAI hat darauf reagiert und das Safeguard-System überarbeitet. Wegen einer Konfigurationspanne in der ans AISI gelieferten Version konnte das Institut den Fix aber nicht final verifizieren.

Konkret heisst das: GPT-5.5 ist mit hoher Wahrscheinlichkeit weniger ausbruchssicher, als die offiziell veröffentlichte Version vermuten lässt – und Anthropics Mythos hat ein vergleichbares Profil. Beide Modelle sind in den USA und Grossbritannien deshalb nicht frei erhältlich, sondern nur über kontrollierte Enterprise- und Behörden-Kanäle.

Was das für die Schweiz bedeutet

Die Schweiz ist von dieser Lage doppelt betroffen. Die FINMA hatte den Schweizer Finanzplatz bereits Ende April vor Mythos-Risiken gewarnt und Swisscoms Threat Radar entsprechend ergänzt. Mit der AISI-Evaluation ist nun klar: Diese Warnung gilt nicht mehr nur für ein einzelnes Modell, sondern für eine ganze Klasse von Frontier-LLMs.

Für Schweizer CISOs heisst das vor allem dreierlei:

Phishing- und Social-Engineering-Erkennung muss damit rechnen, dass Angreifer agentische Modelle für Long-Horizon-Kampagnen einsetzen, nicht mehr nur für einzelne Mails.
Privilegierte Konten und Service-Accounts gehören in Audit und MFA-Ausnahmen ganz nach oben – Mythos und GPT-5.5 sind in den AISI-Tests gerade dort am erfolgreichsten.
Vendor-Risiko: Wer Mythos oder GPT-5.5 über Bedrock, Azure oder Workspace bezieht, sollte vertraglich klären, welche Safety-Updates wann eingespielt werden.

Der nächste Datenpunkt steht im Kalender

AISI hat angekündigt, weitere Modelle nach demselben Schema zu testen. Spannend wird, wann das erste Open-Weight-Modell – etwa aus China – die Schwelle zum erfolgreichen «Last Ones»-Durchgang knackt. Sobald das passiert, ist der Mythos-Vorsprung als Defensivargument vom Tisch und die Diskussion verschiebt sich endgültig in Richtung Hardening, Detection und regulatorischer Leitplanken.

Bis dahin gilt: Die zwei Modelle, die heute Cyber-Operationen auf Expertenniveau durchspielen können, kommen aus San Francisco. Beide stehen unter Aufsicht. Beide sind in Europa nur über Enterprise-Verträge erhältlich. Und beide werden in den nächsten Wochen wieder Massstäbe setzen – nicht nur für Angreifer, sondern auch für die, die ihnen einen Schritt voraus sein wollen.

Zweites Modell schafft den 32-Stufen-Angriff

GPT-5.5: 71,4 % auf AISI Expert-Tier, 2/10 auf «The Last Ones»
Claude Mythos Preview: 68,6 % Expert-Tier, 3/10 auf «The Last Ones»
GPT-5.4: 52,4 % Expert-Tier
Claude Opus 4.7: 48,6 % Expert-Tier

Der Sprung zwischen GPT-5.4 und GPT-5.5 ist also massiv – rund 19 Prozentpunkte in einer einzigen Modellgeneration.

Cyber-Skill als Nebeneffekt allgemeiner Fähigkeiten

Wenn Cyber-Skill als Nebeneffekt von Long-Horizon-Autonomie kommt, sollten weitere Sprünge in den nächsten Modellen erwartet werden. – AI Safety Institute, 30. April 2026

Universal-Jailbreak in sechs Stunden

Was das für die Schweiz bedeutet

Für Schweizer CISOs heisst das vor allem dreierlei:

Phishing- und Social-Engineering-Erkennung muss damit rechnen, dass Angreifer agentische Modelle für Long-Horizon-Kampagnen einsetzen, nicht mehr nur für einzelne Mails.
Privilegierte Konten und Service-Accounts gehören in Audit und MFA-Ausnahmen ganz nach oben – Mythos und GPT-5.5 sind in den AISI-Tests gerade dort am erfolgreichsten.
Vendor-Risiko: Wer Mythos oder GPT-5.5 über Bedrock, Azure oder Workspace bezieht, sollte vertraglich klären, welche Safety-Updates wann eingespielt werden.

AISI prüft GPT-5.5: OpenAIs Frontier zieht mit Mythos auf Cyber-Niveau gleich

Zweites Modell schafft den 32-Stufen-Angriff

Cyber-Skill als Nebeneffekt allgemeiner Fähigkeiten

Universal-Jailbreak in sechs Stunden

Was das für die Schweiz bedeutet

Der nächste Datenpunkt steht im Kalender

Quellen

AISI prüft GPT-5.5: OpenAIs Frontier zieht mit Mythos auf Cyber-Niveau gleich

Zweites Modell schafft den 32-Stufen-Angriff

Cyber-Skill als Nebeneffekt allgemeiner Fähigkeiten

Universal-Jailbreak in sechs Stunden

Was das für die Schweiz bedeutet

Der nächste Datenpunkt steht im Kalender

Quellen

AISI prüft GPT-5.5: OpenAIs Frontier zieht mit Mythos auf Cyber-Niveau gleich

Zweites Modell schafft den 32-Stufen-Angriff

Cyber-Skill als Nebeneffekt allgemeiner Fähigkeiten

Universal-Jailbreak in sechs Stunden

Was das für die Schweiz bedeutet

Der nächste Datenpunkt steht im Kalender

Quellen

WEITERLESENDas könnte dich auch interessieren.

Jeder Zweite nutzt Chatbots – und kaum einer traut ihnen

226 Stimmen gegen KI in der Tötungskette

Nationalrat will sexualisierte KI-Deepfakes stoppen

AISI prüft GPT-5.5: OpenAIs Frontier zieht mit Mythos auf Cyber-Niveau gleich

Zweites Modell schafft den 32-Stufen-Angriff

Cyber-Skill als Nebeneffekt allgemeiner Fähigkeiten

Universal-Jailbreak in sechs Stunden

Was das für die Schweiz bedeutet

Der nächste Datenpunkt steht im Kalender

Quellen

WEITERLESENDas könnte dich auch interessieren.

Jeder Zweite nutzt Chatbots – und kaum einer traut ihnen

226 Stimmen gegen KI in der Tötungskette

Nationalrat will sexualisierte KI-Deepfakes stoppen