Eine Cisco-Studie zeigt: Bei mehrstufigen Angriffen versagen die Schutzmechanismen führender KI-Modelle weit häufiger als in offiziellen Einzel-Prompt-Tests – bei Gemini 3 Pro steigt die Erfolgsquote von 18 auf 73 Prozent.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Die offiziellen Sicherheitswerte messen nur einen einzelnen Prompt – im echten, mehrstufigen Angriff bröckeln die Schutzwälle dramatisch.
Die Sicherheitsversprechen der grossen KI-Modelle halten dem echten Leben kaum stand. Eine neue Studie von Cisco zeigt: Wer nicht nach der ersten Abfuhr aufgibt, sondern in mehreren Schritten nachbohrt, knackt die Schutzmechanismen führender Modelle um ein Vielfaches häufiger – als es die offiziellen Sicherheitstests vermuten lassen.
Die meisten Sicherheits-Benchmarks prüfen Modelle mit einem einzigen Prompt: Eine schädliche Anfrage, eine Antwort, fertig. Genau das hält Cisco für realitätsfern. «Echte Angreifer iterieren», schreiben die Forschenden – sie formulieren Absagen um, zerlegen Aufgaben in harmlose Häppchen, schlüpfen in Rollen und steigern sich langsam. Cisco hat darum 15 der meistgenutzten Spitzenmodelle systematisch unter Druck gesetzt: gut 30'000 Einzel-Prompt-Angriffe und knapp 7'000 mehrstufige Angriffe über 1'456 Gespräche.
Das Ergebnis ist eindeutig. Die Attack Success Rate (ASR, also der Anteil erfolgreicher Angriffe) schiesst im Gespräch nach oben:
Auffällig auch: Bei xAIs Grok 4.1 Fast hing die Sicherheit stark an den Einstellungen. Ohne Reasoning-Modus lag die Erfolgsquote der Angriffe bei 88,30 %, mit eingeschaltetem Reasoning fiel sie auf 43,47 %. Genau solche Unterschiede tauchen in den offiziellen Datenblättern der Hersteller bisher nicht auf.
Für Unternehmen ist das ein Governance-Problem: Wer Modelle allein nach den veröffentlichten Einzel-Prompt-Werten auswählt, vergleicht laut Cisco «nicht dasselbe Produkt». Die Forschenden fordern aussagekräftigere Tests und Transparenz über Konfigurationen – und empfehlen, jedes Modell mit einer Lücke von über 15 Prozentpunkten vor dem Einsatz manuell zu prüfen. Brisant wird das durch die Regulierung: Sowohl das NIST-Rahmenwerk in den USA als auch Artikel 15 des EU AI Act verlangen künftig adversariale Tests. Auch Schweizer Firmen, die ChatGPT, Claude oder Gemini in Prozesse einbauen, sollten deshalb genauer hinschauen, wie robust ihr Modell unter realem Beschuss wirklich ist.