Cisco-Studie: KI-Schutzwälle bröckeln, sobald man hartnäckig nachfragt

Die Sicherheitsversprechen der grossen KI-Modelle halten dem echten Leben kaum stand. Eine neue Studie von Cisco zeigt: Wer nicht nach der ersten Abfuhr aufgibt, sondern in mehreren Schritten nachbohrt, knackt die Schutzmechanismen führender Modelle um ein Vielfaches häufiger – als es die offiziellen Sicherheitstests vermuten lassen.

Ein Prompt sagt fast nichts aus

Die meisten Sicherheits-Benchmarks prüfen Modelle mit einem einzigen Prompt: Eine schädliche Anfrage, eine Antwort, fertig. Genau das hält Cisco für realitätsfern. «Echte Angreifer iterieren», schreiben die Forschenden – sie formulieren Absagen um, zerlegen Aufgaben in harmlose Häppchen, schlüpfen in Rollen und steigern sich langsam. Cisco hat darum 15 der meistgenutzten Spitzenmodelle systematisch unter Druck gesetzt: gut 30'000 Einzel-Prompt-Angriffe und knapp 7'000 mehrstufige Angriffe über 1'456 Gespräche.

Aus 3 Prozent werden 24 Prozent

Das Ergebnis ist eindeutig. Die Attack Success Rate (ASR, also der Anteil erfolgreicher Angriffe) schiesst im Gespräch nach oben:

Anthropic Claude Opus 4.6: von 3,64 % auf 16,20 %
OpenAI GPT-5.4: von 2,74 % auf 24,68 %
Google Gemini 3 Pro: von 18,10 % auf 73,35 % – der grösste Sprung im Test

Auffällig auch: Bei xAIs Grok 4.1 Fast hing die Sicherheit stark an den Einstellungen. Ohne Reasoning-Modus lag die Erfolgsquote der Angriffe bei 88,30 %, mit eingeschaltetem Reasoning fiel sie auf 43,47 %. Genau solche Unterschiede tauchen in den offiziellen Datenblättern der Hersteller bisher nicht auf.

Warum das auch die Schweiz angeht

Für Unternehmen ist das ein Governance-Problem: Wer Modelle allein nach den veröffentlichten Einzel-Prompt-Werten auswählt, vergleicht laut Cisco «nicht dasselbe Produkt». Die Forschenden fordern aussagekräftigere Tests und Transparenz über Konfigurationen – und empfehlen, jedes Modell mit einer Lücke von über 15 Prozentpunkten vor dem Einsatz manuell zu prüfen. Brisant wird das durch die Regulierung: Sowohl das NIST-Rahmenwerk in den USA als auch Artikel 15 des EU AI Act verlangen künftig adversariale Tests. Auch Schweizer Firmen, die ChatGPT, Claude oder Gemini in Prozesse einbauen, sollten deshalb genauer hinschauen, wie robust ihr Modell unter realem Beschuss wirklich ist.