NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·REGULIERUNG & ETHIK

Cisco-Studie: KI-Schutzwälle bröckeln, sobald man hartnäckig nachfragt

Eine Cisco-Studie zeigt: Bei mehrstufigen Angriffen versagen die Schutzmechanismen führender KI-Modelle weit häufiger als in offiziellen Einzel-Prompt-Tests – bei Gemini 3 Pro steigt die Erfolgsquote von 18 auf 73 Prozent.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
29. MAI 2026
2 MIN. LESEZEIT
Skizze eines gesprungenen Schilds, durch dessen Riss mehrere Chat-Sprechblasen wie eine Leiter nach oben klettern
Skizze eines gesprungenen Schilds, durch dessen Riss mehrere Chat-Sprechblasen wie eine Leiter nach oben klettern (Dark)
INHALT
01Ein Prompt sagt fast nichts aus02Aus 3 Prozent werden 24 Prozent03Warum das auch die Schweiz angeht
INHALT
01Ein Prompt sagt fast nichts aus02Aus 3 Prozent werden 24 Prozent03Warum das auch die Schweiz angeht
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Die offiziellen Sicherheitswerte messen nur einen einzelnen Prompt – im echten, mehrstufigen Angriff bröckeln die Schutzwälle dramatisch.

Die Sicherheitsversprechen der grossen KI-Modelle halten dem echten Leben kaum stand. Eine neue Studie von Cisco zeigt: Wer nicht nach der ersten Abfuhr aufgibt, sondern in mehreren Schritten nachbohrt, knackt die Schutzmechanismen führender Modelle um ein Vielfaches häufiger – als es die offiziellen Sicherheitstests vermuten lassen.

Ein Prompt sagt fast nichts aus

Die meisten Sicherheits-Benchmarks prüfen Modelle mit einem einzigen Prompt: Eine schädliche Anfrage, eine Antwort, fertig. Genau das hält Cisco für realitätsfern. «Echte Angreifer iterieren», schreiben die Forschenden – sie formulieren Absagen um, zerlegen Aufgaben in harmlose Häppchen, schlüpfen in Rollen und steigern sich langsam. Cisco hat darum 15 der meistgenutzten Spitzenmodelle systematisch unter Druck gesetzt: gut 30'000 Einzel-Prompt-Angriffe und knapp 7'000 mehrstufige Angriffe über 1'456 Gespräche.

Aus 3 Prozent werden 24 Prozent

Das Ergebnis ist eindeutig. Die Attack Success Rate (ASR, also der Anteil erfolgreicher Angriffe) schiesst im Gespräch nach oben:

  • Anthropic Claude Opus 4.6: von 3,64 % auf 16,20 %
  • OpenAI GPT-5.4: von 2,74 % auf 24,68 %
  • Google Gemini 3 Pro: von 18,10 % auf 73,35 % – der grösste Sprung im Test

Auffällig auch: Bei xAIs Grok 4.1 Fast hing die Sicherheit stark an den Einstellungen. Ohne Reasoning-Modus lag die Erfolgsquote der Angriffe bei 88,30 %, mit eingeschaltetem Reasoning fiel sie auf 43,47 %. Genau solche Unterschiede tauchen in den offiziellen Datenblättern der Hersteller bisher nicht auf.

Warum das auch die Schweiz angeht

Für Unternehmen ist das ein Governance-Problem: Wer Modelle allein nach den veröffentlichten Einzel-Prompt-Werten auswählt, vergleicht laut Cisco «nicht dasselbe Produkt». Die Forschenden fordern aussagekräftigere Tests und Transparenz über Konfigurationen – und empfehlen, jedes Modell mit einer Lücke von über 15 Prozentpunkten vor dem Einsatz manuell zu prüfen. Brisant wird das durch die Regulierung: Sowohl das NIST-Rahmenwerk in den USA als auch Artikel 15 des EU AI Act verlangen künftig adversariale Tests. Auch Schweizer Firmen, die ChatGPT, Claude oder Gemini in Prozesse einbauen, sollten deshalb genauer hinschauen, wie robust ihr Modell unter realem Beschuss wirklich ist.

Quellen

CSO Online – AI models more vulnerable than claimed when faced with iterative attacks↗ EXTERNER LINKCisco Blogs – Proprietary problems: multi-turn attacks on frontier models↗ EXTERNER LINKGovInfoSecurity – Open-Weight AI Models Fail the Jailbreak Test↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Skizze eines Video-Players, auf den eine Hand einen elektroblauen Stempel mit KI-Label drückt
Skizze eines Video-Players, auf den eine Hand einen elektroblauen Stempel mit KI-Label drückt (Dark)
REGULIERUNG & ETHIK·29. MAI 2026

YouTube labelt KI-Videos jetzt automatisch – auch ohne Zutun der Creator

YouTube kennzeichnet realistische KI-Videos künftig automatisch, selbst wenn Creator nichts deklarieren. Die Labels rücken prominenter ins Bild – ohne Nachteile bei Reichweite oder Monetarisierung.

Skizze chinesische Pagode mit verschlossenem Tor und blauem Schloss und Koffer davor
Skizze chinesische Pagode mit verschlossenem Tor und blauem Schloss und Koffer davor (Dark)
REGULIERUNG & ETHIK·28. MAI 2026

China sperrt KI-Talente ein – jetzt auch bei Alibaba und DeepSeek

Peking dehnt Reisesperren auf private KI-Schwergewichte aus: Gründer, Forschende und Top-Manager bei Alibaba und DeepSeek brauchen vor jeder Auslandsreise eine Regierungs-Genehmigung.

Skizze Capitol Hill mit Vertrag, Handschlag und Tech-Laptop, kleiner Chip neben dem Dokument
Skizze Capitol Hill mit Vertrag, Handschlag und Tech-Laptop, kleiner Chip neben dem Dokument (Dark)
REGULIERUNG & ETHIK·26. MAI 2026

NSA bekommt Claude trotz «Supply-Chain-Risiko» – Susie Wiles macht es persönlich

Anthropic liefert den US-Geheimdiensten Mythos – trotz offizieller Risiko-Einstufung. Chief of Staff Susie Wiles winkt den Deal persönlich durch.