Google, Microsoft und xAI lassen US-Behörde ihre Modelle prüfen – freiwillig

Das US-Handelsministerium hat am 5. Mai bekannt gegeben, dass Google DeepMind, Microsoft und xAI dem Center for AI Standards and Innovation (CAISI) Zugriff auf ihre Frontier-Modelle vor der Veröffentlichung gewähren. Die Behörde testet die Systeme auf Risiken im Bereich nationale Sicherheit – Cyber, Bio, Chemie – bevor die Modelle live gehen. OpenAI und Anthropic hatten ähnliche Abkommen bereits 2024, jetzt zieht der Rest der grossen Labs nach.

Was CAISI bekommt – und was nicht

CAISI ist die Nachfolge-Behörde des AI Safety Institute, das unter Biden gegründet und von der Trump-Administration umbenannt wurde. Sie sitzt beim NIST (National Institute of Standards and Technology) und arbeitet im Auftrag des Handelsministeriums. Mit den neuen Vereinbarungen erhält sie:

Pre-Deployment-Zugriff auf neue Modelle, oft mit reduzierten oder ganz entfernten Sicherheitsschranken, um Worst-Case-Szenarien zu evaluieren
Targeted Research zu Cyber-Schwachstellen, biologischen und chemischen Risiken
Rückkanal an die Anbieter, damit Erkenntnisse vor dem Launch in Produkt-Verbesserungen einfliessen

Wichtig: Die Tests sind freiwillig. CAISI hat keine Vetomacht, kann nichts blockieren, kann keine Konzerne zur Compliance zwingen. Die Vereinbarungen funktionieren über Reputation und politischen Druck – nicht über Recht.

Trumps AI Action Plan im Hintergrund

Die Vereinbarungen sind nicht aus dem Nichts entstanden. Sie sind Teil des AI Action Plan, den die Trump-Administration im Sommer 2025 publiziert hat. Der Plan setzt auf «freiwillige Standards statt verpflichtender Regulierung» – ein Gegenmodell zum europäischen AI Act. Die OpenAI- und Anthropic-Verträge aus 2024 wurden im Zug der neuen Direktive neu verhandelt.

Für die Anbieter ist das Kalkül klar: Wer mit CAISI kooperiert, baut eine politische Versicherung gegen härtere Regulierung in Washington auf. Wer sich verweigert, riskiert Pentagon-Aufträge zu verlieren – wie aktuell Anthropic, das wegen Streits über Safety-Anforderungen bei einem grossen Verteidigungs-Deal aussen vor blieb.

DeepSeek als blinder Fleck

CAISI hat parallel zur Ankündigung eine eigene Evaluation von DeepSeek V4 Pro publiziert. Ergebnis: Das chinesische Modell liegt rund acht Monate hinter der US-Frontier zurück, vergleichbar mit GPT-5 vom August 2025. Auf den IRT-Scores (Item Response Theory) erreicht GPT-5.5 etwa 1'260 Punkte, Claude Opus 4.6 rund 999 Punkte, DeepSeek V4 Pro rund 800 Punkte.

Der Haken: Zwei der ausschlaggebenden Benchmarks – ARC-AGI-2 (semi-private) und CAISIs eigener PortBench – sind nicht-öffentlich. Auf einem geschlossenen Cybersecurity-Test (CTF-Archive-Diamond) erreichte GPT-5.5 71%, DeepSeek nur 32%. Open-Source-Communities haben die Ergebnisse bereits angefochten und werfen CAISI methodische Voreingenommenheit vor.

Was das für Schweizer Anwender bedeutet

Direkt betroffen ist die Schweiz nicht – CAISI ist eine US-Bundesbehörde. Aber zwei Effekte sind relevant:

Erstens: Die Vereinbarungen schaffen Präzedenz. Wenn Google und Microsoft ihren US-Behörden Pre-Deployment-Zugriff gewähren, sinkt die Hemmschwelle, das auch in Europa anzubieten. Das EU AI Office und das BAKOM könnten ähnliche Modelle anstreben – freiwillig oder vertraglich. Schweizer Compliance-Teams sollten beobachten, ob CAISI-Reports zur Referenz für Risk Assessments werden.

Zweitens: CAISIs Erkenntnisse zu Cyber-Risiken fliessen indirekt ins Schweizer Sicherheits-Ökosystem zurück. Was CAISI als kritisch identifiziert, kommt früher oder später in den Threat-Intelligence-Feeds des NCSC und der Industrie an. Wer Frontier-KI im Unternehmen einsetzt, sollte CAISI-Publikationen und die parallelen Analysen des britischen AISI im Blick behalten.

Vom Goodwill zur Norm

Was als freiwillige Geste begann, wird sich in den nächsten zwölf Monaten zu einer Quasi-Norm verdichten. Sobald Pentagon-Verträge an CAISI-Audits gekoppelt werden – und genau das wird gerade verhandelt – wird der «freiwillige» Test zur Markteintritts-Bedingung. Anthropic hat in dieser Woche bereits gezeigt, was passiert, wenn die Beziehung zu CAISI bröckelt: Pentagon-Aussperrung. Das ist der Hebel, der die Vereinbarungen am Ende durchsetzt.

Was CAISI bekommt – und was nicht

Pre-Deployment-Zugriff auf neue Modelle, oft mit reduzierten oder ganz entfernten Sicherheitsschranken, um Worst-Case-Szenarien zu evaluieren
Targeted Research zu Cyber-Schwachstellen, biologischen und chemischen Risiken
Rückkanal an die Anbieter, damit Erkenntnisse vor dem Launch in Produkt-Verbesserungen einfliessen

Trumps AI Action Plan im Hintergrund

DeepSeek als blinder Fleck

Was das für Schweizer Anwender bedeutet

Direkt betroffen ist die Schweiz nicht – CAISI ist eine US-Bundesbehörde. Aber zwei Effekte sind relevant:

Google, Microsoft und xAI lassen US-Behörde ihre Modelle prüfen – freiwillig

Was CAISI bekommt – und was nicht

Trumps AI Action Plan im Hintergrund

DeepSeek als blinder Fleck

Was das für Schweizer Anwender bedeutet

Vom Goodwill zur Norm

Fazit

Quellen

Das könnte dich auch interessieren

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic gegen OpenAI: Beide Labs zünden am selben Tag ein PE-Vehikel für Enterprise-KI

OpenAI macht ChatGPT-Free zur Werbe-Pipeline – per Default

Google, Microsoft und xAI lassen US-Behörde ihre Modelle prüfen – freiwillig

Was CAISI bekommt – und was nicht

Trumps AI Action Plan im Hintergrund

DeepSeek als blinder Fleck

Was das für Schweizer Anwender bedeutet

Vom Goodwill zur Norm

Fazit

Quellen

Das könnte dich auch interessieren

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic gegen OpenAI: Beide Labs zünden am selben Tag ein PE-Vehikel für Enterprise-KI

OpenAI macht ChatGPT-Free zur Werbe-Pipeline – per Default