Claudes KI-Agenten schlagen menschliche Alignment-Forscher – mit einem grossen Haken

Neun Claude-Opus-4.6-Agenten übertrafen menschliche Forscher auf einem Alignment-Problem – aber die Methode generalisierte nicht auf Produktionsmodelle.

Pascal Eugster

GRÜNDER & ENTWICKLER

16. APRIL 2026

2 MIN. LESEZEIT

Illustration Roboter-Forscher am Tisch, kinewsletter.ch Stil

KI-FORSCHUNG·4. JULI 2026

AISI: Benchmarks unterschätzen KI-Agenten systematisch

Das britische AI Security Institute zeigt in seinem Frontier AI Trends Report, dass gängige Benchmarks die wahren Fähigkeiten von KI-Agenten zu tief ansetzen. Verbesserte man nur das «Scaffolding» eines Modells, stieg die Leistung in Cyber-Tests um fast 10 Prozentpunkte. Für KI-Sicherheit und Regulierung ist das ein Alarmzeichen.