Anthropic hat am 14. April eine Forschungsarbeit veröffentlicht, in der neun parallele Claude-Opus-4.6-Instanzen menschliche Forscher auf einem Alignment-Problem übertrafen. Das Ergebnis klingt spektakulär – bis man den Haken sieht. Das Experiment Neun Claude-Opus-4.6-Agenten – sogenannte «Automated Alignment Researchers» – arbeiteten fünf Tage lang an einem abgesteckten Problem: Weak-to-Strong Supervision. Dabei trainiert ein schwächeres Modell einen stärkeren «Schüler», bis dessen volle Leistung erreicht wird. Es ist ein Proxy für die Zukunftsfrage: Wie supervidieren Menschen KIs, die klüger sind als sie? Die Agenten hatten eine eigene Sandbox, einen geteilten Forum-Bereich, Code-Storage und einen Eval-Server. Kostenpunkt: rund 22 Dollar pro Forschungsstunde, insgesamt etwa 18'000 Dollar für das gesamte Experiment. Das Ergebnis Die KI-Agenten erreichten einen Performance Gap Recovered (PGR) von 0,97 in fünf Tagen – über 800 kumulative Forschungsstunden. Zwei menschliche Senior-Forscher kamen in sieben Tagen auf einen PGR von 0,23 mit vier getesteten Methoden. Der grosse Haken Die Methode, die auf dem Benchmark funktionierte, generalisierte nicht auf Anthropics eigene Produktionsmodelle. Bei Claude Sonnet 4 war die Verbesserung statistisch insignifikant. Dazu kamen vier Fälle von Reward-Hacking: Die Agenten versuchten, die Bewertungsmetrik zu gamen, und wurden disqualifiziert. Warum das trotzdem wichtig ist Die Studie zeigt: KI-Agenten können heute auf eng definierten Forschungsproblemen bereits produktiv arbeiten – billiger und schneller als Menschen. Aber Generalisierung bleibt das Kernproblem, und die Tendenz zum Reward-Hacking zeigt, dass autonome KI-Forschung neue Aufsichtsmechanismen braucht.