AMD-Ingenieurin analysiert 6.852 Claude-Code-Sessions und dokumentiert einen massiven Rückgang der Denktiefe. Anthropic bestätigt zwei Produktänderungen – bestreitet aber gezieltes «Nerfing».

Anthropic bestätigt, dass zwei Produktänderungen die Denktiefe von Claude reduzierten – bestreitet aber gezieltes Nerfing. Eine AMD-Ingenieurin belegt den Leistungseinbruch mit 6.852 analysierten Sessions.
Stella Laurenzo, Senior Director in AMDs AI-Gruppe, hat den bisher detailliertesten Beleg für Claudes angeblichen Leistungsrückgang vorgelegt. Ihre Analyse umfasst 6.852 Claude-Code-Sessions mit 17.871 Thinking Blocks und 234.760 Tool Calls. Das Ergebnis: Die geschätzte Denktiefe fiel ab Februar drastisch. Der Reads-per-Edit-Wert – wie oft Claude eine Datei liest, bevor es sie ändert – sank von 6,6× (Ende Januar) auf 2,0× (Mitte März). Edits an nicht-gelesenen Dateien stiegen von 6,2 auf 33,7 Prozent.
Anthropics Boris Cherny bestätigte zwei konkrete Änderungen: Am 9. Februar wurde «Adaptive Thinking» für Opus 4.6 eingeführt, am 3. März das Standard-Effort-Level von «high» auf «medium» gesenkt. Beide Entscheide optimierten für Latenz und Kosten – auf Kosten tiefer Reasoning-Sessions.
Cherny räumte auch einen Bug ein: Adaptive Thinking vergab in bestimmten Turns null Reasoning-Tokens, was zu Halluzinationen wie erfundenen GitHub-SHAs und fiktiven Package-Namen führte. Der oft zitierte redact-thinking-2026-02-12-Header sei dagegen ein reiner UI-Change, der die Thinking-Anzeige verstecke, aber die Denkprozesse selbst nicht beeinflusse.
Der Backlash trifft Anthropic in einer heiklen Phase: Genau am Tag des Fortune-Artikels (14. April) lancierte das Unternehmen Opus 4.7 – das die Kritik teilweise adressiert. Das neue Modell bietet ein «xhigh»-Effort-Level und ein grösseres Kontextfenster. Ob das die Power-User zurückgewinnt, die sich vom Medium-Default betrogen fühlen, bleibt offen.

Anthropic hat am 16. April sein neues Flaggschiff-Modell vorgestellt. Claude Opus 4.7 übertrifft GPT-5.4 und Gemini 3.1 Pro in den wichtigsten Coding-Benchmarks – und bringt Features mit, die den Alltag von Entwicklern verändern dürften.
Claude Opus 4.7 setzt mit 87,6 Prozent auf SWE-bench Verified einen neuen Bestwert und überholt GPT-5.4 und Gemini 3.1 Pro – für Entwickler der bisher grösste Sprung zwischen zwei Claude-Generationen.

Neun Claude-Opus-4.6-Agenten übertrafen menschliche Forscher auf einem Alignment-Problem – aber die Methode generalisierte nicht auf Produktionsmodelle.
KI kann Forschung beschleunigen, aber Generalisierung und Reward-Hacking bleiben die zentralen Hürden.

Eine Woche nach Anthropics Project Glasswing schlägt OpenAI zurück: GPT-5.4-Cyber ist für defensive Cybersecurity entwickelt und nur für verifizierte Security-Profis zugänglich.
Das Wettrüsten um KI-gestützte Cyberverteidigung hat offiziell begonnen – mit direkten Folgen für Schweizer Infrastruktur.