Claude Opus 4.7 ist da – und holt sich die Coding-Krone zurück

Anthropic hat am 16. April sein neues Flaggschiff-Modell vorgestellt. Claude Opus 4.7 übertrifft GPT-5.4 und Gemini 3.1 Pro in den wichtigsten Coding-Benchmarks – und bringt Features mit, die den Alltag von Entwicklern verändern dürften.

Pascal Eugster

GRÜNDER & ENTWICKLER

17. APRIL 2026

3 MIN. LESEZEIT

87,6 Prozent auf SWE-bench – ein neuer Bestwert

Die Zahlen sind eindrücklich: Auf SWE-bench Verified, dem Standardtest für reale Software-Engineering-Aufgaben, erreicht Opus 4.7 87,6 Prozent – gegenüber 80,8 Prozent beim Vorgänger Opus 4.6 und 80,6 Prozent bei Googles Gemini 3.1 Pro. Auf dem härteren SWE-bench Pro liegt Opus 4.7 bei 64,3 Prozent, deutlich vor GPT-5.4 (57,7 Prozent) und Gemini 3.1 Pro (54,2 Prozent).

Besonders bemerkenswert: Auf dem neuen MCP-Atlas-Benchmark, der Agenten-Fähigkeiten über mehrere Tools hinweg misst, erreicht Opus 4.7 mit 77,3 Prozent den Bestwert aller getesteten Modelle. Bei GPQA Diamond, dem Test für naturwissenschaftliches Expertenwissen, kommt es auf 94,2 Prozent – praktisch gleichauf mit den Topmodellen von OpenAI und Google.

Vom Code-Assistenten zum autonomen Kollegen

Was die nackten Zahlen nicht zeigen: Opus 4.7 löst laut Anthropic viele Aufgaben, die sein Vorgänger und Sonnet 4.6 schlicht nicht schafften – vier komplexe Tasks auf einem internen 93-Aufgaben-Test, die zuvor keinem Claude-Modell gelangen. Auf CursorBench steigt die Erfolgsrate von 58 auf 70 Prozent, und bei Rakutens Produktions-Benchmark löst das neue Modell dreimal so viele Tickets wie sein Vorgänger.

Dazu kommen praktische Neuerungen: Das xhigh-Effort-Level bietet einen neuen Kompromiss zwischen Qualität und Geschwindigkeit. Der /ultrareview-Befehl in Claude Code simuliert eine Senior-Entwicklerin, die nicht bloss Syntaxfehler findet, sondern subtile Designfehler und Logiklücken aufspürt. Task Budgets – aktuell in Public Beta – geben Entwicklern Kontrolle über den Token-Verbrauch bei längeren Agenten-Sessions. Und der Auto-Mode für Max-Plan-Abonnenten lässt Claude eigenständig entscheiden, wann es nachdenken, Dateien lesen oder Code ausführen soll.

Dreimal schärfer sehen

Die Vision-Fähigkeiten machen einen grossen Sprung: Opus 4.7 verarbeitet Bilder bis 2.576 Pixel an der langen Kante – rund 3,3-mal so viel wie Opus 4.6. Für dich konkret: Screenshots von ganzen Dashboards, dichte Architekturdiagramme oder mehrseitige PDFs lassen sich jetzt deutlich detaillierter analysieren.

Der neue Tokenizer – und sein Haken

Opus 4.7 nutzt einen neuen Tokenizer, der Text effizienter verarbeitet. Dieselbe Eingabe erzeugt je nach Inhalt 1,0- bis 1,35-mal mehr Tokens als bisher. Das heisst: Bei gleichem Text zahlst du unter Umständen etwas mehr – obwohl die Preise auf dem Papier bei 5 Dollar (Input) und 25 Dollar (Output) pro Million Tokens stabil bleiben. Anthropic empfiehlt Entwicklern, ihre Token-Budgets zu überprüfen.

Cyber-Sicherheit: Bewusst gebremst

Interessant ist, was Opus 4.7 nicht kann: Anthropic hat die Cybersecurity-Fähigkeiten bewusst unter das Niveau von Mythos Preview gesenkt. Verdächtige Angriffs-Prompts werden automatisch blockiert. Gleichzeitig gibt es ein neues Cyber Verification Program für legitime Sicherheitsforscher – Penetrationstester, Red-Teamer und Vulnerability-Forscher können sich verifizieren lassen, um Zugriff auf die vollen Fähigkeiten zu erhalten.

Einordnung: Was bedeutet das für dich?

Opus 4.7 ist sofort verfügbar über claude.ai, die API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry und GitHub Copilot. Für Entwickler, die Claude Code nutzen, dürfte der Sprung spürbar sein – insbesondere bei komplexen Refactorings und mehrstündigen Agenten-Workflows. Die Kombination aus höherer Erfolgsrate, grösserem Kontextfenster (1 Million Tokens) und dem neuen Effort-Level macht Opus 4.7 zum aktuell stärksten allgemein verfügbaren Coding-Modell auf dem Markt.

Claude Opus 4.7 ist da – und holt sich die Coding-Krone zurück

87,6 Prozent auf SWE-bench – ein neuer Bestwert

Vom Code-Assistenten zum autonomen Kollegen

Dreimal schärfer sehen

Der neue Tokenizer – und sein Haken

Cyber-Sicherheit: Bewusst gebremst

Einordnung: Was bedeutet das für dich?

Quellen

Claude Opus 4.7 ist da – und holt sich die Coding-Krone zurück

87,6 Prozent auf SWE-bench – ein neuer Bestwert

Vom Code-Assistenten zum autonomen Kollegen

Dreimal schärfer sehen

Der neue Tokenizer – und sein Haken

Cyber-Sicherheit: Bewusst gebremst

Einordnung: Was bedeutet das für dich?

Quellen

Claude Opus 4.7 ist da – und holt sich die Coding-Krone zurück

87,6 Prozent auf SWE-bench – ein neuer Bestwert

Vom Code-Assistenten zum autonomen Kollegen

Dreimal schärfer sehen

Der neue Tokenizer – und sein Haken

Cyber-Sicherheit: Bewusst gebremst

Einordnung: Was bedeutet das für dich?

Quellen

WEITERLESENDas könnte dich auch interessieren.

Microsoft baut sieben eigene KI-Modelle – und löst sich von OpenAI

Anthropic bringt Claude Opus 4.8 – und macht das Modell vor allem ehrlicher

Qwen3.7-Max läuft 35 Stunden autonom – und optimiert Code für Alibabas eigenen Chip

Claude Opus 4.7 ist da – und holt sich die Coding-Krone zurück

87,6 Prozent auf SWE-bench – ein neuer Bestwert

Vom Code-Assistenten zum autonomen Kollegen

Dreimal schärfer sehen

Der neue Tokenizer – und sein Haken

Cyber-Sicherheit: Bewusst gebremst

Einordnung: Was bedeutet das für dich?

Quellen

WEITERLESENDas könnte dich auch interessieren.

Microsoft baut sieben eigene KI-Modelle – und löst sich von OpenAI

Anthropic bringt Claude Opus 4.8 – und macht das Modell vor allem ehrlicher

Qwen3.7-Max läuft 35 Stunden autonom – und optimiert Code für Alibabas eigenen Chip