kinewsletter.chkinewsletter.ch
News
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-Archiv
Search
News
Kategorien
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-ArchivÜber unsSuche
Kostenlos abonnieren
kinewsletter.chkinewsletter.ch

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

Navigation

Alle NewsNewsletter-ArchivAutorenÜber unsKontakt

Rechtliches

ImpressumDatenschutzAGB

© 2026Inoo GmbH · Altstätten SG · Schweiz

Swiss Made SoftwareEin Produkt vonInooInoo
  1. Home
  2. KI-News
  3. Neue Modelle
  4. Claude Opus 4.7 ist da – und holt sich die Coding-Krone zurück
Neue Modelle

Claude Opus 4.7 ist da – und holt sich die Coding-Krone zurück

Anthropic hat am 16. April sein neues Flaggschiff-Modell vorgestellt. Claude Opus 4.7 übertrifft GPT-5.4 und Gemini 3.1 Pro in den wichtigsten Coding-Benchmarks – und bringt Features mit, die den Alltag von Entwicklern verändern dürften.

Freitag, 17. April 2026~3 Min. Lesezeit
Pascal Eugster
Pascal EugsterGründer & Entwickler
Illustration einer Schaltzentrale mit Monitoren und Servern, kinewsletter.ch Stil
Illustration einer Schaltzentrale mit Monitoren und Servern, kinewsletter.ch Stil
Das Wichtigste

Claude Opus 4.7 setzt mit 87,6 Prozent auf SWE-bench Verified einen neuen Bestwert und überholt GPT-5.4 und Gemini 3.1 Pro – für Entwickler der bisher grösste Sprung zwischen zwei Claude-Generationen.

Anthropic hat am 16. April sein neues Flaggschiff-Modell vorgestellt. Claude Opus 4.7 übertrifft GPT-5.4 und Gemini 3.1 Pro in den wichtigsten Coding-Benchmarks – und bringt Features mit, die den Alltag von Entwicklern verändern dürften.

87,6 Prozent auf SWE-bench – ein neuer Bestwert

Die Zahlen sind eindrücklich: Auf SWE-bench Verified, dem Standardtest für reale Software-Engineering-Aufgaben, erreicht Opus 4.7 87,6 Prozent – gegenüber 80,8 Prozent beim Vorgänger Opus 4.6 und 80,6 Prozent bei Googles Gemini 3.1 Pro. Auf dem härteren SWE-bench Pro liegt Opus 4.7 bei 64,3 Prozent, deutlich vor GPT-5.4 (57,7 Prozent) und Gemini 3.1 Pro (54,2 Prozent).

Besonders bemerkenswert: Auf dem neuen MCP-Atlas-Benchmark, der Agenten-Fähigkeiten über mehrere Tools hinweg misst, erreicht Opus 4.7 mit 77,3 Prozent den Bestwert aller getesteten Modelle. Bei GPQA Diamond, dem Test für naturwissenschaftliches Expertenwissen, kommt es auf 94,2 Prozent – praktisch gleichauf mit den Topmodellen von OpenAI und Google.

Vom Code-Assistenten zum autonomen Kollegen

Was die nackten Zahlen nicht zeigen: Opus 4.7 löst laut Anthropic viele Aufgaben, die sein Vorgänger und Sonnet 4.6 schlicht nicht schafften – vier komplexe Tasks auf einem internen 93-Aufgaben-Test, die zuvor keinem Claude-Modell gelangen. Auf CursorBench steigt die Erfolgsrate von 58 auf 70 Prozent, und bei Rakutens Produktions-Benchmark löst das neue Modell dreimal so viele Tickets wie sein Vorgänger.

Dazu kommen praktische Neuerungen: Das xhigh-Effort-Level bietet einen neuen Kompromiss zwischen Qualität und Geschwindigkeit. Der /ultrareview-Befehl in Claude Code simuliert eine Senior-Entwicklerin, die nicht bloss Syntaxfehler findet, sondern subtile Designfehler und Logiklücken aufspürt. Task Budgets – aktuell in Public Beta – geben Entwicklern Kontrolle über den Token-Verbrauch bei längeren Agenten-Sessions. Und der Auto-Mode für Max-Plan-Abonnenten lässt Claude eigenständig entscheiden, wann es nachdenken, Dateien lesen oder Code ausführen soll.

Dreimal schärfer sehen

Die Vision-Fähigkeiten machen einen grossen Sprung: Opus 4.7 verarbeitet Bilder bis 2.576 Pixel an der langen Kante – rund 3,3-mal so viel wie Opus 4.6. Für dich konkret: Screenshots von ganzen Dashboards, dichte Architekturdiagramme oder mehrseitige PDFs lassen sich jetzt deutlich detaillierter analysieren.

Der neue Tokenizer – und sein Haken

Opus 4.7 nutzt einen neuen Tokenizer, der Text effizienter verarbeitet. Dieselbe Eingabe erzeugt je nach Inhalt 1,0- bis 1,35-mal mehr Tokens als bisher. Das heisst: Bei gleichem Text zahlst du unter Umständen etwas mehr – obwohl die Preise auf dem Papier bei 5 Dollar (Input) und 25 Dollar (Output) pro Million Tokens stabil bleiben. Anthropic empfiehlt Entwicklern, ihre Token-Budgets zu überprüfen.

Cyber-Sicherheit: Bewusst gebremst

Interessant ist, was Opus 4.7 nicht kann: Anthropic hat die Cybersecurity-Fähigkeiten bewusst unter das Niveau von Mythos Preview gesenkt. Verdächtige Angriffs-Prompts werden automatisch blockiert. Gleichzeitig gibt es ein neues Cyber Verification Program für legitime Sicherheitsforscher – Penetrationstester, Red-Teamer und Vulnerability-Forscher können sich verifizieren lassen, um Zugriff auf die vollen Fähigkeiten zu erhalten.

Einordnung: Was bedeutet das für dich?

Opus 4.7 ist sofort verfügbar über claude.ai, die API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry und GitHub Copilot. Für Entwickler, die Claude Code nutzen, dürfte der Sprung spürbar sein – insbesondere bei komplexen Refactorings und mehrstündigen Agenten-Workflows. Die Kombination aus höherer Erfolgsrate, grösserem Kontextfenster (1 Million Tokens) und dem neuen Effort-Level macht Opus 4.7 zum aktuell stärksten allgemein verfügbaren Coding-Modell auf dem Markt.

Quellen

  • Anthropic – Claude Opus 4.7(wird in neuem Tab geöffnet)
  • CNBC – Anthropic Claude Opus 4.7(wird in neuem Tab geöffnet)
  • 9to5Mac – Anthropic Opus 4.7(wird in neuem Tab geöffnet)
  • The Next Web – Opus 4.7 Benchmarks(wird in neuem Tab geöffnet)
  • Vellum – Opus 4.7 Benchmarks erklärt(wird in neuem Tab geöffnet)
Teilen:

Das könnte dich auch interessieren

Illustration eines Thermometers mit fallendem Quecksilber und zerbrochenen Zahnrädern, kinewsletter.ch Stil
Illustration eines Thermometers mit fallendem Quecksilber und zerbrochenen Zahnrädern, kinewsletter.ch Stil
Neue Modelle
17. April 2026

Claude unter Beschuss: Wurde das Modell heimlich verschlechtert?

AMD-Ingenieurin analysiert 6.852 Claude-Code-Sessions und dokumentiert einen massiven R\u00fcckgang der Denktiefe. Anthropic best\u00e4tigt zwei Produkt\u00e4nderungen \u2013 bestreitet aber gezieltes \u00abNerfing\u00bb.

Anthropic best\u00e4tigt, dass zwei Produkt\u00e4nderungen die Denktiefe von Claude reduzierten \u2013 bestreitet aber gezieltes Nerfing. Eine AMD-Ingenieurin belegt den Leistungseinbruch mit 6.852 analysierten Sessions.

Weiterlesen
Illustration Roboter-Forscher am Tisch, kinewsletter.ch Stil
Illustration Roboter-Forscher am Tisch, kinewsletter.ch Stil
KI-Forschung
16. April 2026Premium

Claudes KI-Agenten schlagen menschliche Alignment-Forscher – mit einem grossen Haken

Neun Claude-Opus-4.6-Agenten übertrafen menschliche Forscher auf einem Alignment-Problem – aber die Methode generalisierte nicht auf Produktionsmodelle.

KI kann Forschung beschleunigen, aber Generalisierung und Reward-Hacking bleiben die zentralen Hürden.

Weiterlesen
Illustration Schild und Schwert mit Binärcode, kinewsletter.ch Stil
Illustration Schild und Schwert mit Binärcode, kinewsletter.ch Stil
Neue Modelle
16. April 2026Premium

OpenAI launcht GPT-5.4-Cyber – die Antwort auf Anthropics Mythos

Eine Woche nach Anthropics Project Glasswing schlägt OpenAI zurück: GPT-5.4-Cyber ist für defensive Cybersecurity entwickelt und nur für verifizierte Security-Profis zugänglich.

Das Wettrüsten um KI-gestützte Cyberverteidigung hat offiziell begonnen – mit direkten Folgen für Schweizer Infrastruktur.

Weiterlesen