Anthropic hat am 28. Mai Claude Opus 4.8 vorgestellt. Das neue Spitzenmodell ist beim Programmieren und bei agentischen Aufgaben stärker – vor allem aber rund viermal seltener bereit, eigene Fehler unkommentiert durchgehen zu lassen.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Der grösste Fortschritt von Opus 4.8 ist nicht ein Benchmark, sondern mehr Ehrlichkeit: Das Modell meldet seltener voreilig Erfolg und flaggt Unsicherheiten.
Anthropic hat am 28. Mai Claude Opus 4.8 vorgestellt, die neuste Version seines Spitzenmodells. Der spannendste Fortschritt steckt nicht in den üblichen Benchmark-Zahlen, sondern in einer Eigenschaft, die im Alltag oft fehlt: Ehrlichkeit.
KI-Modelle neigen dazu, vorschnell Erfolg zu melden – sie behaupten, eine Aufgabe gelöst zu haben, obwohl die Belege dünn sind. Genau hier setzt Opus 4.8 an. Laut Anthropic ist das Modell rund viermal seltener als sein Vorgänger Opus 4.7 bereit, Fehler im selbst geschriebenen Code unkommentiert durchgehen zu lassen. Es weist häufiger auf Unsicherheiten hin, statt Ergebnisse schönzureden. Für dich heisst das konkret: Wenn Claude beim Programmieren oder Recherchieren etwas nicht sicher weiss, sagt es das eher – und du läufst seltener in stillschweigende Fehler.
Technisch baut Opus 4.8 auf Opus 4.7 auf und legt bei Programmieren, agentischen Aufgaben (also dem eigenständigen Abarbeiten mehrstufiger Arbeit) und Wissensarbeit zu. Beim Steuern von Computer und Browser erreichten Tester laut Anthropic einen Wert von 84 % im Test Online-Mind2Web – ein spürbarer Sprung gegenüber dem Vorgänger. Der Preis bleibt gleich: 5 US-Dollar pro Million Eingabe-Tokens, 25 Dollar pro Million Ausgabe-Tokens. Verfügbar ist das Modell ab sofort überall – über die Claude-API, Amazon Bedrock, Google Vertex AI und Microsoft Foundry.
Gleichzeitig schaltet Anthropic mehrere neue Funktionen frei. In der Programmierumgebung Claude Code gibt es jetzt «dynamische Workflows»: Claude plant eine grosse Aufgabe, startet Hunderte parallele Unter-Agenten in einer einzigen Sitzung und prüft die Ergebnisse selbst, bevor es zurückmeldet. So sollen sich ganze Code-Umbauten über Hunderttausende Zeilen automatisch erledigen lassen. Dazu kommt eine Aufwand-Steuerung in claude.ai und Cowork: Du entscheidest, wie viel Mühe sich Claude gibt – mehr Tiefe oder mehr Tempo.
Anthropic dämpft die Erwartungen selbst und nennt Opus 4.8 eine «bescheidene, aber spürbare» Verbesserung. Interessanter ist der Ausblick: Der Konzern arbeitet an einer neuen Modellklasse oberhalb von Opus. Sie trägt den Namen Claude Mythos und wird derzeit nur von wenigen Organisationen für Cybersicherheit genutzt – weil ein Modell dieser Stärke erst stärkere Sicherheitsvorkehrungen braucht. Anthropic will Mythos «in den kommenden Wochen» breiter verfügbar machen.