Claude Opus 4.8: ein Inkrement, das vor allem ehrlicher sein will
Anthropic hat am 28. Mai – schwupps, heute – Claude Opus 4.8 veröffentlicht und das Modell direkt über Opus 4.7 als neues Flaggschiff gesetzt – zum gleichen Preis. Mittels API wandert es als claude-opus-4-8 für 5 US-Dollar pro Million Input-Token und 25 pro Million Output über die Theke. Wer das vorige Update verfolgt hat, kennt die Dramaturgie. Kein Sprung, ein Schritt.
Bemerkenswert ist eher die Taktung. Opus 4.7 ist keine zwei Monate alt, und schon steht der Nachfolger im Regal – ein Tempo, das wir bei OpenAIs Default-Wechseln zuletzt im selben Rhythmus gesehen haben. Anthropic nennt das Ganze selbst „a modest but tangible improvement“ , eine Wortwahl, die im üblichen Branchen-Sprech fast unterkühlt wirkt – fast emotionslos. Genau diese Ehrlichkeit(?) ist auch das eigentliche Verkaufsargument des Releases. Praktischerweise lässt sie sich schwer von außen prüfen.
Ehrlichkeit als Headline-Feature, geprüft vom eigenen Team (mit Sternchen)
Das Stichwort, das durch die ganze Ankündigung trägt, heißt honesty. Gemeint ist nichts Metaphysisches. Das Modell soll seltener behaupten, eine Aufgabe gelöst zu haben, wenn die Belege dünn sind. Anthropic beziffert das so: Opus 4.8 sei rund viermal seltener als der Vorgänger bereit, Fehler im selbst geschriebenen Code unkommentiert durchgehen zu lassen. Das ist, wenn es im Alltag trägt, die nützlichste Änderung im ganzen Paket – ein Modell, das beim Codereview die eigenen Patzer meldet, spart mehr Zeit als zwei Prozentpunkte auf irgendeinem Reasoning-Benchmark.
Der Haken (also mein Sternchen) steckt im Verfahren. „Ehrlichkeit“ wird hier über Anthropics eigene Evaluierungen belegt, und die dazugehörige System Card kommt aus demselben Haus. Dasselbe gilt für das Alignment-Kapitel, das dem Modell „new highs“ bei prosozialen Eigenschaften wie der Unterstützung von Nutzer-Autonomie attestiert. Laut VentureBeat liegt der interne Misalignment-Score bei etwa 1,9 gegenüber 2,5 bei Opus 4.7 und damit faktisch gleichauf mit dem zurückgehaltenen Spitzenmodell Mythos – gemessen über rund 2.600 simulierte Investigation-Sessions pro Modell. Ein Modell, das sich über Ehrlichkeit verkauft und vom Hersteller für ehrlich befunden wird. Die unabhängige Gegenmessung fehlt, wie üblich bei einem Release, der aktuell gerade einmal ein paar Stunden alt ist.
Benchmarks: ordentliche Zugewinne, alles aus dem Haus
Die Zahlen zeichnen ein konsistentes Bild nach oben. Beim agentischen Coden geht der Wert laut 9to5Mac, das die Hersteller-Tabelle ausliest, von 64,3 auf 69,2 Prozent. Beim Computer-Use nennt ein von Anthropic zitierter Tester 84 Prozent auf Online-Mind2Web, ein deutlicher Sprung über Opus 4.7 und GPT-5.5. Und auf einem Legal-Benchmark feiert ein Partner, Opus 4.8 sei das erste Modell, das auf dem All-Pass-Standard die 10-Prozent-Marke überhaupt knackt. Wenn zehn Prozent der Anlass zum Feiern sind, lernt man mehr über den Benchmark als über das Modell.
Zwei Fußnoten verraten, wie beweglich solche Tabellen sind. Auf Terminal-Bench 2.1 misst Anthropic alle Modelle mit demselben Harness, während GPT-5.5 mit seinem eigenen Codex-CLI-Harness auf 83,4 Prozent kommt – die Wahl des Test-Gerüsts verschiebt das Ergebnis also spürbar. Bei OSWorld-Verified wurde gleich die Messmethode geändert und der alte Opus-4.7 -Wert nachträglich auf 82,3 Prozent angehoben. Übersetzt: Die Vergleichsbasis wandert, wenn der Hersteller neu rechnet. Herstellereigene Werte, keine unabhängige Drittmessung – das Standard-Sternchen, hier nur in groß.
Immerhin gibt es Rückendeckung bei der Einordnung. Techzine und Axios lesen das Update unabhängig als das, was es ist, mit Zugewinnen von unter einem Prozentpunkt bis knapp neun. Das deckt sich mit Anthropics eigener Erwartung, dass der Alltagsunterschied an einem einzelnen Punkt kaum spürbar sein wird.
Effort Control, Dynamic Workflows und ein API-Detail für Pipeline-Bauer
Spannender als der Modellsprung ist für viele das, was drumherum kommt. In claude.ai und Cowork gibt es jetzt eine Effort-Control neben dem Modell-Selector: Auf höherer Stufe denkt das Modell öfter und tiefer, auf niedrigerer antwortet es schneller und verbraucht die Rate-Limits langsamer. In Claude Code heißt die Spitze „xhigh" beziehungsweise „max", Default ist „high". Du entscheidest künftig also selbst, wie viel Nachdenken du bezahlst, in Token und Rate-Limit-Budget.
Der Fast Mode läuft mit etwa 2,5-facher Geschwindigkeit und ist dabei dreimal günstiger als bei den Vorgängermodellen, kostet aber weiterhin den doppelten Token-Preis. Die Dynamic Workflows stecken in der Research Preview und erlauben Claude Code , hunderte parallele Subagents in einer Session laufen zu lassen und Codebase-Migrationen über hunderttausende Zeilen Code von Kickoff bis Merge zu fahren, mit der bestehenden Test-Suite als Messlatte. Verfügbar nur für Enterprise, Team und Max.
Das leiseste Detail ist für alle interessant, die produktive Prompt-Pipelines bauen: Die Messages API akzeptiert jetzt System-Einträge mitten im Messages-Array, sodass sich Claudes Instruktionen mitten in einer Aufgabe aktualisieren lassen, ohne den Prompt-Cache zu brechen oder den Umweg über einen User-Turn zu nehmen. Klingt nach Kleinkram, ist aber genau die Art Stellschraube, an der lang laufende Agents sonst hängenbleiben.
Mythos im Hintergrund
Die eigentliche Ansage steht im Ausblick. Opus 4.8 ist auf Anthropics interner Leiter ausdrücklich das Modell unter dem Spitzenmodell Claude Mythos Preview , das im Rahmen von Project Glasswing nur einer Handvoll Organisationen für Cybersecurity-Arbeit offensteht. Anthropic kündigt an, Mythos-Klasse-Modelle „in den kommenden Wochen“ für alle Kunden freizugeben, sobald die Cyber-Schutzmaßnahmen stehen. „Kommende Wochen“ trägt hier viel Gewicht. Ankündigungen ohne Datum sind in dieser Branche eine eigene Disziplin – schauen wir mal.
Einordnung
Das Update ist ein Inkrement, kein Sprung – und Anthropic sagt das selbst, was die übliche Dekonstruktion fast überflüssig macht. Sämtliche Vergleichszahlen stammen aus dem Haus oder von Partnern, die das Modell vor Release in der Hand hatten. Ohne externe Validierung bleibt jeder Prozentpunkt vorerst eine Hersteller-Behauptung. Das gilt auch für den „Ehrlichkeits“-Wert, der praktisch der interessanteste ist: Wenn ein Modell seine eigenen Code-Fehler verlässlicher meldet, ist das im Alltag mehr wert als ein Tabellenplatz.
Mein eigener erster Kontakt war unspektakulär. Ich habe Opus 4.8 vorhin für einen kleinen Bugfix am Theme dieses Blogs werkeln lassen, und es ist mir nicht mal aufgefallen, dass da das neue „Flaggschiff“ am Werk war. Je nachdem, wie man es dreht, ist dies das beste oder das ernüchterndste Kompliment für ein Inkrement.
Bleibt die Frequenz. Zwei Modelle in nicht einmal zwei Monaten, dazu ein Spitzenmodell, das in „kommenden Wochen“ winkt – stellt schon mal die Benchmarks kalt.
Wer sich auf konkretes Modellverhalten verlässt, sowas wie Stilrichtlinien, Test-Suiten, Prompt-Engineering im Produkt, arbeitet damit dauerhaft im Reaktionsmodus. Das ist kein Anthropic-Problem, das ist der Zustand.
Discussion in the ATmosphere