Raw Record Source

{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreibpr4hhdmiyiekqq6rrhr6wuu4blljqrvvvpi2dreg2kttvt2xkha",
    "uri": "at://did:plc:jcdhsk6w7rxuehjvjgwrwr7d/app.bsky.feed.post/3mmwua7eomz32"
  },
  "coverImage": {
    "$type": "blob",
    "ref": {
      "$link": "bafkreieyovbxqmmhrr7st2ccw6z3nuevmreizmilynmxznucgmgi7exrpq"
    },
    "mimeType": "image/webp",
    "size": 106602
  },
  "description": "Anthropic veröffentlicht Claude Opus 4.8 zum gleichen Preis wie den Vorgänger und macht „Ehrlichkeit“ zum Hauptargument. Ein Inkrement mit ein paar praktisch relevanten Features drumherum – und Benchmarks, die ausnahmslos aus dem eigenen Haus kommen.\n\n",
  "path": "/ki-news/claude-opus-4-8-ein-inkrement-das-vor-allem-ehrlicher-sein-will/",
  "publishedAt": "2026-05-28T20:26:45.000Z",
  "site": "https://t01.li",
  "tags": [
    "Claude Opus 4.8 veröffentlicht",
    "API",
    "bei OpenAIs Default-Wechseln",
    "System Card",
    "VentureBeat",
    "9to5Mac",
    "Techzine",
    "Axios",
    "Dynamic Workflows",
    "Project Glasswing"
  ],
  "textContent": "Anthropic hat am 28. Mai – schwupps, heute – Claude Opus 4.8 veröffentlicht und das Modell direkt über _Opus 4.7_ als neues Flaggschiff gesetzt – zum gleichen Preis. Mittels API wandert es als `claude-opus-4-8` für 5 US-Dollar pro Million Input-Token und 25 pro Million Output über die Theke. Wer das vorige Update verfolgt hat, kennt die Dramaturgie. Kein Sprung, ein Schritt.\n\nBemerkenswert ist eher die Taktung. _Opus 4.7_ ist keine zwei Monate alt, und schon steht der Nachfolger im Regal – ein Tempo, das wir bei OpenAIs Default-Wechseln zuletzt im selben Rhythmus gesehen haben. Anthropic nennt das Ganze selbst „**a modest but tangible improvement“** , eine Wortwahl, die im üblichen Branchen-Sprech fast unterkühlt wirkt – fast emotionslos. Genau diese Ehrlichkeit(?) ist auch das eigentliche Verkaufsargument des Releases. Praktischerweise lässt sie sich schwer von außen prüfen.\n\n## Ehrlichkeit als Headline-Feature, geprüft vom eigenen Team (mit Sternchen)\n\nDas Stichwort, das durch die ganze Ankündigung trägt, heißt  _honesty_. Gemeint ist nichts Metaphysisches. Das Modell soll seltener behaupten, eine Aufgabe gelöst zu haben, wenn die Belege dünn sind. Anthropic beziffert das so: Opus 4.8 sei rund viermal seltener als der Vorgänger bereit, Fehler im selbst geschriebenen Code unkommentiert durchgehen zu lassen. Das ist, wenn es im Alltag trägt, die nützlichste Änderung im ganzen Paket – ein Modell, das beim Codereview die eigenen Patzer meldet, spart mehr Zeit als zwei Prozentpunkte auf irgendeinem Reasoning-Benchmark.\n\nDer Haken (also mein Sternchen) steckt im Verfahren. „Ehrlichkeit“ wird hier über Anthropics eigene Evaluierungen belegt, und die dazugehörige System Card kommt aus demselben Haus. Dasselbe gilt für das Alignment-Kapitel, das dem Modell „new highs“ bei prosozialen Eigenschaften wie der Unterstützung von Nutzer-Autonomie attestiert. Laut VentureBeat liegt der interne Misalignment-Score bei etwa 1,9 gegenüber 2,5 bei _Opus 4.7_ und damit faktisch gleichauf mit dem zurückgehaltenen Spitzenmodell  _Mythos_ – gemessen über rund 2.600 simulierte Investigation-Sessions pro Modell. Ein Modell, das sich über Ehrlichkeit verkauft und vom Hersteller für ehrlich befunden wird. Die unabhängige Gegenmessung fehlt, wie üblich bei einem Release, der aktuell gerade einmal ein paar Stunden alt ist.\n\n## Benchmarks: ordentliche Zugewinne, alles aus dem Haus\n\nDie Zahlen zeichnen ein konsistentes Bild nach oben. Beim agentischen Coden geht der Wert laut 9to5Mac, das die Hersteller-Tabelle ausliest, von 64,3 auf 69,2 Prozent. Beim Computer-Use nennt ein von Anthropic zitierter Tester 84 Prozent auf Online-Mind2Web, ein deutlicher Sprung über  _Opus 4.7_ und  _GPT-5.5_. Und auf einem Legal-Benchmark feiert ein Partner,  _Opus 4.8_ sei das erste Modell, das auf dem All-Pass-Standard die 10-Prozent-Marke überhaupt knackt. Wenn zehn Prozent der Anlass zum Feiern sind, lernt man mehr über den Benchmark als über das Modell.\n\nZwei Fußnoten verraten, wie beweglich solche Tabellen sind. Auf Terminal-Bench 2.1 misst Anthropic alle Modelle mit demselben Harness, während  _GPT-5.5_ mit seinem eigenen Codex-CLI-Harness auf 83,4 Prozent kommt – die Wahl des Test-Gerüsts verschiebt das Ergebnis also spürbar. Bei OSWorld-Verified wurde gleich die Messmethode geändert und der alte  _Opus-4.7_ -Wert nachträglich auf 82,3 Prozent angehoben. Übersetzt: Die Vergleichsbasis wandert, wenn der Hersteller neu rechnet. Herstellereigene Werte, keine unabhängige Drittmessung – das Standard-Sternchen, hier nur in groß.\n\nImmerhin gibt es Rückendeckung bei der Einordnung. Techzine und Axios lesen das Update unabhängig als das, was es ist, mit Zugewinnen von unter einem Prozentpunkt bis knapp neun. Das deckt sich mit Anthropics eigener Erwartung, dass der Alltagsunterschied an einem einzelnen Punkt kaum spürbar sein wird.\n\n## Effort Control, Dynamic Workflows und ein API-Detail für Pipeline-Bauer\n\nSpannender als der Modellsprung ist für viele das, was drumherum kommt. In _claude.ai_ und _Cowork_ gibt es jetzt eine Effort-Control neben dem Modell-Selector: Auf höherer Stufe denkt das Modell öfter und tiefer, auf niedrigerer antwortet es schneller und verbraucht die Rate-Limits langsamer. In  _Claude Code_ heißt die Spitze „xhigh\" beziehungsweise „max\", Default ist „high\". Du entscheidest künftig also selbst, wie viel Nachdenken du bezahlst, in Token und Rate-Limit-Budget.\n\nDer Fast Mode läuft mit etwa 2,5-facher Geschwindigkeit und ist dabei dreimal günstiger als bei den Vorgängermodellen, kostet aber weiterhin den doppelten Token-Preis. Die Dynamic Workflows stecken in der Research Preview und erlauben  _Claude Code_ , hunderte parallele Subagents in einer Session laufen zu lassen und Codebase-Migrationen über hunderttausende Zeilen Code von Kickoff bis Merge zu fahren, mit der bestehenden Test-Suite als Messlatte. Verfügbar nur für Enterprise, Team und Max.\n\nDas leiseste Detail ist für alle interessant, die produktive Prompt-Pipelines bauen: Die Messages API akzeptiert jetzt System-Einträge mitten im Messages-Array, sodass sich Claudes Instruktionen mitten in einer Aufgabe aktualisieren lassen, ohne den Prompt-Cache zu brechen oder den Umweg über einen User-Turn zu nehmen. Klingt nach Kleinkram, ist aber genau die Art Stellschraube, an der lang laufende Agents sonst hängenbleiben.\n\n### Mythos im Hintergrund\n\nDie eigentliche Ansage steht im Ausblick. _Opus 4.8_ ist auf Anthropics interner Leiter ausdrücklich das Modell _unter_ dem Spitzenmodell _Claude Mythos Preview_ , das im Rahmen von Project Glasswing nur einer Handvoll Organisationen für Cybersecurity-Arbeit offensteht. Anthropic kündigt an, Mythos-Klasse-Modelle „in den kommenden Wochen“ für alle Kunden freizugeben, sobald die Cyber-Schutzmaßnahmen stehen. „Kommende Wochen“ trägt hier viel Gewicht. Ankündigungen ohne Datum sind in dieser Branche eine eigene Disziplin – schauen wir mal.\n\n### Einordnung\n\nDas Update ist ein Inkrement, kein Sprung – und Anthropic sagt das selbst, was die übliche Dekonstruktion fast überflüssig macht. Sämtliche Vergleichszahlen stammen aus dem Haus oder von Partnern, die das Modell vor Release in der Hand hatten. Ohne externe Validierung bleibt jeder Prozentpunkt vorerst eine Hersteller-Behauptung. Das gilt auch für den „Ehrlichkeits“-Wert, der praktisch der interessanteste ist: Wenn ein Modell seine eigenen Code-Fehler verlässlicher meldet, ist das im Alltag mehr wert als ein Tabellenplatz.\n\nMein eigener erster Kontakt war unspektakulär. Ich habe _Opus 4.8_ vorhin für einen kleinen Bugfix am Theme dieses Blogs werkeln lassen, und es ist mir nicht mal aufgefallen, dass da das neue „Flaggschiff“ am Werk war. Je nachdem, wie man es dreht, ist dies das beste oder das ernüchterndste Kompliment für ein Inkrement.\n\nBleibt die Frequenz. Zwei Modelle in nicht einmal zwei Monaten, dazu ein Spitzenmodell, das in „kommenden Wochen“ winkt – stellt schon mal die Benchmarks kalt.\n\nWer sich auf konkretes Modellverhalten verlässt, sowas wie Stilrichtlinien, Test-Suiten, Prompt-Engineering im Produkt, arbeitet damit dauerhaft im Reaktionsmodus. Das ist kein Anthropic-Problem, das ist der Zustand.",
  "title": "Claude Opus 4.8: ein Inkrement, das vor allem ehrlicher sein will",
  "updatedAt": "2026-05-28T20:56:44.950Z"
}