External Publication

AI Picks der 21. KW

t01 KI-Journal May 24, 2026

Potzblitz: Es war I/O-Woche, und das färbt natürlich ab. Google hat ausgepackt, Anthropic hat in London zurückgespielt, Cursor hat mittendrin Composer 2.5 reingeschoben, und Alibaba ist mit Qwen3.7-Max auf der Bühne erschienen, ohne dass jemand vorher den Vorhang aufgezogen hätte. Dazu zwei Tools für die Werkzeugkiste, ein Schweizer Sonderweg und ein freundlicher Brief von Google an alle, die SEO gerade für tot erklären.

Reihenfolge thematisch sortiert, nicht chronologisch.

Gemini 3.5 Flash, Omni und der agentische Rest der I/O

Erwartet hatten viele Gemini 3.5 Pro. Bekommen hat das Publikum Gemini 3.5 Flash – und einen Hinweis, dass Pro „nächsten Monat“ kommt. Business Insider hat aus dem Saal von „audible groans“ berichtet, was die Erwartungshaltung ganz gut zusammenfasst. Trotzdem ist das, was Google rausgehauen hat, kein Beifangrelease.

3.5 Flash ist seit dem 19. Mai 2026 Default-Modell in der Gemini -App und im AI Mode der Google Search, weltweit. Wer Gemini diese Woche öffnet, läuft auf dem Ding. Die Hersteller-Benchmarks – Terminal-Bench 2.1 mit 76,2 %, MCP Atlas mit 83,6 %, GDPval-AA mit 1656 Elo – sind nett. Was wirklich neu ist: Ein Flash-Modell, das die eigene Pro-Vorgängergeneration auf Coding- und Agent-Benchmarks schlägt. Die historische Pro-vs. Flash-Hierarchie dreht sich damit zumindest auf dem Papier um. Wie sehr das in der Praxis steht, wird sich zeigen, sobald die Drittmessungen reinkommen.

Parallel dazu Gemini Omni Flash, die erste Iteration einer neuen multimodalen Modellfamilie, die Video aus beliebigem Input (Text, Bild, Audio, Video) generieren und editieren kann. Verfügbar über Gemini -App, Google Flow und YouTube Shorts. Das ist Googles Antwort auf Sora und die Veo -Erweiterung, wobei Omni explizit als „nativ multimodal“ positioniert wird, nicht als Pipeline aus mehreren spezialisierten Modellen.

Und dann ist da noch Gemini Spark: ein persönlicher Always-On-Agent, der auf Google-Cloud-VMs läuft (nicht auf dem Gerät), Workspace-Apps und Drittanbieter via MCP anbindet und „später diesen Sommer“ als agentischer Browser in Chrome andocken soll. Beta für Google-AI-Ultra-Abonnenten in den USA, nächste Woche.

Meine Lesart: Google positioniert sich tatsächlich aggressiv bei Privatanwendern – aber nicht, weil sie das B2B-Feld aufgeben. Sondern weil sie als einziger Spieler auf dem Feld mit Search-Distribution, Workspace-Distribution, Android-Distribution und einem eigenen Hyperscaler den Hebel haben, Agenten direkt in bestehende Daily Drivers zu kippen. Spark in Gmail. Information Agents in Search. Daily Brief im Posteingang. Das ist keine App-Strategie, das ist eine OS-Strategie, die der Konkurrenz fehlt.

Managed Agents in der Gemini API – die andere Hälfte der Wahrheit

Wer aus den obigen Privatanwender-Features schließt, Google würde Developer und Enterprise hinten anstellen, liegt daneben. Parallel zur Konsumenten-Welle hat Google Managed Agents in der Gemini API gelaunched (Public Preview).

Die Mechanik: Ein einziger API-Call spinnt einen Agenten in einer isolierten, ephemeren Linux-Sandbox auf. Der Agent kann reasonen, Tools nutzen, Code ausführen, Files lesen und schreiben, State über Calls hinweg halten. Powered by Gemini 3.5 Flash und Antigravity -Harness. Konfiguriert wird über versionierbare AGENTS.md- und SKILL.md-Files – das ist das Pattern, das Anthropic mit Claude Code vorgemacht hat und das sich gerade über die ganze Branche zieht.

Der strategische Move ist offensichtlich: Wer Agenten in Production betreibt, baut bisher Sandbox-Infrastruktur, State Management und Tool-Orchestrierung selbst. Google sagt: macht ihr das nicht, machen wir das. Im Tausch hostet Google den Execution-Layer. Wer ein Problem damit hat, dass Code-Execution und persistente Files in Googles Sandboxes liegen, hat zur gleichen Stunde eine zweite Option bekommen.

Anthropic: Self-Hosted Sandboxes und MCP Tunnels

Am gleichen Tag, in London, hat Anthropic auf der Code with Claude -Konferenz zwei neue Features für Claude Managed Agents angekündigt: Self-Hosted Sandboxes (Public Beta) und MCP Tunnels (Research Preview).

Das ist die direkte Gegenposition zu Google. Wo Google sagt „wir hosten alles“, sagt Anthropic: Tool-Execution kann auf eurer Infrastruktur laufen – on-prem, oder bei Managed-Providern wie Cloudflare, Daytona, Modal oder Vercel. MCP Tunnels gehen einen Schritt weiter: Ein leichtgewichtiges Gateway baut einen einzigen Outbound-Connect zu Anthropic auf, End-to-End-verschlüsselt, ohne eingehende Firewall-Regeln. Damit lassen sich interne Datenbanken, private APIs, Ticket-Systeme und Knowledge Bases als Tools an den Agenten hängen, ohne sie ins öffentliche Internet zu schieben.

Der Haken, den man sehen muss: Der Agent Loop selbst – Orchestrierung, Context Management, Error Recovery – bleibt bei Anthropic. Wer „fully on-prem“ liest und „nichts verlässt mein Rechenzentrum“ denkt, hat das falsch verstanden. Orchestrierungs-Metadaten fließen weiterhin durch Anthropic-Infrastruktur. Für regulierte Industrien, denen das reicht, ist das ein großer Schritt. Für die mit dem ganz strikten Audit-Hut ist es ein halber.

Beides ist Beta. MCP Tunnels muss man explizit beantragen. Trotzdem: Zusammen mit dem Vault-Proxy-Modell der LiteLLM Agent Platform (siehe unten) zeichnet sich ein Muster ab: Der Markt zerlegt die Agent-Architektur in „Hirn beim LLM-Anbieter, Hände beim Kunden“. Wie nachhaltig diese Trennung ist, wird sich zeigen, sobald die ersten ernsthaften Audit-Anforderungen einschlagen.

Cursor stellt Composer 2.5 vor

Am 18. Mai hat Cursor Composer 2.5 vorgestellt, die dritte Generation des hauseigenen Coding-Agents. Headline-Claim: matched Claude Opus 4.7 auf SWE-Bench Multilingual (79,8 % vs. 80,5 %) und Terminal-Bench 2.0 (69,3 % vs. 69,4 %) bei rund einem Zehntel der Kosten. Klingt nach genau dem Hersteller-Sternchen-Material, das ich mir neulich beim Thema Benchmarks schon näher angeschaut habe.

Nur: Diesmal liegt nicht nur die Hersteller-Bench auf dem Tisch. Artificial Analysis hat unabhängig nachgemessen: Composer 2.5 landet auf ihrem Coding Agent Index bei 62 Punkten – dritter Platz hinter Claude Opus 4.7 (max) in Claude Code (66) und GPT-5.5 (xhigh reasoning) in Codex (65). Mit 0,07 $ pro Task im Standard-Modus ist Composer 2.5 das günstigste Modell, das überhaupt über 60 Punkte schafft – der Faktor zu Opus-4.7-max (4,10 $/Task) ist real, nicht nur ein PR-Slide.

Was im Originalpost gerne übergangen wird: Composer 2.5 ist kein neues Modell, sondern weitertrainierter Moonshot-AI-Kimi-K2.5 -Checkpoint. Etwa 85 % der Gesamt-Compute kommen aus Cursors eigenem Post-Training, der Rest ist die Open-Weights-Basis aus Peking. Cursor-Co-Founder Aman Sanger hat zur Vorgängerversion eingeräumt, das beim Launch von Composer 2 nicht klar genug kommuniziert zu haben – „a miss“. Bei 2.5 wird der Kimi-K2.5 -Bezug offen in der Ankündigung benannt, wenn auch nicht in der Aufmacherzeile. Geschenkt; für Government-Contractors und regulierte Industrien bleibt die chinesische Basis ein Procurement-Thema, egal wo die Inference läuft.

Hot Take: Composer 2.5 ist das beste Argument gegen reflexartige Benchmark-Skepsis seit Längerem – nicht weil Cursor besonders ehrlich misst, sondern weil mit Artificial Analysis eine unabhängige Bench dieselbe Richtung bestätigt. Wenn das auf den eigenen, gnarligen Repos hält, ist die Ökonomie für lange Agent-Sessions plötzlich eine andere – wobei sich, wie ich an anderer Stelle ausgeführt habe, Reasoning-Modelle ohnehin anders füttern lassen als ihre Vorgänger.

Qwen3.7-Max – ohne hauseigene Schönrechnerei

Alibaba hat Qwen3.7-Max-Preview am 20. Mai auf dem Alibaba Cloud Summit offiziell vorgestellt – eine Woche, nachdem das Modell unter Preview-Namen still und leise auf der LM Arena aufgetaucht war. Das ist eine bemerkenswerte Inszenierungsumkehr: Erst Performance-Validierung in einer öffentlichen, crowdsourced Blind-Eval, dann die Marketing-Folien.

Die Ergebnisse: Artificial Analysis Intelligence Index 56,6 – Rang #6 global. LM Arena Elo 1.475, Rang #13 im Text Arena, #7 in Math. GPQA Diamond 92,4 %, knapp vor Claude Opus 4.6. Das Context Window springt von 256K (Qwen3.6-Max-Preview) auf 1 Mio. Token.

Die Zahlen, die Alibaba kommuniziert, stehen auf Drittmess-Boards, nicht in eignen Hochglanz-PDFs. Der Haken steckt aber tatsächlich woanders: Wie alle Max-Varianten seit Qwen2.5-Max ist auch dieses Modell proprietär. Keine Open Weights. Der Open-Source-Teil der Qwen -Linie bleibt bei den kleineren Modellen. Wer Qwen3.7-Max nutzen will, geht über Alibabas Bailian-API – mit allem, was an Daten-Routing daranhängt.

Pricing zum Zeitpunkt des Tippens: noch nicht veröffentlicht. Qwen3.6-Max-Preview lag bei 1,30 /7,80/7,80 pro Mio. Input/Output-Tokens, was als Indikation taugen mag.

Giotto.AI – der Schweizer Outlier

Über Giotto.AI bin ich erst durch die NZZ-Schlagzeile gestolpert, gefolgt von der Netzwoche mit dem klassischen „läuft auf einer einzigen GPU“-Aufhänger. Beide Texte lesen sich teaserseitig wie Marketing-Beilage, beide nennen weder Parameter noch technische Details.

Bevor man jetzt aber laut „Schweizer KI-Bingo“ ruft, ein paar Einordnungs-Korrekturen aus den Quellen, die sich Mühe gegeben haben: Die Wirtschaftswoche hat im Dezember 2025 konkrete Zahlen genannt: 200 Millionen Parameter, weniger als 1 GB Speicher, läuft auf älteren Nvidia-Chips. Giotto führt aktuell die eingeschränkte Kaggle-ARC-AGI-2-Rangliste an (25 %) und hat ein Spitzenergebnis beim ARC Prize 2025 abgeliefert. ARC ist nicht jedermanns Lieblings-Benchmark, aber es ist auch keiner, den sie sich in der Bench ausgedacht haben, um möglichst gut dazustehen – Hinrich Schütze (Computerlinguistik-Professor an der LMU München) hat den Architektur-Ansatz öffentlich als „auf jeden Fall vielversprechend“ eingeordnet.

Der eigentliche Kniff steckt in der Architektur: Giotto löst das Gedächtnis aus dem Sprachmodell heraus. Transformer wird als „Motor für logisches Denken“ benutzt, nicht als Speicher; relevantes Wissen kommt im Test-Time-Training aus externen Quellen rein. Wenn das skaliert, ist es genau die Art von Idee, die die aktuelle „Parameter-Bigger-Is-Better“-Achse herausfordert.

Geschäftsmodell: Drei Modi – Softwarelizenz auf Kunden-GPUs, gehostete GPU-Kapazitäten, vorinstallierte Appliances. Erste Kunden: Schweizer Armee, RUAG. Finanzierungsrunde über 200 Mio. USD bei einer angestrebten Bewertung von über einer Milliarde steht im Raum. Das ist keine HuggingFace-Hobby-Bude, das ist ein souveränitätspolitisches Spiel mit echtem Rückenwind aus Bern.

Ob das Modell sich gegen die offenen 100-Mrd-Parameter-Schwergewichte halten kann, ist eine andere Frage. Im konkreten Pick taugt es vor allem als Marker für das, was sich diese Woche neben dem I/O-Lärm bewegt hat.

LiteLLM Agent Platform – Kubernetes für Agent-Sandboxes

BerriAI hat die LiteLLM Agent Platform am 16. Mai 2026 als Open-Source-Projekt (MIT-Lizenz) veröffentlicht. Anders als die Marktech-Post-Beschreibung suggeriert, ist das keine Next.js-Dashboard-Spielerei, sondern eine Kubernetes-basierte Self-Hosted-Infrastruktur für isolierte Sandboxes von Coding-Agents wie Claude Code , Codex und Hermes. Das Next.js-Frontend ist nur ein Teil davon.

Das Architektur-Detail, das es interessant macht: Sandboxes laufen mit Stub-Credentials (GITHUB_TOKEN=stub_github_a8f1), und ein Vault-Proxy tauscht die bei jedem ausgehenden TLS-Connect gegen die echten Keys. Das ist das gleiche Muster wie bei Anthropics MCP Tunnels und Self-Hosted Sandboxes, nur als Open-Source-Implementierung und mit Kubernetes-CRDs (kubernetes-sigs/agent-sandbox) statt proprietärer Anbieter-Infrastruktur. Local Dev mit kind, Production auf AWS EKS, Session-Continuity über Pod-Restarts hinweg via Postgres.

Wer ohnehin schon eine LiteLLM-Gateway-Installation hat, bekommt damit das fehlende Stück, um Agenten in einer eigenen Production-Umgebung zu betreiben – ohne sich an Google oder Anthropic zu hängen. Aktuell Alpha. Aber das Repo lohnt einen Blick, allein um zu sehen, wie das CRD-Pattern für Agent-Sandboxes aussieht.

Vercel Labs introduces Zero

Keine Woche ohne Vercel. Diesmal: Zero, eine experimentelle System-Programmiersprache, deren ausdrückliches Design-Ziel ist, dass Compiler-Output für AI-Agenten konsumierbar ist – nicht für Menschen.

Die zentrale Idee: Diagnostics werden als JSON mit stabilen Error Codes (NAM003und Konsorten) ausgegeben, zero fix --plan --json liefert maschinenlesbare Repair-Pläne, Side Effects sind über Capability-Typen explizit in der Function-Signatur. Kompiliert zu nativen Binaries unter 10 KiB ohne LLVM. Apache-2.0.

Zero is pre-1 and intentionally unstable.

So steht es im Repo, und das ist die ehrliche Variante. Vercel-CTO Malte Ubl hat ein Experiment gepostet, in dem ein Bun -Rewrite mit Zero binnen 22 Stunden auf eine Testpass-Rate von 98,7 % gekommen sei. Schöne Zahl, sehr ausgesuchter Versuchsaufbau. Mehul Mohan, der Zero kurz nach Release getestet hat, beschreibt es als „Rust mit Basis-Borrow-Checker, nicht Rust-Niveau“ – die Memory-Safety-Garantien sind im Design da, in der Implementierung aber unreif. Kein Package Registry, keine stable Compiler Spec, keine Cross-Compilation.

Leicht hotter Take: Die Idee, dass die Toolchain für die primären Consumer (Agenten) gebaut wird und nicht für die zweite Zielgruppe (Menschen, die nachträglich draufschauen), ist tatsächlich neu. Ob Zero das Sprache-Sein gewinnt oder ob die Idee von Rust und Go geklaut wird, ist eine andere Frage. Für jetzt: angucken, nicht produktiv einsetzen.

Ryzen AI Halo

Wo Software-Agenten gerade lernen, in eigenen Sandboxes zu leben, schiebt AMD die Hardware-Variante nach: Mit dem Ryzen AI Halo bekommt der hauseigene Strix-Halo-Top-Chip (Ryzen AI Max+ Pro 395 , 16 Zen-5-Kerne, 40 RDNA-3.5-Compute-Units) endlich ein offizielles Mini-PC-Gehäuse drumherum. Ankündigung lief schon zur CES im Januar, seit dieser Woche steht der Preis: „schmale“ 3.999 US-Dollar für die Variante mit 128 GB RAM und 2 TB SSD. Vorbestellungen ab Juni, Auslieferung „unbekannt“.

Die Positionierung ist eindeutig: direktes Pendant zu NVIDIAs DGX Spark – Devkit für lokal laufende KI-Modelle, mit vorinstalliertem Software-Stack. Ein Punkt, an dem AMD nachweislich gegen NVIDIA stichelt: Halo läuft wahlweise mit Linux oder Windows, Spark nur mit Linux (DGX OS auf Ubuntu-Basis, alles andere wird nicht supportet). Was im Pressedeck nett klingt, ist im B2B-Procurement ein realer Differenzierer.

Der Preis ist eine Ansage, aber kein Schnäppchen. NVIDIAs DGX Spark liegt mit aktuell 4.699 US-Dollar in derselben Liga – AMD unterbietet um rund 700 Dollar, was den Halo zum günstigeren der zwei offiziellen Devkits macht, aber nicht zum Schnapper. Wer nur den Chip möchte, bekommt den Ryzen AI Max+ 395 -Silicon in Drittanbieter-Mini-PCs (HP Z2 Mini G1a, Framework Desktop, Beelink) ab rund 2.500 US-Dollar. AMDs Eigenwert liegt also nicht im Silicon, sondern im vorinstallierten KI-Stack drumherum.

Semi-hotter Take: Das Halo-Gerät ist weniger ein Consumer-Move als die Hardware-Variante der gleichen Strategie, die Google mit Managed Agents und Anthropic mit Self-Hosted Sandboxes fährt – die Lokalisierung von Agenten-Workloads, diesmal als Blech auf dem Schreibtisch. Wer ohnehin schon einen DGX Spark evaluiert hat, sollte den Halo auf die Shortlist setzen. Wer einfach Strix Halo im eigenen Workflow will, fährt mit OEM-Mini-PCs günstiger.

Screaming Frog SEO Spider 24.0 – MCP ist da

Der gute alte Screaming Frog SEO Spider ist in Version 24.0 erschienen, intern liebevoll „bolus“ getauft. Headline-Feature: ein nativer MCP-Server. Damit lassen sich Crawls, Analysen, Exports und Daten-Manipulationen aus Claude , LM Studio , Cursor und anderen MCP-Clients heraus per Natural Language steuern.

You can now run crawls, analyse, export and manipulate data using the SEO Spider and node.js within Claude, LM Studio and other AI chat assistants.

Drei Dinge stecken in dem Satz. Erstens: Node.js ist das deklarierte Runtime. Zweitens: Claude und LM Studio sind die explizit genannten Clients, der Rest läuft über MCP-Konformität. Drittens: Crawl, Analyse, Export, Datenmanipulation – also der volle Zyklus, nicht eine Teilfunktion.

Daneben gibt es Auto Compare Crawls (Vergleich der letzten zwei geplanten Läufe ohne manuellen Eingriff) und verbessertes E-Mail-Reporting mit angehängten Exports. Beides ist hübsche Quality-of-Life-Verbesserung; das eigentliche Argument der Version ist der MCP-Server.

Im Daily-SEO-Geschäft war Screaming Frog seit Jahren das Werkzeug, an dem keiner ernsthaft vorbeikam, der mehr als zwei Domains betreut. Mit dem MCP-Server bekommt das Tool jetzt eine Schicht obendrauf, die – wenn man sich auf die Konversation einlässt – Routinen wie „mach' mir einen Crawl, vergleich mit dem letzten Lauf, schick mir die Top-Issues per Mail“ tatsächlich auf ein Kommando reduziert. Für Audit-Workflows ist das ein echter Hebel.

Optimizing your website for generative AI features on Google Search

Bevor jetzt wieder alle „SEO ist tot“ rufen: Google hat einen offiziellen Guide rausgegeben (zuletzt aktualisiert am 15. Mai 2026), in dem ziemlich genau drinsteht, dass SEO eben nicht tot ist. Die Kurzfassung: Generative AI Search ist bei Google in den Core-Ranking-Systemen verankert. RAG und Query Fanout greifen auf den gleichen Index zu, der auch klassische Suchergebnisse füttert.

Apply foundational SEO best practices to generative AI search.

Was hübsch ist: Google nimmt im Abschnitt „Mythbusting“ eine Reihe von Best Practices explizit auseinander, die im AEO/GEO-Diskurs derzeit gern verkauft werden. Du brauchst keine llms.txt. Du musst deinen Content nicht in „Chunks“ zerlegen. Du musst nicht für AI-Systeme umschreiben. Du brauchst auch keine inauthentischen „Mentions“ einzukaufen.

Stattdessen die altbekannten Dinge: einzigartiger, nicht-kommodifizierter Content. Saubere technische Struktur. Gute Bilder und Videos. Semantisches HTML aus Usability-Gründen, nicht aus magischen Ranking-Gründen. Wer das überspringen will, weil GEO ja angeblich „etwas anderes“ sei, verwechselt Sichtbarkeit mit Magie.

Für alle, die diese Woche einen „GEO-Guru“-Newsletter abonniert haben: Lest den Google-Guide vorher. Spart vielleicht Geld.

Agent Registration with Auth.md

Betroffene werden gleich zustimmend nicken. Wenn man einen Agenten gegen die eigene API laufen lässt, rutscht der Agent gerne mal gegen einen 401. Und ab da hat er drei schlechte Optionen. 1.: Aufgeben. 2.: Den User unterbrechen für „Browser auf, Account anlegen, API-Key generieren, hier reinpasten“. 3.: Oder gegen einen service-spezifischen Registrierungs-Endpoint anlaufen, den außer dem eigenen Service niemand kennt. WorkOS schlägt diese Woche eine vierte Option vor: Auth.md, ein offenes Protokoll für Agenten-Registrierung über eine Markdown-Datei auf der eigenen Domain.

Das Konstrukt hat zwei Hälften. 1.: ein Markdown-Dokument auf https://yourservice.com/auth.md, das Agenten parsen wie sie lms.txt oder AGENTS.md parsen – Headings zur Navigation, fenced Code Blocks für Request-Shapes, Prosa zur Disambiguierung. 2.: ein paar HTTP-Endpoints (/agent-auth, /agent-auth/claim, /agent-auth/claim/complete), die das Protokoll umsetzen. Zwei Flows stehen zur Wahl: Agent Verified (ein vertrauenswürdiger Agent-Provider signiert ein ID-JAG mit „dieser Agent handelt für diesen User“, der Service verifiziert die Signatur und stellt Credentials aus) und User Claimed (OTP per E-Mail, User gibt sechsstelligen Code an den Agenten zurück, fertig).

Beim ersten Überfliegen war meine Sorge, was denn so mit OAuth, Graph API und anderen Auth-Stacks passiert. Beim zweiten Lesen klärt sich das. Auth.md ersetzt nichts, es erweitert bestehende Standards. Konkret: RFC 9728 (Protected Resource Metadata) für Discovery, IETF ID-JAG Draft für Delegation, OIDC Backchannel Logout für Revocation. Wer schon einen OAuth-Verifikationspfad hat, baut den Verified-Handler in einer Stunde dazu – das ist JWKS-backed JWT-Verifikation plus die User-Zuordnung, die der Service eh schon macht. Keine neue Krypto, kein neuer User-Model, kein neuer Key-Distribution-Mechanismus.

Ich sage es mal so: Das ist ein Tool mit einem real existierenden Problem dahinter. Sobald Agenten anfangen, ungelenkt durch die Service-Landschaft zu spazieren – und sie tun das gerade – braucht es einen Standard für „wie registriert sich ein autonomer Actor bei einem Service, der ihn nicht kennt“. Auth.md ist der erste ernsthafte Vorschlag dafür, der nicht „neuer Standard für die Tonne“ schreit. Adoption wird sich zeigen; das Konstrukt liegt im richtigen Layer.

Cohere Command A+ – Open-Source-Frontier auf zwei H100s

Cohere (kanadisches LLM-Startup, mitgegründet von Aidan Gomez – ja, der Co-Autor des „Attention Is All You Need“-Transformer-Papers) hat diese Woche Command A+ als Open-Source-Modell unter Apache-2.0-Lizenz veröffentlicht. Sparse Mixture-of-Experts, 218 Milliarden Total-Parameter, 25 Milliarden aktiv pro Token, 128 Experten, davon 8 aktiv. Multimodal (Text, Bild, Tool Use), 128K Input-Context, 64K Output, 48 Sprachen (darunter ein paar eher exotische Vertreter wie Thai oder Maltesisch, aber eben auch z. B. Deutsch und Niederländisch).

Der vermarktete Aufhänger ist „läuft auf nur zwei H100 GPUs“. Das stimmt – aber mit einem ganz dickem Hersteller-Sternchen: Es gilt für die W4A4-Quantisierung (4-Bit-Weights und -Activations via NVFP4). Bei voller BF16-Präzision braucht es 8 H100s. „Nur“ ist im Konsumenten-Kontext auch ein interessantes Wort: zwei H100s mieten kostet 5 bis 8 USD die Stunde, kaufen je nach Marktlage 25.000 bis 40.000 USD pro Karte. Für ein 218-Milliarden-Modell ist das effizient, für ein Bastelprojekt nicht. Cohere empfiehlt die W4A4-Variante als Default-Deployment, und ehrlicherweise: Die Benchmark-Zahlen für 4-Bit liegen laut Cohere im Rauschen der Full-Precision-Variante, was das praxisrelevant macht.

Performance-seitig sind die Sprünge gegenüber Command A Reasoning teils dramatisch: τ²-Bench Telecom 37 % → 85 %, Terminal-Bench Hard 3 % → 25 %, Memory Usage Quality 39 % → 54 %. Auf dem Artificial Analysis Intelligence Index landet Command A+ bei 37 – damit deutlich unter Qwen3.7-Max (56,6) und den proprietären Frontier-Modellen, aber an der Spitze der echten Open-Source-Modelle. Wichtig hier: „Open-Source“ heißt bei Command A+ tatsächlich Apache 2.0, nicht die in der Branche grassierende Pseudo-Open-Source-Lizenz mit Nutzungsbeschränkungen. Bei Meta und ein paar anderen ist „Open“ inzwischen eher ein Marketing-Begriff; bei Cohere ist es eine OSI-konforme Lizenz, die Kommerzialisierung explizit erlaubt.

Wilder Take: Cohere positioniert sich nicht als Frontier-Spieler, sondern als Frontier-Open-Source-Spieler. Das ist eine andere Liga, und dort ist Command A+ ein ernstzunehmender Release. Für Enterprises, die ein produktionsreifes Multimodal-Agent-Modell on-prem oder in eigener Cloud betreiben wollen, ist das ab dieser Woche eine echte Option – mit dem Vorteil, dass die Lizenz nicht in zwei Jahren überraschend zusammengestrichen wird.

So, und damit können wir auch diese Woche wieder entspannt abhaken. Fast um die Hälfte kürzer als letzte Woche und mit nur ganz wenig Anthropic.