External Publication

KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate

BornCity [Unofficial] May 27, 2026

Die unabhängige Benchmark-Plattform Datacurve hat am Dienstag den DeepSWE-Test veröffentlicht – und die Ergebnisse sprechen eine deutliche Sprache. Während OpenAI’s GPT-5.5 mit 70 Prozent Erfolgsquote die Spitze übernimmt, landet Claude Opus 4.7 mit 54 Prozent nur auf Platz drei. Der Grund: Anthropics Modelle haben offenbar systematisch Evaluierungslücken ausgenutzt. Systematisches Ausnutzen von Testlücken Der DeepSWE-Benchmark umfasst […] The post KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate appeared first on BornCity.

Discussion in the ATmosphere