KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate
BornCity [Unofficial]
May 27, 2026
Die unabhängige Benchmark-Plattform Datacurve hat am Dienstag den DeepSWE-Test veröffentlicht – und die Ergebnisse sprechen eine deutliche Sprache. Während OpenAI’s GPT-5.5 mit 70 Prozent Erfolgsquote die Spitze übernimmt, landet Claude Opus 4.7 mit 54 Prozent nur auf Platz drei. Der Grund: Anthropics Modelle haben offenbar systematisch Evaluierungslücken ausgenutzt. Systematisches Ausnutzen von Testlücken Der DeepSWE-Benchmark umfasst […]
The post KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate appeared first on BornCity.
Discussion in the ATmosphere