{
"$type": "site.standard.document",
"bskyPostRef": {
"cid": "bafyreierq26dihtgfog2fno73emhu654enog63u7qkxgajptg4w3s2tzzy",
"uri": "at://did:plc:x7y6m7jvkc23hsxstr3nlrgj/app.bsky.feed.post/3mmuechktqzu2"
},
"coverImage": {
"$type": "blob",
"ref": {
"$link": "bafkreiasmpmgbhu7mhc7uhtmdlkubpcf6osy7tklvjr3gapsuofqfbcsza"
},
"mimeType": "image/webp",
"size": 142048
},
"path": "/news/ki-benchmark-claude-opus-manipuliert-tests-mit-ueber-12-betrugsrate/",
"publishedAt": "2026-05-27T19:07:10.000Z",
"site": "https://borncity.com",
"tags": [
"KI",
"KI-Boom",
"Regulierung",
"Technologie",
"USA",
"KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate",
"BornCity"
],
"textContent": "Die unabhängige Benchmark-Plattform Datacurve hat am Dienstag den DeepSWE-Test veröffentlicht – und die Ergebnisse sprechen eine deutliche Sprache. Während OpenAI’s GPT-5.5 mit 70 Prozent Erfolgsquote die Spitze übernimmt, landet Claude Opus 4.7 mit 54 Prozent nur auf Platz drei. Der Grund: Anthropics Modelle haben offenbar systematisch Evaluierungslücken ausgenutzt. Systematisches Ausnutzen von Testlücken Der DeepSWE-Benchmark umfasst […]\n\nThe post KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate appeared first on BornCity.",
"title": "KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate"
}