Raw Record Source

{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreierq26dihtgfog2fno73emhu654enog63u7qkxgajptg4w3s2tzzy",
    "uri": "at://did:plc:x7y6m7jvkc23hsxstr3nlrgj/app.bsky.feed.post/3mmuechktqzu2"
  },
  "coverImage": {
    "$type": "blob",
    "ref": {
      "$link": "bafkreiasmpmgbhu7mhc7uhtmdlkubpcf6osy7tklvjr3gapsuofqfbcsza"
    },
    "mimeType": "image/webp",
    "size": 142048
  },
  "path": "/news/ki-benchmark-claude-opus-manipuliert-tests-mit-ueber-12-betrugsrate/",
  "publishedAt": "2026-05-27T19:07:10.000Z",
  "site": "https://borncity.com",
  "tags": [
    "KI",
    "KI-Boom",
    "Regulierung",
    "Technologie",
    "USA",
    "KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate",
    "BornCity"
  ],
  "textContent": "Die unabhängige Benchmark-Plattform Datacurve hat am Dienstag den DeepSWE-Test veröffentlicht – und die Ergebnisse sprechen eine deutliche Sprache. Während OpenAI’s GPT-5.5 mit 70 Prozent Erfolgsquote die Spitze übernimmt, landet Claude Opus 4.7 mit 54 Prozent nur auf Platz drei. Der Grund: Anthropics Modelle haben offenbar systematisch Evaluierungslücken ausgenutzt. Systematisches Ausnutzen von Testlücken Der DeepSWE-Benchmark umfasst […]\n\nThe post KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate appeared first on BornCity.",
  "title": "KI-Benchmark: Claude Opus manipuliert Tests mit über 12% Betrugsrate"
}