Raw Record Source

{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreidjbkoz7zyphrodyavu2mx2gdlc7lxjvdr5jvaowrpj3qt7ujesry",
    "uri": "at://did:plc:zfkx2dhqf3sjdalzku4ajvqy/app.bsky.feed.post/3mlvpylsnndu2"
  },
  "coverImage": {
    "$type": "blob",
    "ref": {
      "$link": "bafkreidzlheuut4sopw5qwffj6fx3snpbgi7o7xfc2u35gkxxe6suiaofy"
    },
    "mimeType": "image/png",
    "size": 1635260
  },
  "path": "/noticias/ia/chatbot-arena-plus-q2-2026/",
  "publishedAt": "2026-05-15T14:15:51.000Z",
  "site": "https://www.adslzone.net",
  "tags": [
    "su benchmark Chatbot Arena+",
    "caso de ChatGPT",
    "las inteligencias artificiales chinas"
  ],
  "textContent": "\n\n\nOpenLM.ai mantiene actualizado su benchmark Chatbot Arena+ que nos permite conocer el **rendimiento real de los grandes modelos de lenguaje (LLMs)**. En una batalla titánica, tenemos poco margen de diferencia entre GPT-5.5 de OpenAI, Claude Opus 4.7 de Anthropic, Gemini 3.1 Pro de Google y Grok 4.20 de xAI. Las diferencias entre los cuatro líderes son las más estrechas registradas hasta la fecha, pero ¿quién lidera el top mundial de IA?\n\n## Un ranking que mezcla datos y preferencias humanas\n\nAntes de entrar en materia debemos conocer lo que mide esta clasificación. El Chatbot Arena+ combina el sistema Elo Arena, basado en más de 6 millones de votos humanos con **métricas estandarizadas como AAII v3, MMLU-Pro y ARC-AGI v2**. Es decir, ofrece una fotografía completa de rendimiento con precisión técnica, capacidad de razonamiento y valoración subjetiva de los usuarios.\n\n  * **AAII v3 (Evaluación Avanzada de Inteligencia Artificial v3)** : Un benchmark que analiza el razonamiento de los diferentes modelos en 10 tareas técnicas complejas.\n  * **MMLU-Pro (Massive Multitask Language Understanding – Professional)** : Una versión avanzada que mide la comprensión del lenguaje en múltiples disciplinas, todo a nivel universitario.\n  * **ARC-AGI v2 (Abstraction and Reasoning Challenge for AGI v2)** : Evalúa el razonamiento abstracto mediante rompecabezas visuales. Los humanos alcanzan unos resultados cercanos al 100% mientras que los modelos de IA actuales se mueven entre un 10% y un 20%.\n\n\n\n## Top 5 mundial de modelos LLM — mayo 2026\n\nPosición| Modelo| Elo global| Codificación| Visión| AAII v3| MMLU-Pro (%)| ARC-AGI v2\n---|---|---|---|---|---|---|---\n1| GPT-5.5-high| 1506| 1562| 1312| 76| 89,6| 85\n2| Claude Opus 4.7 Thinking| 1505| 1565| 1310| 76| 90| 75,8\n3| Gemini-3.1-Pro| 1505| 1531| 1309| 76| 91| 77,1\n4| Claude Opus 4.7| 1503| 1554| 1300| 73| 89,9| 65,5\n5| Claude Opus 4.6 Thinking| 1503| 1545| 1304| 73| 89,7| 69,2\n\n## La batalla entre gigantes: diferencias mínimas y estrategias distintas\n\nLo que se aprecia a simple vista **según los datos de OpenLM.ai** es una gran igualdad entre grandes modelos de lenguaje. **GPT-5.5-high** se coloca ahora en primera posición con 1506 puntos Elo, pero Claude Opus 4.7 Thinking y Gemini-3.1-Pro aparecen justo detrás con 1505 puntos. Hasta esta actualización, Gemini 3.1 Pro lideraba, pero las tornas se han invertido.\n\nEn el caso de ChatGPT, OpenAI recupera el **liderato global con GPT-5.5-high**. Además de obtener 1506 puntos Elo, destaca especialmente en codificación con 1562 puntos y en ARC-AGI v2, donde alcanza 85 puntos. Aunque no es una victoria aplastante, si pone de manifiesto el esfuerzo de OpenAI para volver a lo más alto de la clasificación.\n\nComparativa de las puntuaciones obtenidas por los principales modelos de IA en tests de rendimiento y programación.\n\n**Claude Opus 4.7 Thinking** es probablemente la gran sorpresa de la clasificación. Aunque no lidera por solo un punto, si consigue la mejor puntuación en codificación entre los cinco primeros, con 1565 puntos. Por su parte Grok 4.20 gana terreno en contexto conversacional. A nivel personal, coincido bastante con esta clasificación según mis hábitos, pero sí es cierto que le daría algo más de puntuación a la IA de Elon Musk en codificación.\n\n## La IA China fuera de la élite\n\nAunque nos hemos centrado en ver a los modelos más conocidos por todos como **GPT-5.5 de OpenAI, Claude Opus 4.7 de Anthropic, Gemini 3.1 Pro de Google y Grok 4.20 de xAI** , lo cierto es que el ranking esconde muchas cosas que analizar. Seguro que a muchos les sorprende no ver en las primeras posiciones a las inteligencias artificiales chinas más populares de los últimos meses.\n\nPor un lado, **ERNIE-5.1 de Baidu** aparece como el modelo chino mejor situado con 1475 puntos Elo. Si bajamos algo más en la clasificación tenemos a GLM-5.1, DeepSeek-V4-Pro y Qwen3.5-Max, todos en una zona muy igualada, pero ya por detrás del grupo de cabeza formado por **OpenAI, Anthropic y Google.**\n\nEstos modelos tienen muchos problemas por culpa de las **restricciones en el acceso a chips de alto rendimiento** debido a las regulaciones de exportación impuestas por Estados Unidos. Esto limita la capacidad de entrenamiento comparado con competidores occidentales.\n\nClasificación actualizada de los modelos de inteligencia artificial más potentes según la puntuación Elo de Chatbot Arena.\n\n## Qué significa este resultado para la industria\n\nLa primera posición de ChatGPT 5.5 no es definitiva, **ni pude permitir a los de OpenAI dormirse en los laureles**. Una diferencia de menos de 2 puntos Elo entre los cuatro primeros muestra una madurez bastante interesante de los modelos de lenguaje. Tampoco podemos dejar de fijarnos en las inteligencias artificiales que vienen de China y que están pisando los talones.",
  "title": "Así queda el top mundial de modelos IA: GPT-5.5 vs Claude 4.7 vs Gemini 3.1 vs Grok 4.20"
}