External Publication
Visit Post

Así queda el top mundial de modelos IA: GPT-5.5 vs Claude 4.7 vs Gemini 3.1 vs Grok 4.20

ADSLZone: noticias y tutoriales sobre tecnología, internet y op… May 15, 2026
Source

OpenLM.ai mantiene actualizado su benchmark Chatbot Arena+ que nos permite conocer el rendimiento real de los grandes modelos de lenguaje (LLMs). En una batalla titánica, tenemos poco margen de diferencia entre GPT-5.5 de OpenAI, Claude Opus 4.7 de Anthropic, Gemini 3.1 Pro de Google y Grok 4.20 de xAI. Las diferencias entre los cuatro líderes son las más estrechas registradas hasta la fecha, pero ¿quién lidera el top mundial de IA?

Un ranking que mezcla datos y preferencias humanas

Antes de entrar en materia debemos conocer lo que mide esta clasificación. El Chatbot Arena+ combina el sistema Elo Arena, basado en más de 6 millones de votos humanos con métricas estandarizadas como AAII v3, MMLU-Pro y ARC-AGI v2. Es decir, ofrece una fotografía completa de rendimiento con precisión técnica, capacidad de razonamiento y valoración subjetiva de los usuarios.

  • AAII v3 (Evaluación Avanzada de Inteligencia Artificial v3) : Un benchmark que analiza el razonamiento de los diferentes modelos en 10 tareas técnicas complejas.
  • MMLU-Pro (Massive Multitask Language Understanding – Professional) : Una versión avanzada que mide la comprensión del lenguaje en múltiples disciplinas, todo a nivel universitario.
  • ARC-AGI v2 (Abstraction and Reasoning Challenge for AGI v2) : Evalúa el razonamiento abstracto mediante rompecabezas visuales. Los humanos alcanzan unos resultados cercanos al 100% mientras que los modelos de IA actuales se mueven entre un 10% y un 20%.

Top 5 mundial de modelos LLM — mayo 2026

Posición Modelo Elo global Codificación Visión AAII v3 MMLU-Pro (%) ARC-AGI v2
1 GPT-5.5-high 1506 1562 1312 76 89,6 85
2 Claude Opus 4.7 Thinking 1505 1565 1310 76 90 75,8
3 Gemini-3.1-Pro 1505 1531 1309 76 91 77,1
4 Claude Opus 4.7 1503 1554 1300 73 89,9 65,5
5 Claude Opus 4.6 Thinking 1503 1545 1304 73 89,7 69,2

La batalla entre gigantes: diferencias mínimas y estrategias distintas

Lo que se aprecia a simple vista según los datos de OpenLM.ai es una gran igualdad entre grandes modelos de lenguaje. GPT-5.5-high se coloca ahora en primera posición con 1506 puntos Elo, pero Claude Opus 4.7 Thinking y Gemini-3.1-Pro aparecen justo detrás con 1505 puntos. Hasta esta actualización, Gemini 3.1 Pro lideraba, pero las tornas se han invertido.

En el caso de ChatGPT, OpenAI recupera el liderato global con GPT-5.5-high. Además de obtener 1506 puntos Elo, destaca especialmente en codificación con 1562 puntos y en ARC-AGI v2, donde alcanza 85 puntos. Aunque no es una victoria aplastante, si pone de manifiesto el esfuerzo de OpenAI para volver a lo más alto de la clasificación.

Comparativa de las puntuaciones obtenidas por los principales modelos de IA en tests de rendimiento y programación.

Claude Opus 4.7 Thinking es probablemente la gran sorpresa de la clasificación. Aunque no lidera por solo un punto, si consigue la mejor puntuación en codificación entre los cinco primeros, con 1565 puntos. Por su parte Grok 4.20 gana terreno en contexto conversacional. A nivel personal, coincido bastante con esta clasificación según mis hábitos, pero sí es cierto que le daría algo más de puntuación a la IA de Elon Musk en codificación.

La IA China fuera de la élite

Aunque nos hemos centrado en ver a los modelos más conocidos por todos como GPT-5.5 de OpenAI, Claude Opus 4.7 de Anthropic, Gemini 3.1 Pro de Google y Grok 4.20 de xAI , lo cierto es que el ranking esconde muchas cosas que analizar. Seguro que a muchos les sorprende no ver en las primeras posiciones a las inteligencias artificiales chinas más populares de los últimos meses.

Por un lado, ERNIE-5.1 de Baidu aparece como el modelo chino mejor situado con 1475 puntos Elo. Si bajamos algo más en la clasificación tenemos a GLM-5.1, DeepSeek-V4-Pro y Qwen3.5-Max, todos en una zona muy igualada, pero ya por detrás del grupo de cabeza formado por OpenAI, Anthropic y Google.

Estos modelos tienen muchos problemas por culpa de las restricciones en el acceso a chips de alto rendimiento debido a las regulaciones de exportación impuestas por Estados Unidos. Esto limita la capacidad de entrenamiento comparado con competidores occidentales.

Clasificación actualizada de los modelos de inteligencia artificial más potentes según la puntuación Elo de Chatbot Arena.

Qué significa este resultado para la industria

La primera posición de ChatGPT 5.5 no es definitiva, ni pude permitir a los de OpenAI dormirse en los laureles. Una diferencia de menos de 2 puntos Elo entre los cuatro primeros muestra una madurez bastante interesante de los modelos de lenguaje. Tampoco podemos dejar de fijarnos en las inteligencias artificiales que vienen de China y que están pisando los talones.

Discussion in the ATmosphere

Loading comments...