External Publication

Así queda el top mundial de modelos IA: GPT-5.5 vs Claude 4.7 vs Gemini 3.1 vs Grok 4.20

ADSLZone: noticias y tutoriales sobre tecnología, internet y op… May 15, 2026

OpenLM.ai mantiene actualizado su benchmark Chatbot Arena+ que nos permite conocer el rendimiento real de los grandes modelos de lenguaje (LLMs). En una batalla titánica, tenemos poco margen de diferencia entre GPT-5.5 de OpenAI, Claude Opus 4.7 de Anthropic, Gemini 3.1 Pro de Google y Grok 4.20 de xAI. Las diferencias entre los cuatro líderes son las más estrechas registradas hasta la fecha, pero ¿quién lidera el top mundial de IA?

Un ranking que mezcla datos y preferencias humanas

Antes de entrar en materia debemos conocer lo que mide esta clasificación. El Chatbot Arena+ combina el sistema Elo Arena, basado en más de 6 millones de votos humanos con métricas estandarizadas como AAII v3, MMLU-Pro y ARC-AGI v2. Es decir, ofrece una fotografía completa de rendimiento con precisión técnica, capacidad de razonamiento y valoración subjetiva de los usuarios.

AAII v3 (Evaluación Avanzada de Inteligencia Artificial v3) : Un benchmark que analiza el razonamiento de los diferentes modelos en 10 tareas técnicas complejas.
MMLU-Pro (Massive Multitask Language Understanding – Professional) : Una versión avanzada que mide la comprensión del lenguaje en múltiples disciplinas, todo a nivel universitario.
ARC-AGI v2 (Abstraction and Reasoning Challenge for AGI v2) : Evalúa el razonamiento abstracto mediante rompecabezas visuales. Los humanos alcanzan unos resultados cercanos al 100% mientras que los modelos de IA actuales se mueven entre un 10% y un 20%.

Top 5 mundial de modelos LLM — mayo 2026

Posición	Modelo	Elo global	Codificación	Visión	AAII v3	MMLU-Pro (%)	ARC-AGI v2
1	GPT-5.5-high	1506	1562	1312	76	89,6	85
2	Claude Opus 4.7 Thinking	1505	1565	1310	76	90	75,8
3	Gemini-3.1-Pro	1505	1531	1309	76	91	77,1
4	Claude Opus 4.7	1503	1554	1300	73	89,9	65,5
5	Claude Opus 4.6 Thinking	1503	1545	1304	73	89,7	69,2

La batalla entre gigantes: diferencias mínimas y estrategias distintas

Lo que se aprecia a simple vista según los datos de OpenLM.ai es una gran igualdad entre grandes modelos de lenguaje. GPT-5.5-high se coloca ahora en primera posición con 1506 puntos Elo, pero Claude Opus 4.7 Thinking y Gemini-3.1-Pro aparecen justo detrás con 1505 puntos. Hasta esta actualización, Gemini 3.1 Pro lideraba, pero las tornas se han invertido.

En el caso de ChatGPT, OpenAI recupera el liderato global con GPT-5.5-high. Además de obtener 1506 puntos Elo, destaca especialmente en codificación con 1562 puntos y en ARC-AGI v2, donde alcanza 85 puntos. Aunque no es una victoria aplastante, si pone de manifiesto el esfuerzo de OpenAI para volver a lo más alto de la clasificación.

Comparativa de las puntuaciones obtenidas por los principales modelos de IA en tests de rendimiento y programación.

Claude Opus 4.7 Thinking es probablemente la gran sorpresa de la clasificación. Aunque no lidera por solo un punto, si consigue la mejor puntuación en codificación entre los cinco primeros, con 1565 puntos. Por su parte Grok 4.20 gana terreno en contexto conversacional. A nivel personal, coincido bastante con esta clasificación según mis hábitos, pero sí es cierto que le daría algo más de puntuación a la IA de Elon Musk en codificación.

La IA China fuera de la élite

Aunque nos hemos centrado en ver a los modelos más conocidos por todos como GPT-5.5 de OpenAI, Claude Opus 4.7 de Anthropic, Gemini 3.1 Pro de Google y Grok 4.20 de xAI , lo cierto es que el ranking esconde muchas cosas que analizar. Seguro que a muchos les sorprende no ver en las primeras posiciones a las inteligencias artificiales chinas más populares de los últimos meses.

Por un lado, ERNIE-5.1 de Baidu aparece como el modelo chino mejor situado con 1475 puntos Elo. Si bajamos algo más en la clasificación tenemos a GLM-5.1, DeepSeek-V4-Pro y Qwen3.5-Max, todos en una zona muy igualada, pero ya por detrás del grupo de cabeza formado por OpenAI, Anthropic y Google.

Estos modelos tienen muchos problemas por culpa de las restricciones en el acceso a chips de alto rendimiento debido a las regulaciones de exportación impuestas por Estados Unidos. Esto limita la capacidad de entrenamiento comparado con competidores occidentales.

Clasificación actualizada de los modelos de inteligencia artificial más potentes según la puntuación Elo de Chatbot Arena.

Qué significa este resultado para la industria

La primera posición de ChatGPT 5.5 no es definitiva, ni pude permitir a los de OpenAI dormirse en los laureles. Una diferencia de menos de 2 puntos Elo entre los cuatro primeros muestra una madurez bastante interesante de los modelos de lenguaje. Tampoco podemos dejar de fijarnos en las inteligencias artificiales que vienen de China y que están pisando los talones.

Un ranking que mezcla datos y preferencias humanas

Top 5 mundial de modelos LLM — mayo 2026

La batalla entre gigantes: diferencias mínimas y estrategias distintas

La IA China fuera de la élite

Qué significa este resultado para la industria

Discussion in the ATmosphere