Resumen:

  • o3 ganó la final 4–0 a Grok 4; Gemini 2.5 Pro fue tercero.

  • El duelo reavivó la rivalidad OpenAI–xAI y abrió preguntas sobre qué mide realmente una partida entre LLMs.

  • Próximo paso: protocolos más claros y torneos repetibles para evaluar “razonamiento” sin trucos.

En tres días de partidas rápidas, el torneo de la Kaggle Game Arena reunió a ocho modelos de texto para ponerlos a jugar ajedrez bajo reglas comunes. La final, disputada el 7 de agosto, terminó en paliza: OpenAI o3 venció 4–0 a Grok 4, el modelo de xAI. El tercer puesto se lo llevó Gemini 2.5 Pro, que superó a o4‑mini. Más allá del tablero, el evento se convirtió en un espectáculo: clips, transmisiones y comentarios de grandes maestros hicieron viral el desenlace y, sobre todo, las pifias de Grok en posiciones aparentemente simples.

Lo interesante es lo que esta serie de partidas sugiere —y lo que no. No compitieron motores de ajedrez especializados, sino sistemas generales de lenguaje que “razonan” sobre reglas. En ese marco, o3 destacó por su solidez: evitó errores graves, jugó planes coherentes y castigó imprecisiones del rival. En contraste, Grok 4 mostró secuencias erráticas que encendieron las críticas de comentaristas como Magnus Carlsen, quien comparó su nivel con el de un aficionado, en torno a 800 Elo, mientras a o3 le atribuían un 1200 “respetable” para un sistema no entrenado como Stockfish. Nadie alcanzó nivel magistral, pero el contraste fue suficiente para alimentar la narrativa de que OpenAI sigue delante en tareas de control de reglas.

El torneo también fue una puesta en escena del momento competitivo de la IA: OpenAI, Google, Anthropic y xAI midiéndose en un entorno visible, con el subtexto del duelo Altman–Musk. La pregunta que queda abierta es metodológica: ¿qué tan estable y replicable es evaluar “razonamiento” con partidas sueltas y restricciones ad hoc? Si la comunidad quiere que el ajedrez sea un proxy útil, hará falta estandarizar formatos, publicar partidas y fijar condiciones transparentes para que no haya dudas sobre ventajas ocultas o memorias indeseadas. Hasta entonces, la etiqueta “4–0” funciona más como trofeo simbólico que como veredicto científico.

Fuentes:

Keep Reading

No posts found