lunes, 23 de febrero de 2026

Evaluación de la IA de Reconocimiento a Razonamiento

 
 

Este artículo de investigación ofrece un amplio análisis de cómo la evaluación de IA se ha transformado, desde la simple identificación de patrones hasta el razonamiento multimodal complejo. Los autores describen un marco evolutivo de cuatro niveles que rastrea la transición desde el reconocimiento básico de imágenes a principios de la década de 2010 hasta las evaluaciones modernas de la lógica causal, la inteligencia creativa y la acción encarnada. Un aspecto central de este análisis es el "dilema de la evaluación comparativa", donde los modelos frecuentemente obtienen puntuaciones altas aprovechando atajos estadísticos en lugar de demostrar una verdadera comprensión. Para combatir esto, el estudio detalla nuevos métodos de diagnóstico y pruebas adversarias diseñados para exponer la fragilidad de los modelos y la contaminación de los datos. En definitiva, el trabajo argumenta que el futuro del campo reside en exámenes dinámicos con participación humana y simulaciones interactivas que puedan medir mejor la competencia cognitiva genuina.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "The Artificial Intelligence Cognitive Examination: A Survey on the Evolution of Multimodal Evaluation From Recognition to Reasoning", por Mayank Ravishankara y Varindra V. Persad Maharaj. Publicado en Diciembre 23 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Bienvenidos a un nuevo análisis profundo. Hoy vamos a desentrañar una cuestión realmente grave y sorprendentemente existencial. A medida que estos sistemas de IA salen del laboratorio y pasan al mundo real, están diagnosticando exploraciones médicas, conduciendo vehículos, realizando amplias evaluaciones de seguridad, ¿cómo sabemos los humanos que entienden lo que están haciendo?

Beto
Es el problema definitivo de la rendición de cuentas. Si vamos a empezar a confiar en estos sistemas de IA multimodales, en los "Multi-Modal Large Language Models", MLLMs y LVLMs que integran de forma fluida texto, imágenes y datos, tenemos que contar con una regla fiable, una manera de medir su progreso, su seguridad y su confiabilidad en el mundo real. No podemos fiarnos solo de una puntuación alta. Necesitamos confiar en la competencia que hay debajo.

Alicia
¿Verdad? Porque si un modelo saca, digamos, un 99% en una prueba, pero obtuvo esa puntuación usando algún tipo de truco estadístico invisible, pues esa puntuación es peor que inútil. Crea una ilusión de competencia que podría ser increíblemente peligrosa.

Beto
Precisamente. Y esa dinámica es realmente la historia central de la evaluación de la IA durante la última década. Medimos el progreso de la IA con una serie de exámenes cognitivos cada vez más exigentes. Hemos visto a toda la comunidad pasar de dar a los modelos lo que era básicamente una prueba de vocabulario hasta, ahora, el equivalente a un examen de acceso a posgrado, uno que evalúa razonamiento abstracto e incluso cierta agencia.

Alicia
Bien. Desgranemos esa evolución. ¿Por qué dejó de funcionar la prueba antigua? ¿Qué obligó a la comunidad de evaluación a seguir inventando exámenes más nuevos y más difíciles?

Beto
El principal catalizador fue lo que se llama "saturación de benchmarks". El campo diseñaba una prueba realmente exigente, un nuevo benchmark, solo para ver a la siguiente generación de modelos potentes, los nuevos modelos de vanguardia, resolverla en unos meses. Se alcanzaban puntuaciones techo. El problema no era que los modelos se volvieran súbitamente perfectamente inteligentes, sino que las puntuaciones altas enmascaraban debilidades profundas y fundamentales.

Alicia
Es un ejemplo perfecto de la ley de Goodhart en acción: esa famosa frase, "cuando una medida se convierte en un objetivo, deja de ser una buena medida".

Beto
Esa es exactamente la idea clave. Los modelos no estaban volviéndose inteligentemente genuinos; se estaban volviendo excelentes para aprobar pruebas. Aprendieron a explotar atajos estadísticos frágiles que estaban ocultos dentro de la estructura de la prueba. Se optimizaron por la vía más fácil hacia la etiqueta correcta. Al darse cuenta de eso, se produjo un gran cambio de pensamiento. El campo pasó de preguntar qué ve un modelo a reclamar saber por qué y cómo llegó a esa conclusión.

Alicia
Eso nos prepara perfectamente para este análisis profundo. Para guiarte, hemos estructurado todo este recorrido en cuatro niveles de dificultad creciente:

  • El nivel 1 es conocimiento fundamental.
  • Luego pasamos al nivel 2, lógica aplicada y comprensión;
  • después al nivel 3, integración experta;
  • y finalmente al nivel 4, que es realmente el territorio inexplorado de la inteligencia abstracta y creativa.


Los 4 Niveles de Evaluación de la IA: de Reconocimiento a Razonamiento

Nivel 1: Conocimiento Fundamental

Empecemos con el nivel fundamental, el nivel 1. El primer objetivo era bastante simple: ¿podía una máquina aprender a ver el mundo como nosotros? Esta era, digamos entre 2009 y 2015, trató de establecer esa base, definida por benchmarks como ImageNet.

Beto
ImageNet fue totalmente el cimiento de la investigación moderna en visión. Nos dio 14 millones de imágenes anotadas en unas 20.000 categorías. Proporcionó un lenguaje visual común compartido con el que todos podían trabajar. Y cuando AlexNet tuvo su avance en 2012 y redujo drásticamente la tasa de error, eso no fue solo un logro: señaló el verdadero inicio de la revolución del Aprendizaje Profundo, "Deep Learning".

Alicia
OK. Esto estableció el reconocimiento básico. Pero luego la prueba se complicó, ¿no? Con COCO, Common Objects in Context, que realmente obligó a los modelos a salir de su zona de confort.

Beto
Absolutamente. COCO dio el salto de clasificar un único objeto perfectamente centrado a manejar escenas naturalistas desordenadas con múltiples elementos interactuando. Y, crucialmente, las métricas se volvieron mucho más estrictas: introdujo cosas como mAP promediado sobre umbrales de IoU (Intersection over Union), que ya sé que suena a trabalenguas.

Alicia
¿Qué significa eso en la práctica?

Beto
Básicamente que no solo comprobábamos si la IA veía una silla; comprobábamos si dibujaba la pequeña caja delimitadora alrededor de esa silla exactamente de la misma manera que lo haría un humano. Exigía una precisión geométrica casi perfecta, incluso en escenas muy complejas.

Alicia
Eso parecía un gran avance. Y, sin embargo, dices que la puntuación alta empezó a representar una ilusión de competencia. ¿Dónde empezaron a agrietarse esos cimientos?

Beto
Se agrietaron porque los modelos, optimizados para velocidad y para métricas deterministas, aprendieron a apoyarse en atajos baratos no causales. El objetivo era simplemente acertar la clasificación, no entender genuinamente las características del objeto.

Alicia
¿Puedes dar un ejemplo específico de ese aprendizaje de atajos que reveló la falla?

Beto
Sí: el sesgo de textura. Los primeros modelos de ImageNet mostraban una fuerte preferencia por clasificar las cosas según su textura superficial. Por ejemplo, clasificaban una imagen de una vaca basándose en la textura del pasto que la rodeaba, no en la forma real de la vaca. Pero un ejemplo aún mejor fue cómo usaban el contexto como atajo.

Alicia
Te refieres al ejemplo del Pickelhaube, el casco prusiano de pico.

Beto
Exacto. Los investigadores encontraron que los modelos obtenían una precisión muy alta al clasificar ese casco militar prusiano, pero no lo hacían identificando la forma única del casco. Simplemente reconocían el uniforme militar y el fondo que siempre aparecían con él en las fotos. La IA se optimizó por la señal más fácil posible, el uniforme, y la usó como proxy para el casco.

Alicia
Wow. Si cogías ese casco y se lo ponías a un civil en un contexto totalmente distinto, el modelo probablemente fallaría.

Beto
Fallaría, y sería una falta de robustez grave.

Así, el nivel 1 priorizaba métricas deterministas de baja latencia y eficiencia de entrenamiento, pero sufría de muy baja robustez, como el sesgo de textura, y, francamente, baja equidad: los datos eran enormemente occidento-céntricos. Esto obligó a la comunidad a darse cuenta de que teníamos que dejar de preguntar qué ve un modelo y empezar a preguntar por qué y cómo lo entiende. Y eso los catapultó directamente al nivel 2.

Nivel 2: Lógica Aplicada y Comprensión

Alicia
El nivel 2, esta era de alineamiento, trata de forzar al modelo a integrar percepción con razonamiento y lenguaje. Pero el primer gran desafío aquí no era ver objetos, sino superar los sesgos de lenguaje.

Beto
Ésa fue la gran debilidad de los primeros modelos de VQA (Visual Question Answering). Si los datos de entrenamiento mostraban que, digamos, el 90% de todas las señales de stop son rojas, el modelo aprendía a responder “rojo” cuando se le preguntaba de qué color es la señal, aunque la imagen de prueba mostrara una señal en blanco y negro. El modelo se volvió un loro estadístico, no un observador visual.

Alicia
Los investigadores tuvieron que agudizar el ingenio. Diseñaron tests de estrés diagnósticos para despojar a los modelos de esos trucos estadísticos. ¿Cuál fue el primer gran examen que expuso esa falla sistémica?

Beto
Ese sería VQA-CP (VQA Changing Priors). Usó exactamente el mismo contenido que la prueba VQA original, pero cambió totalmente las reglas: reorganizó deliberadamente las particiones de entrenamiento y prueba para que las respuestas comunes en entrenamiento se volvieran raras o incluso imposibles en la prueba.

Alicia
Y aplastó a los modelos.

Beto
Su rendimiento se vino abajo porque ya no podían fiarse de las estadísticas de lenguaje memorizadas; se vieron obligados a mirar la evidencia visual por una vez.

Alicia
Ese test es excelente para detectar sesgos estadísticos. Pero los modelos seguían fallando en algo aún más básico: el problema del binding, la incapacidad de enlazar correctamente palabras con lo que veían.

Beto
Ahí entró el fascinante benchmark Winoground. Planteó pares mínimos: imagina dos imágenes, una muestra al perro persiguiendo al gato y la otra al gato persiguiendo al perro.

Alicia
Los mismos elementos, pero en relaciones diferentes.

Beto
Precisamente. Los mismos elementos visuales, solo que las relaciones, los roles gramaticales, están invertidos. Los modelos del estado del arte de entonces rendían cerca del azar, a menudo por debajo del 10% de exactitud. Podían ver perro y gato, pero no podían decir con fiabilidad quién perseguía a quién.

Alicia
Ese fallo muestra que no captaban la naturaleza composicional de la realidad. Las pruebas tuvieron que volverse aún más estructuradas para exigir razonamiento verificable.

Beto
Sí. Así llegó GQA, razonamiento visual composicional. GQA no se limitó a hacer una pregunta; estructuró las preguntas en programas funcionales subyacentes. Si la pregunta era «¿de qué color es el sofá de la izquierda?», la operación subyacente sería una cadena: seleccionar sofá → relacionar → izquierda → consultar color. Esto permitió a los investigadores obtener un perfil diagnóstico completo sobre la consistencia interna y el anclaje del modelo. Nos dio mucho más que una simple puntuación de exactitud.

Alicia
Y entonces llegó el examen definitivo de responsabilidad: VCR, Visual Commonsense Reasoning. Este no solo pedía la respuesta correcta, sino la razón correcta.

Beto
Fue revolucionario porque partía de la premisa de que una suposición correcta no es inteligencia. La métrica conjunta Q→A→R exige que el modelo seleccione la respuesta correcta y la justificación correcta entre cuatro opciones cada una.

Alicia
No puedes tener suerte.

Beto
No puedes. Al exigir esa selección conjunta, la tasa de azar cae hasta un 6,25 %. Penaliza cualquier suposición afortunada y fuerza al modelo a hacer inferencias de sentido común sobre intenciones no expresadas y relaciones causales en la escena.

Alicia
La lección del nivel 2 es enorme. Con tests de estrés diagnósticos incrementamos la robustez de la evaluación, pero al mismo tiempo revelamos que los modelos no solo eran frágiles estadísticamente: eran incapaces, de base, de ciertos procesos cognitivos humanos elementales, como saber quién hace qué a quién. Y esa toma de conciencia llegó justo cuando los modelos se estaban volviendo exponencialmente más potentes, lo que nos empuja directamente a la frontera actual: el nivel 3.

Nivel 3: Integración

Beto
Estamos ahora firmemente en la era del razonamiento. Probamos los modelos generalistas multimodales actuales, los MLLMs. Estos modelos tienen acceso a conocimiento tan rápido que necesitamos exámenes holísticos a nivel de experto y entre dominios. Básicamente tienen que pasar exámenes finales de nivel universitario.

Alicia
Y el examen de referencia actual parece ser MMMU, el Massive Multidiscipline Multimodal Understanding benchmark. Es básicamente un examen universitario o de nivel experto: más de 11.000 preguntas que abarcan desde diagramas de física hasta gráficos médicos. Requiere integrar conocimiento de dominio a través de STEM, campos profesionales y humanidades. Es una bestia.

Beto
Si MMMU es ese exigente examen final, entonces MMBench es la evaluación detallada de habilidades cognitivas. Perfila modelos a lo largo de 20 dimensiones diferentes. Y una característica clave diseñada para mejorar la confianza es algo llamado evaluación circular (circular eval).

Alicia
¿Qué hace exactamente?

Beto
Es una característica de robustez crucial. La evaluación circular toma preguntas de opción múltiple y promueve sistemáticamente el orden de las opciones: ABCD pasa a CDAB, etc.

Alicia
¿Para combatir el sesgo posicional?

Beto
Exacto. Suprime la tendencia del modelo a favorecer siempre respuestas en cierta casilla, como elegir siempre la opción B. Al eliminar ese atajo barato, suele reducir la exactitud global del modelo entre un 10 y un 20 %, lo que nos da una medida mucho más limpia y fiable de su competencia real.

Alicia
Eso es fascinante porque admite que la propia prueba puede introducir sesgos. También estamos viendo diagnósticos muy profundos orientados a modos de fallo específicos, especialmente la alucinación.

Beto
Sí: la confianza del modelo para generar tonterías plausibles es un enorme problema de seguridad. HallusionBench fue diseñado para poner a prueba eso: presenta afirmaciones verosímiles pero totalmente falsas que el modelo debe rechazar explícitamente. Las primeras versiones de los modelos de frontera, como GPT-4V, solo puntuaron alrededor de un 32% en corrección conjunta. Tenían serias dificultades para mantener el anclaje factual cuando hay ambigüedad visual.

Alicia
Para combatir esa ambigüedad está emergiendo la evaluación centrada en el proceso. Ya no basta con calificar la respuesta final: los investigadores exigen ver el trabajo del modelo para poder diagnosticar dónde falló el proceso.

Beto
Esa es la idea detrás de VCR-Bench y GeoChain. VCR-Bench exige racionales en las que los pasos estén explícitamente etiquetados como percepción o razonamiento, lo que ayuda a diagnosticar si el modelo falló por ver mal algo o por aplicar una lógica defectuosa. GeoChain hace lo mismo para tareas complejas como la localización geográfica, requiriendo una cadena de razonamiento paso a paso.

Alicia
Todo esto sugiere que la evaluación es más exhaustiva que nunca, y sin embargo nos enfrentamos a lo que se llama la paradoja del nivel 3: alto nivel de habilidad pero baja integridad. Un modelo como Gemini 3 Pro podría acercarse al 81% en MMMU Pro, pero la pila de evaluación en sí se siente frágil.

Beto
Esto es la crisis de higiene. Estos modelos de frontera se entrenan con conjuntos de datos a escala web; es casi imposible garantizar que los ítems del benchmark, sobre todo los conjuntos estáticos publicados años atrás, no hayan sido absorbidos durante el preentrenamiento. El riesgo de contaminación de datos está en todas partes y socava fundamentalmente la integridad de cualquier conjunto de prueba fijo.

Alicia
Además, pasar a razonamiento abierto, pidiendo por ejemplo el razonamiento paso a paso, crea un nuevo problema de fiabilidad. La evaluación circular ayuda, pero ¿usar un LLM como juez para la puntuación no cambia un sesgo posicional por otro, los sesgos internos subjetivos del propio LLM juez?

Beto
Ese es un punto crítico de escepticismo y con razón. Definitivamente hemos aumentado el coste de la evaluación: lleva mucho tiempo y hardware especializado generar estas racionales, y hemos visto una bajada en la fiabilidad. Puntuar con un LLM subjetivo como juez es intrínsecamente menos consistente que las viejas métricas deterministas del nivel 1. Esta crisis de integridad estática y de calificación subjetiva nos empuja al terreno más complejo: el nivel 4.

Nivel 4: Inteligencia Abstracta y Creativa

Alicia
El nivel 4 es la verdadera frontera. Pasamos de Q&A estático a agencia dinámica, dinámicas sociales y evaluación subjetiva. Pasamos del modelo como observador pasivo al modelo como agente activo en un mundo simulado.

Beto
Éste es el reino de la IA incorporada, embodied AI, y el cambio es profundo. En vez de describir pasivamente lo que hay en la cocina, el modelo tiene que demostrar la ejecución activa de tareas: algo tipo “ve a buscar la taza de café limpia y ponla en la mesa”. Requiere planificación, interacción y retroalimentación visual en tiempo real.

Alicia
Es humillante, ¿no? Hemos pasado una década enseñando a las IAs a decirnos qué es una taza de café limpia y ahora les pedimos que se levanten, naveguen por una cocina simulada, la encuentren y la lleven a la mesa sin chocar con las sillas virtuales.

Benchmarks como VirtualHome y ALFRED están definiendo esa área.

Beto
ALFRED es un gran ejemplo: exige un agente egocéntrico, las vistas desde la perspectiva del agente, que siga instrucciones largas y complejas en entornos simulados. Y aquí las métricas cambian por completo: descartamos cosas como "top-5 accuracy" y adoptamos indicadores totalmente nuevos.

Alicia
¿Cuáles son las métricas clave en un entorno activo?

Beto
Están el “go-conditioned success” (GCS) y el “success weighted by path length” (SPL).

GCS nos dice si el trabajo se completó: ¿logró el agente el estado final deseado? ¿Puso la taza en la mesa?

SPL, en cambio, es la métrica anti-pereza: toma la puntuación GCS y penaliza al agente si tomó una ruta innecesariamente larga e ineficiente. Exige óptimo además de solo completar la tarea.

Alicia
Entonces medir competencia y eficiencia es un gran salto.

El nivel 4 también intenta abordar las partes más intangibles de la inteligencia humana, como las señales sociales y la creatividad.

Beto
La inteligencia social se capta en benchmarks como Social-IQ: razonar sobre intenciones humanas no expresadas, emociones y normas sociales a partir de clips de vídeo. El reto es inmenso porque el juicio humano es la única verdad de referencia y las señales suelen ser profundamente ambiguas.

Alicia
¿Y la creatividad? ¿Cómo objetivar eso en una máquina?

Beto
El truco ha sido adaptar herramientas de la ciencia cognitiva, específicamente el “alternative uses test” (AUT). Das al AI un objeto, por ejemplo un ladrillo, y le pides que enumere tantos usos alternativos como sea posible.

Las respuestas se puntúan en tres dimensiones cuantificables:

  • fluidez (número total de ideas),
  • flexibilidad (número de categorías semánticas diferentes), y,
  • originalidad (rareza estadística de las ideas frente a respuestas humanas comunes).

Alicia
El nivel 4 ofrece el mayor potencial para medir la profundidad de habilidad, pero con el coste más alto: ejecutar estas simulaciones complejas es intensivo en recursos y la fiabilidad es menor por la subjetividad inherente de métricas sociales y creativas. Es un intercambio que hay que aceptar si queremos evaluar la verdadera inteligencia.

Hemos visto toda esta historia impulsada por una tensión central: los benchmarks estáticos son objetivos fijos, y los algoritmos de optimización poderosos siempre encontrarán una forma de eludirlos. Si el objetivo está fijado, el modelo lo alcanzará aunque no aprenda nada útil en el proceso.

Beto
Y esa es la defensa estructural contra la ley de Goodhart: el cambio necesario hacia benchmarks vivos. Estos usan lo que llamamos "prevención dinámica" para asegurar que la distribución de la prueba esté siempre cambiando, manteniéndose un paso por delante de los datos de entrenamiento.

Alicia
¿Cómo se ve eso en la práctica sin comprometer la equidad?

Beto
Implica tres patrones de diseño clave. Primero: recolección adversarial de datos, como en proyectos tipo DynaBench. Allí, anotadores humanos están continuamente encargados de crear nuevos ejemplos que específicamente engañen a los modelos más fuertes existentes. Eso forza la creación de datos más difíciles y diagnósticos en tiempo real.

Alicia
Es una gran estrategia para elevar constantemente la barra de dificultad.

¿Cuál es el segundo patrón?

Beto
Segundo: actualización continua. Benchmarks como Real-Time QA realizan evaluaciones semanales sobre eventos actuales y noticias en tiempo real. Esto aborda directamente el desafío de actualidad (recency challenge). Asegura que el modelo se evalúe sobre conocimiento y eventos generados tras su fecha de corte de entrenamiento. Si un modelo no puede comentar algo que pasó la semana pasada, su utilidad es inmediatamente limitada.

Alicia
Y el tercer patrón, lo vemos más y más en el espacio del consumo, para generación abierta.

Beto
Está en el terreno de preferencia humana. Abandonan métricas fijas tradicionales y usan comparaciones a gran escala, crowdsourced y aleatorizadas donde humanos ven dos salidas de modelo y eligen cuál prefieren; eso produce puntuaciones tipo ELO. Esto captura la experiencia del usuario y preferencias, tales como coherencia, tono, qué tan bien siguió instrucciones, cosas que las métricas estáticas no pueden medir.

Alicia
Mirando hacia adelante, la comunidad de evaluación apunta bien a pruebas verdaderamente adversariales o a benchmarks de techo increíblemente difíciles, como el “Humanity’s Last Exam” (HLE), donde incluso nuestros mejores modelos de frontera puntúan muy por debajo del 25 %.

Beto
Exacto. También hay un emocionante cambio hacia evaluar modelos generativos de vídeo — Sora, VO2 — no solo por lo bonitos que son, sino por su capacidad como simuladores de mundo sofisticados. Eso exigirá benchmarks totalmente nuevos que prueben consistencia causal profunda y anclaje físico: ¿se respetan las leyes de la física en el mundo generado por el modelo?

Alicia
Ha sido un camino extraordinario. Pasamos de modelos que apenas podían discriminar una vaca del pasto a sistemas que ahora probamos en su capacidad para seguir instrucciones multietapa en una cocina simulada mientras navegan señales sociales y demuestran creatividad. Simplemente es increíble.

Beto
La evolución del examen cognitivo en IA es, creo, un acto profundo de indagación científica. Sigue refinando nuestra propia comprensión de lo que es la inteligencia.

Pero queda una brecha crítica. Ése es el reto a futuro. Mientras nuestras tareas exigen razonamiento complejo y pedimos a los modelos que muestren su trabajo, nuestras métricas, en su mayoría, siguen siendo proxies basados en el resultado. Todavía miramos la respuesta final, aunque hayamos solicitado la racionalidad. Cerrar esa brecha — la distancia entre exigir procesos cognitivos complejos y seguir dependiendo de métricas simplistas del resultado — define el próximo gran desafío del campo. ¿Qué nuevas métricas no basadas únicamente en el resultado deberíamos inventar que midan verdaderamente la fiabilidad del proceso por encima del mero desempeño final? Te dejamos con eso para que lo ponderes.