domingo, 11 de enero de 2026

El Último Examen de la Humanidad

 
 

"El Último Examen de la Humanidad (HLE)" es un enorme punto de referencia para expertos, diseñado para evaluar las capacidades más avanzadas de los grandes modelos lingüísticos (LLMs). Desarrollado mediante una colaboración global de casi 1000 especialistas, incluye 2500 preguntas multimodales en docenas de campos académicos como las matemáticas, las ciencias naturales y las humanidades. El conjunto de datos se centra específicamente en la frontera del conocimiento humano, utilizando preguntas difíciles de encontrar en internet y lo suficientemente complejas como para requerir un razonamiento de nivel de posgrado. Los sistemas de IA de vanguardia actuales tienen un rendimiento deficiente en este examen, a menudo proporcionando respuestas incorrectas con alta confianza, lo que revela una brecha significativa entre el rendimiento de las máquinas y la experiencia humana. Al ofrecer un conjunto de pruebas públicas y privadas, los creadores buscan establecer un estándar permanente para medir el progreso de la IA antes de que los puntos de referencia académicos existentes queden obsoletos. En última instancia, HLE sirve como una herramienta rigurosa para que investigadores y legisladores puedan rastrear cuándo la inteligencia artificial finalmente alcanza la competencia académica de clase mundial.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Humanity's Last Exam", por Long Phan y colegas. Publicado en Septiembre 25 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Si sigues el mundo de la inteligencia artificial, sabes que el libro de reglas para medir el progreso está ... bueno, esencialmente se está deshilachando cada seis meses.

Beto
Absolutamente.

Alicia
Los puntos de referencia que solíamos usar para evaluar la inteligencia de los grandes modelos de lenguaje — los LLMs — están rotos.

Beto
Están rotos porque están saturados. Quiero decir, cuando los modelos empiezan a obtener de forma consistente un 90%, incluso un 95% de exactitud en esos viejos exámenes académicos, esas pruebas dejan de ser efectivas.

Alicia
Correcto. Ya no pueden seguir el progreso.

Beto
No en la frontera actual.

Alicia
Piensa en el benchmark de comprensión multitarea del lenguaje, MMLU. Ha sido un pilar durante años.

Beto
Muy popular.

Alicia
Cubre 57 materias, preguntas de opción múltiple, de todo, desde matemáticas de secundaria hasta derecho profesional, y los modelos de última generación... simplemente lo dominan ahora.

Beto
Claro.

Alicia
Entonces, cuando un modelo obtiene un 90% en MMLU y uno nuevo sale el mes que viene con 91, ¿cómo sabemos siquiera si ese 1% es una mejora real?

Beto
Exacto. ¿Es un salto genuino en razonamiento o solo mejor entrenamiento con un conjunto de datos ligeramente distinto?

Alicia
Es un desafío crítico.

Beto
Lo es. Ese 1% podría ser algo enorme, pero carecemos de la resolución para confirmarlo. Necesitas una prueba tan difícil, tan resistente a los trucos estándar, que obligue a la IA a demostrar verdadera pericia.

Alicia
Tenemos que medir lo que ocurre en la verdadera vanguardia. Así que, si los antiguos exámenes están saturados, ¿cuál es la siguiente prueba? Esa es nuestra misión para el análisis profundo de hoy.

Beto
Estoy entusiasmado con esto.

Alicia
Vamos a desempacar lo que los investigadores llaman el "Humanities Last Exam", o HLE.

Beto
Un nombre muy dramático.

Alicia
Lo es. Y esto no es solo un cuestionario difícil. Es un nuevo benchmark multimodal. Hablamos de 2.500 preguntas diseñadas para medir la capacidad al más alto nivel posible del conocimiento académico humano.

Beto
Y ese nombre, "Humanities Last Exam", es provocador, claro, pero refleja todo el principio de diseño detrás. Fue creado para ser el último benchmark cerrado de su tipo.

Alicia
El último.

Beto
El último de su clase. Está meticulosamente elaborado para cuantificar la brecha entre nuestros mejores sistemas de IA y, digamos, el 1% superior de expertos humanos. Pero solo en materias académicas estructuradas y verificables.

Alicia
Entonces, ¿no es una prueba para AGI ni nada por el estilo?

Beto
No, en absoluto. Es una prueba de conocimiento profundo, especializado y codificado.

Alicia
Así que hoy nos sumergimos en el rigor increíble de este examen. En el enorme esfuerzo académico que conllevó construirlo. Y quizá, lo más importante, vamos a ver las puntuaciones actuales.

Beto
Y las cifras son otra cosa.

Alicia
Muestran exactamente cuán lejos están nuestros modelos de vanguardia de aprobar el último examen de la humanidad. Y te vas a quedar en shock con los números.

Beto
Creo que sí.

Alicia
Bien, empecemos estableciendo una escala aquí. Cuando decimos que MMLU está saturado, lo que realmente queremos decir es que las preguntas, toda la estructura, son demasiado fáciles ahora para que los LLM modernos las internalicen o simplemente recuperen.

Beto
Exacto. Los viejos benchmarks eran demasiado accesibles. Así que, si hablamos del HLE, tuvieron que hacerlo exponencialmente más grande y más duro. Estamos ante un conjunto de datos de 2.500 preguntas. Y cubren más de 100 materias distintas. Esto no es solo cosas generales como matemáticas y ciencias.

Alicia
No, es profundo.

Beto
Se adentra en áreas súper especializadas dentro de clásicos, lingüística, derecho, ecología, incluso campos de nicho como teoría del ballet clásico o física teórica avanzada.

Alicia
Esa diversidad suena agotadora de ensamblar, pero no se trata solo de la cantidad de preguntas o la amplitud de materias, ¿verdad? Es la complejidad requerida.

Beto
Ahí es donde entra lo multimodal. Alrededor del 13% de estas preguntas requieren que el modelo entienda y sintetice información tanto de texto como de una imagen.

Alicia
¿Una imagen de qué, un diagrama?

Beto
Podría ser un diagrama, un gráfico científico, quizá incluso una inscripción antigua. Tienes que usar ambas para obtener la respuesta. Y el formato también es realmente duro. Solo el 24% son de opción múltiple.

Alicia
¿Y el resto?

Beto
El resto, la gran mayoría, el 76% son preguntas de respuesta exacta.

Alicia
¿Significa que tienes que generar la respuesta precisa? Sin margen de error.

Beto
No hay lugar para aproximaciones ni para palabrería retórica. Lo tienes que responder exactamente bien o estás errado.

Alicia
Y quizá el obstáculo más importante con el que tuve que lidiar fue el problema de la buscabilidad. Porque si una IA puede simplemente recuperar la respuesta de Internet, no es una prueba de inteligencia. Es una prueba de velocidad de recuperación.

Beto
Precisamente. Y esa fue la restricción de diseño central para cada una de las preguntas. Tenían que ser no recuperables mediante una búsqueda en Internet. Es decir: originales, precisas, inequívocas y, lo más crítico, resistentes a una simple búsqueda en la web. Esto obliga a los modelos a hacer más que memorizar. Tienen que demostrar algún tipo de razonamiento profundo y novedoso o sintetizar conocimientos realmente oscuros.

Alicia
Eso es fascinante. Así que diseñan la prueba específicamente para sortear la principal fortaleza de los LLM actuales, que es...

Beto
... la recuperación de datos a gran escala. Si puedes escribir la pregunta en Google y encontrar la respuesta en la primera página, se elimina de inmediato.

Alicia
La respuesta tiene que estar muy profunda en algun sitio.

Beto
Profunda en literatura especializada, en registros históricos oscuros, o requerir razonamiento en varios pasos que combine hechos que el modelo nunca ha visto antes.

Alicia
Bien, aquí es donde el rigor del HLE realmente se siente. Para entender la gravedad de esta prueba, tienes que mirar las preguntas.

Beto
De verdad.

Alicia
Son difíciles. Son preguntas que hacen que alguien con un doctorado en un campo se sienta completamente perdido en otro.

Beto
El objetivo era probar conocimientos altamente específicos y arcanos. Las cosas que solo aprendes tras años y años de investigación especializada.

Alicia
Veamos algunos ejemplos del material fuente, porque son simplemente asombrosamente específicos.

Química. Hay uno sobre una reacción en cascada paracética térmica que convierte una heptina en algo llamado endiandric acid B-methyl-ester.

Beto
Correcto. Una síntesis de productos naturales complejos.

Alicia
Pero al modelo no solo se le pide nombrar el producto. Tiene que identificar la notación específica para los tipos de electrociclaciones en el paso uno y el paso dos, como si son con- o dis-rotaciones, y el tipo de ciclación en el paso tres.

Beto
Así que tratas con principios muy matizados de química orgánica. Se trata de aplicar reglas altamente técnicas de décadas de investigación, no conocimientos generales que encontrarías en un libro de texto.

Alicia
Está poniendo a prueba si el modelo entiende el mecanismo al nivel de un experto.

Beto
Exacto.

Alicia
Bien, pasemos a las humanidades. Clásicos. El HLE te muestra la imagen de una lápida romana. Está en latín. Pero la pregunta pide al modelo la traducción de la inscripción Paul Marine. Es un dialecto aramáico antiguo que está escrito debajo del latín.

Beto
Vaya. Así que eso combina la multimodalidad — tienes que leer la imagen — con conocimientos lingüísticos e históricos extremadamente específicos.

Alicia
No basta con saber latín.

Beto
No. Necesitas ser un experto en epigrafía de lenguas semíticas antiguas.

Alicia
Y se vuelve aún más granular. En lingüística, hay una pregunta basada en el Salmo 104 hebreo y pide al modelo identificar y listar todas las sílabas cerradas según la investigación más reciente sobre la tradición de pronunciación tiberiana.

Beto
Eso es intensamente especializado. No se trata solo de conocer hebreo, sino de conocer los detalles de debates académicos sobre manuscritos medievales específicos. Es conocimiento de artículos académicos, no de libros estándar.

Alicia
Creo que mi favorito, solo por lo absurdo que es, es la pregunta de ecología sobre los colibríes.

Beto
Oh, me acuerdo de esa.

Alicia
La pregunta señala que los colibríes tienen este hueso oval, bilateralmente pareado, tipo sésamoide. La pregunta simplemente pregunta: ¿cuál es el número específico de tendones emparejados que soporta este hueso en particular?

Beto
Y ese nivel de detalle... quiero decir, casi con seguridad proviene de una disección ornitológica directa, o de un artículo tan especializado que quizá cinco investigadores en el mundo lo han leído.

Alicia
Es el ejemplo perfecto de conocimiento experto no recuperable.

Beto
Y subraya el énfasis que pone HLE en el razonamiento profundo de clase mundial, especialmente en matemáticas, donde los problemas están diseñados para evaluar estas habilidades multipaso fundamentales.

Alicia
Bien, las preguntas son ridículamente duras. Eso está establecido. Pero no se generan 2.500 preguntas así poniendo un buzón de sugerencias. El proceso de creación, la canalización, tuvo que ser igual de riguroso.

Beto
Fue un esfuerzo sin precedentes en colaboración académica, de verdad. Las preguntas se recopilaron de manera masiva. De un colectivo global de casi 1.000 expertos en la materia afiliados a más de 500 instituciones en 50 países diferentes. Mayormente hablamos de profesores, investigadores, personas con doctorados que trabajan activamente en estos campos.

Alicia
Y, crucialmente, esto no fue trabajo voluntario. Vi la cifra en el material fuente: un fondo de premios de medio millón de dólares.

Beto
Ese pool de 500.000 dólares fue absolutamente esencial. Ofrecieron 5.000 dólares por cada una de las 50 mejores preguntas y 500 por las siguientes 500.

Alicia
Eso es un incentivo serio.

Beto
Fue lo que atrajo a verdaderos expertos de dominio y, más importante, aseguró que contribuyeran trabajo original, no solo problemas reescritos de libros de texto. El dinero garantizó la originalidad y la profundidad que necesitaban.

Alicia
Pero la parte verdaderamente genial de todo el proceso, la que garantizó que el examen fuera realmente difícil en la frontera, fue el filtro que usaron antes de que un humano siquiera mirara las preguntas.

Beto
Ese es el paso clave. El filtro de dificultad por LLM.

Alicia
Cuéntanos sobre eso.

Beto
Antes de que una pregunta pudiera siquiera ser enviada, se probaba frente a los mejores LLM disponibles. GPT-40, Gemini-1.5 Pro. Si la IA podía responderla correctamente o incluso con una suposición mejor que el azar, fuera. Era rechazada de inmediato o devuelta para hacerse más difícil.

Alicia
Así que básicamente utilizaron como arma los mismos sistemas que intentaban evaluar para garantizar que la prueba funcionara realmente.

Beto
Precisamente. Registraron más de 70.000 intentos en esta comprobación de dificultad. Eso dio como resultado una reserva de unas 13.000 preguntas que realmente dejaron perplejos a los modelos. Solo esas preguntas pasaron al Human Review Goblin.

Alicia
Entonces, después de pasar el filtro de IA, ¿enfrenta dos rondas completas de revisión humana?

Beto
Exacto.

Alicia
¿Y es aquí donde la afinan y se aseguran de que las preguntas sean justas?

Beto
Correcto. Los revisores humanos, que también eran expertos a nivel de posgrado, se enfocaron en la robustez y el control de calidad. Se aseguraron de que las preguntas fueran estrictamente de respuesta cerrada, con una sola respuesta demostrable. Y prohibieron cualquier pregunta subjetiva o abierta que pudiera enturbiar los resultados.

Alicia
Ahora salió un dato fascinante de este proceso de revisión. Algo sobre el desacuerdo entre expertos.

Beto
Sí. Esa es una de las partes más interesantes de todo el artículo. La tasa estimada de desacuerdo entre expertos fue de alrededor del 15% en general. Y fue aún mayor en biología y química, alrededor del 18%.

Alicia
Al principio, eso suena como un problema, como si las preguntas estuvieran mal planteadas.

Beto
Podrías pensarlo. Pero los investigadores sostienen que es lo contrario. Refleja la complejidad extrema del conocimiento que se está poniendo a prueba.

Alicia
Entonces, ¿qué nos dice realmente esa tasa de desacuerdo?

Beto
Nos dice que son preguntas donde la respuesta correcta puede depender de un hallazgo de nicho de una revista de hace, ya sabes, 50 años. O de un hallazgo que solo obtienes con trabajo de laboratorio práctico. Cuando dos profesores de la misma área discrepan, significa que el conocimiento está verdaderamente en el límite. Es especializado, es matizado y es difícil de verificar incluso para otros expertos.

Alicia
HLE está midiendo el borde difuso y desafiante de lo que los humanos realmente saben.

Beto
Esa es una gran manera de decirlo.

Alicia
Reencuadra por completo el propósito. No se trata solo de evaluar a la IA. Se trata de identificar los límites absolutos de nuestro conocimiento codificado.

Y antes de llegar a las puntuaciones, la IA avanza tan rápido. ¿Cómo lo hacen a prueba de futuro?

Beto
Saben que eventualmente también se saturará. Así que ya han montado algo llamado HLE rolling. Es una versión dinámica del conjunto de datos que añadirá continuamente nuevas preguntas difíciles desde la comunidad. Garantiza que el benchmark siga siendo un objetivo en movimiento.

Alicia
Siempre un paso por delante.

Beto
Esa es la idea.

Alicia
Bien, vayamos a las cifras que realmente importan. Después de todo este increíble esfuerzo para construir este examen de nivel experto no recuperable, ¿cómo están puntuando realmente los LLM de vanguardia en el HLE? Dános la comprobación de la realidad.

Beto
El rendimiento actual destaca una brecha enorme y preocupante.

Alicia
¿Qué tan grande?

Beto
Entre los modelos principales, GPT-4o, que es uno de esos modelos capaces que tenemos, obtuvo apenas un 2.7% de precisión en todo el conjunto de datos.

Alicia
Menos del 3%. Eso no es solo fallar. Es básicamente adivinar al azar.

Beto
Es un rendimiento estadísticamente insignificante en una prueba de expertos. Y la puntuación más alta entre todos los modelos solo de texto, o3-mini, logró apenas un 13.4%. Incluso los sistemas más potentes están apenas por encima del ruido del azar.

ModeloPrecision (%) ↑Error de Calibración (%) ↓
GPT-4o2.789
GROK 23.087
CLAUDE 3.5 SONNET4.184
GEMINI 1.5 PRO4.688
GEMINI 2.0 FLASH THINKING6.682
o18.083
DEEPSEEK-R1∗8.573
o3-MINI (HIGH)∗13.480

Alicia
Pero la baja precisión ni siquiera es toda la historia. El material fuente señala un problema aún mayor con la fiabilidad: el error de calibración. Para alguien no técnico, ¿por qué es un mal calibrado quizá peor que una puntuación baja?

Beto
Esto toca una preocupación crítica de seguridad. La calibración mide qué tan bien la confianza que el modelo declara en su respuesta coincide con la corrección real de esa respuesta.

Alicia
Así que si dice "tengo 99% de confianza" en la respuesta A, pero la respuesta real es B.

Beto
Eso es un enorme error de calibración. Y lo que vemos es que los LLM tienen una calibración sorprendentemente mala, con errores por encima del 70% en todos los modelos.

Alicia
¿Qué significa eso en la práctica?

Beto
Significa que con frecuencia proporcionan respuestas drásticamente incorrectas con mucha confianza. No reconocen que la pregunta está muy fuera de su base de conocimiento.

Alicia
¿Así que están seguros y equivocados?

Beto
Ese error con confianza es la misma definición de alucinación o confabulación. Fallan la prueba, pero te aseguran que la aprobaron.

Alicia
Eso es profundamente problemático si piensas en usarlos como asistencia experta.

Además hay una idea realmente interesante sobre el mero coste computacional para los modelos que intentan razonar hasta resolver estos problemas.

Beto
Correcto. Esto conecta el desafío académico con la realidad económica de ejecutar estos sistemas. El análisis mostró que los modelos que usan estrategias de razonamiento, es decir, que muestran su proceso, tienen que generar muchas más tokens de salida.

Alicia
Básicamente están pensando más.

Beto
Están ejecutando procesos internos exponencialmente más costosos, produciendo todo ese texto de razonamiento inferido.

Alicia
¿Y qué les consigue todo ese cómputo extra?

Beto
Una mejora diminuta en el rendimiento. Y esto plantea preguntas serias sobre cuán óptimos en cómputo son estos métodos de razonamiento.

Alicia
¿Así que cuesta mucho más por una ganancia marginal?

Beto
Exacto. Cuesta una fortuna en potencia de cómputo para sonar solo un poco más inteligente que los modelos que simplemente adivinan. Y ambos siguen siendo enormemente inexactos. ¿Ese costoso proceso es realmente razonamiento? ¿O es solo una confabulación sofisticada e intensiva en recursos que a veces tiene suerte?

Alicia
Ese es un punto profundo sobre los límites de las arquitecturas actuales. Entonces, dado lo rápido que avanza la IA, ¿cuánto se espera que dure esta enorme brecha?

Beto
Bueno, la proyección dada una tasa de desarrollo es que los LLM podrían potencialmente superar el 50% de precisión en HLE para finales de 2025.

Alicia
Eso es rápido.

Beto
Muestra que, aunque la brecha es enorme ahora, la trayectoria es increíblemente empinada.

Alicia
Entonces, digamos que un modelo alcanza el 90% en HLE. ¿Qué significaría eso realmente para quien escucha? ¿Qué denotaría?

Beto
Indicaría fuertemente un rendimiento de nivel experto en preguntas académicas cerradas y verificables.

Alicia
A través de todos estos campos especializados.

Beto
Sí. Significaría que el modelo ha dominado la síntesis académica de alto nivel y de vanguardia. Pero también es vital subrayar lo que no implica. HLE prueba problemas estructurados. No evalúa investigación autónoma ni juicio ético ni invención creativa ni AGI.

Alicia
Prueba conocimiento codificado, no descubrimiento científico.

Beto
Exactamente.

Alicia
Para sintetizar esta inmersión profunda: HLE es este nuevo y necesario estándar de oro riguroso para medir la IA en la frontera. Fue creado filtrando todas las preguntas que la IA actual ya puede resolver, usando una colectividad global de expertos para garantizar la calidad.

Beto
Es el filtro académico definitivo. Y muestra exactamente dónde se descomponen las capacidades de los LLM actuales: la síntesis, el conocimiento especializado y el razonamiento profundo, no solo la simple recuperación. Nos da ese punto de referencia común que necesitamos para informar la investigación, la política y cómo pensamos sobre las limitaciones reales de la IA hoy.

Alicia
Y esto nos lleva a nuestro pensamiento final y provocador para que lo medites. Aprendimos que para siquiera intentar estas preguntas, los sistemas de IA tienen que generar muchos más tokens usando un inmenso y caro poder de cómputo. Y aun así, con frecuencia te dan respuestas completamente incorrectas con altísima confianza. Así que si la verdadera pericia humana se caracteriza por saber lo que no sabes y por aplicar tu conocimiento de forma eficiente, ¿qué te dice el HLE sobre la diferencia fundamental entre la recuperación intensiva en recursos, el razonamiento computacionalmente caro pero defectuoso, y la verdadera maestría académica humana? ¿El camino actual del crecimiento de la IA está simplemente cambiando eficiencia por respuestas erróneas con confianza?