domingo, 21 de diciembre de 2025

La Inteligencia Artificial General

 
 

Hoy les traigo un resumen de un artículo científico nuevo que propone una definición formal de la Inteligencia Artificial General (IAG) para sustituir conceptos imprecisos por estándares mensurables. Los autores describen un marco integral que evalúa la versatilidad y la competencia cognitiva de una IA en numerosos dominios, como las matemáticas, la memoria y las ciencias sociales. Mediante tareas modeladas a partir de pruebas de inteligencia humana y exámenes académicos, los investigadores buscan identificar las deficiencias específicas de los sistemas actuales que les impiden alcanzar capacidades a nivel humano. El texto también aclara las distinciones entre la IAG y conceptos relacionados, como la superinteligencia o los sistemas autónomos autosuficientes. En definitiva, este enfoque operativo busca poner fin a la inestabilidad de los criterios de selección, proporcionando un punto de referencia técnico concreto para evaluar la llegada de la inteligencia general.

Enlace al artículo original: "A Definition of AGI", por Dan Hendrycks y colegas. Publicado en Diciembre 3 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Bienvenidos de nuevo al análisis profundo. Durante años hemos hablado de la inteligencia artificial general, "Artificial General Intelligence", AGI. Pero siempre ha parecido un término frustrantemente nebuloso.

Alicia
Y lo es. Es una diana que no deja de moverse.

Beto
Exacto. Cada vez que una IA especializada hace algo increíble — domina el ajedrez o escribe código perfecto — los críticos cambian la meta. Dicen: "bueno, eso no es inteligencia general real. La AGI es la siguiente cosa."

Alicia
Y esa ambigüedad es un enorme problema. Realmente nos impide medir el progreso con precisión. Y, quizá más importante, nos evita entender los cuellos de botella específicos que tenemos que resolver para llegar allí.

Beto
No puedes acertar a un objetivo que no has definido. Punto.

Alicia
Así es.

Beto
Para resolver esto, hay fuentes que detallan un nuevo marco cuantificable. Fue desarrollado por expertos líderes de todo el mundo de la IA y está diseñado para cortar el ruido y crear una herramienta diagnóstica real. Nuestra misión hoy es profundizar en ese marco, precisar qué significa realmente AGI y ver exactamente dónde se sitúan modelos como GPT-4 y su sucesor, GPT-5, frente a un perfil humano estandarizado.

Alicia
Y la definición fundamental que usan es, bueno, intencionalmente concreta. Definen AGI como "una IA que puede igualar o superar la versatilidad cognitiva y la competencia de un adulto bien educado".

Beto
Dos palabras clave ahí: versatilidad y competencia.

Alicia
Exacto. No se trata solo de hacer una cosa rápido. Necesitas amplitud de habilidades — eso es versatilidad — y profundidad dentro de cada habilidad — eso es competencia.

Beto
Y lo que creo que hace poderoso a este marco es que no inventa una nueva prueba de la nada. Ancla todo en la propia inteligencia humana.

Alicia
Específicamente en la teoría Cattell–Horn–Carroll (CHC) ...

Beto
... que es el estándar de oro, ¿no?

Alicia
Es el modelo más empíricamente validado que tenemos sobre la estructura de la inteligencia humana. Descompone todo en habilidades amplias y estrechas: desde el razonamiento hasta la memoria y el procesamiento visual.

Beto
Si piensas en la mayoría de benchmarks de IA, están diseñados para ver si un modelo puede pasar una prueba específica, como el examen de la barra (bar exam) o algo así.

Alicia
Precisamente. Y esos son a menudo superficiales. Al usar la teoría CHC, obligan a la IA a probar que tiene los “músculos mentales” subyacentes que usan los humanos.

Beto
Así que no están solo evaluando la respuesta a un problema de geometría.

Alicia
No. Están probando si el sistema tiene la habilidad inherente para razonamiento espacial y lógica, los bloques fundamentales de la inteligencia.

Beto
Bien. La meta final es una puntuación estandarizada de AGI del 0 al 100%. En cada subconjunto, si alcanzas 100% has llegado: has alcanzado la inteligencia general a nivel humano.

Alicia
Y los resultados mostraron un progreso acelerado pero profundamente desigual. La fuente lo llamó "un perfil cognitivo altamente dentado" — es decir, con picos y valles pronunciados. Dentado significa que ves áreas de excelencia sobrehumana justo al lado de fallos cognitivos fundamentales completos.

Beto
Pongamos algunos números, porque aquí es donde se pone realmente interesante. GPT-4, el modelo que muchos usamos cada día, obtuvo un estimado de 27% en este perfil. Pero el sucesor proyectado, GPT-5, mostró una aceleración masiva, alcanzando un estimado del 57%.

Alicia
Ese salto es enorme. Quiero decir, pasar de 27 a 57 en quizá dos años, es extraordinario. Pero para entender realmente qué significa ese 57% tenemos que mirar qué están midiendo en realidad.

Beto
Desgranémoslo. Veamos bajo el capó las 10 dimensiones de la inteligencia que usan.

Alicia
El marco divide la inteligencia general en 10 dominios centrales. Y, crucialmente, todos están ponderados por igual: 10% cada uno.

Beto
¿Por qué es tan importante eso?

Alicia
Porque ese peso igual es lo que prioriza la versatilidad. Si una IA es una genio en matemáticas y obtiene la puntuación perfecta, pero no puede aprender nada nuevo, solo puede conseguir 10 de 100 puntos. Evita que la especialización enmascare una falta de generalidad.

Beto
Y esto no es solo una prueba basada en texto, como muchas de las primeras.

Alicia
No, es una evaluación multimodal holística. Cubre texto, procesamiento visual y auditivo.

Beto
Recorramos los 10 componentes, la lista de verificación de AGI.

Alicia
Ok. Primero, tienes tres dominios sobre conocimientos y habilidades adquiridas.

  • Número uno: conocimientos generales, K. Esto es amplitud factual, sentido común, historia, cultura.
  • Luego lectura y escritura, RW, pura competencia con el lenguaje escrito.
  • Y tercero, habilidad matemática, M, todo el rango desde aritmética hasta cálculo.

Beto
Bien, algunos conocimientos y habilidades. Luego llegamos a los motores cognitivos centrales.

Alicia
Es una gran forma de decirlo: las partes de la mente que hacen el trabajo. El razonamiento inmediato "on-the-spot" (razonamiento puntual, R) se trata de resolver problemas novedosos, cosas que no has visto antes.

Beto
... inducción, deducción.

Alicia
Y también teoría de la mente.

Luego tienes la memoria de trabajo, WM, básicamente lo que puedes mantener en tu atención activa. Y el almacenamiento de memoria a largo plazo, MS. Este es crucial: es la capacidad de adquirir, consolidar y almacenar información nueva.

Beto
Y recuperarla, supongo.

Alicia
Correcto — la siguiente es la recuperación de memoria a largo plazo, MR —, acceder al conocimiento almacenado con precisión. Y esto es clave para evitar lo que llaman "confabulación".

Beto
Las alucinaciones.

Alicia
Exacto.

Y finalmente tienes los dominios para procesar el mundo físico y la pura velocidad.

Beto
Procesamiento visual, V, ...

Alicia
... para imágenes y vídeo; luego procesamiento auditivo, A, para habla y música; y por último la velocidad, S: qué tan rápido puedes hacer tareas cognitivas simples.

Beto
Esa lista es un mapa increíble. Y mirando ese viaje del 27% al 57%, la gran ganancia parece venir casi totalmente de las primeras tres categorías.

Alicia
Absolutamente. Las que dependen de datos de entrenamiento masivos.

Empecemos por conocimientos generales, K. GPT-5 obtiene un pequeño aumento ahí, de 8% a 9%.


Las habilidades de GPT-4 y GPT-5.

Pero lo clave es que prueban cosas más allá de hechos estáticos. Evalúan sentido común, como preguntar: "¿hacer un sándwich lleva más tiempo que hornear pan?" Y examinan alfabetización cultural que requiere búsqueda para conocer asuntos actuales.

Beto
Pero los saltos cuánticos reales están en las habilidades de competencia.

Lectura y escritura, RW: GPT-5 alcanza un perfecto 10%. Subió desde el 6% de GPT-4.

Alicia
Eso es un marcador mayor de progreso. GPT-4, a pesar de sus fortalezas, podía tropezar con tareas muy granulares a nivel de tokens, especialmente en documentos largos o en correcciones detalladas. Ese 10% significa que GPT-5 parece haber eliminado esos problemas: puntuaciones perfectas en comprensión, calidad de escritura, todo el paquete.

Beto
Y aquí está la que realmente me llamó la atención: la habilidad matemática, M. GPT-5 también alcanza un perfecto 10%, subiendo desde apenas 4% de GPT-4.

Alicia
Es un cambio transformador. De verdad. Un 10% en competencia significa que maneja cálculo avanzado, geometría, incluso álgebra a nivel de concursos. Para un humano promedio, eso equivale a nivel experto. GPT-5 supone un salto digital en matemáticas.

Beto
Y no se trata sólo de hacer operaciones rápido. Las fuentes dicen que las pruebas incluyen problemas verbales complejos.

Alicia
Exacto. Embeben las matemáticas en lenguaje natural. Así que una pregunta podría ser: "Janet tenía 22 bolígrafos verdes. Compró seis paquetes de nueve bolígrafos azules. ¿Cuántos bolígrafos tiene ahora?"

Beto
El modelo tiene que analizar el lenguaje, determinar los pasos y luego hacer los cálculos.

Alicia
Obtener un 10% significa que lo clava consistentemente en todo el espectro matemático.

Beto
Así que lo que tenemos es una IA profundamente alfabetizada, brillante en matemáticas y con vasto conocimiento: máximas puntuaciones en K, RW y M.

Alicia
Pero — y este es el gran pero — a medida que avanzamos por la lista, es como ver un rascacielos construido sobre arenas movedizas. Esa brillantez se asienta sobre cimientos extremadamente endebles.

Beto
Aquí es donde entra el perfil dentado ...

Alicia
... y donde el poder diagnóstico del marco se vuelve tan claro. Ahora pasamos a los cuellos de botella críticos, los dominios de baja puntuación que revelan estas debilidades fundamentales. La potencia del motor está limitada por sus partes más débiles.

Beto
Y la parte más débil, el bloque motor agrietado, es el almacenamiento de memoria a largo plazo, MS.

Alicia
Precisamente. Este es el cuello de botella más significativo. Obtiene un 0% tanto para GPT-4 como para GPT-5.

Beto
Espera, 0%. Eso parece increíble. Quiero decir, hablas con estas cosas y parecen recordar lo que dijiste 15 párrafos atrás. ¿Eso no es memoria?

Alicia
Esa es la distinción fundamental. Las fuentes son muy claras: MS mide la capacidad de adquirir de forma estable, consolidar y almacenar información nueva a partir de la experiencia, es decir, aprender de verdad.

Beto
Entonces, ¿qué es la ventana de contexto?

Alicia
Eso es la memoria de trabajo, WM. No es almacenamiento.

Beto
Creo que todos los usuarios lo han sentido: tienes una sesión de lluvia de ideas increíble de cuatro horas. Cierras el chat. Y al día siguiente te saluda como un perfecto desconocido: “¿En qué puedo ayudarle hoy?”.

Alicia
Ese es el resultado práctico de ese 0%: lo que los autores llaman "amnesia". Y la amnesia fuerza estas contorsiones de capacidad. Porque la IA carece de almacenamiento de memoria a largo plazo, MS, tiene que depender completamente de su enorme ventana de contexto, la memoria de trabajo, WM, donde GPT-5 solo puntúa un 4%.

Beto
Así que está usando una habilidad — memoria de trabajo — para fingir otra que no existe — almacenamiento duradero.

Alicia
Exacto. Y es increíblemente ineficiente y caro. No escala. No puedes mantener días o semanas de contexto en una ventana. Una vez que la información sale de esa estrecha ventana, simplemente se ha ido.

Beto
OK, otra gran debilidad parece estar en el razonamiento puntual (on-the-spot reasoning). GPT-4 puntuó básicamente 0 ahí, aunque GPT-5 sube hasta 7%.

Alicia
Y aquí es donde el modelo tiene que pensar, no solo recordar un patrón. Se le prueban problemas genuinamente nuevos; incluye cosas como deducción y teoría de la mente.

Beto
Teoría de la mente: la capacidad de entender el estado mental de otra persona, qué está pensando o qué sabe.

Alicia
Sí, y las IAs son notoriamente malas en esto. Una prueba clásica sería un escenario tipo: "John pone la única llave de la caja en el cajón azul y se va. Mary, que no lo vio hacer, entra y mueve la llave a su bolso."

Beto
Luego le preguntas a la IA: "¿dónde cree John que está la llave?"

Alicia
Un humano lo sabe al instante: "John piensa que sigue en el cajón porque no vio a Mary moverla."

Beto
¿Pero una IA con teoría de la mente débil?

Alicia
... tiene problemas para separar el conocimiento limitado de John de la verdad factual. Podría decir que "está en el bolso de Mary", porque ahí está realmente. No puede modelar la perspectiva diferente de John. Ese 7% muestra que está mejorando, pero sigue habiendo una brecha enorme.

Beto
El último cuello de botella importante es la recuperación de memoria a largo plazo, MR, solo 4%. Y esto está directamente ligado al tema del que todo el mundo habla ...

Alicia
... la confabulación, las alucinaciones.

Beto
Correcto.

Alicia
Es un síntoma de imprecisión profunda. Los modelos tienen una fluidez de recuperación asombrosa: pueden generar montones de respuestas muy rápido. Pero la precisión está rota.

Beto
Las fuentes ponen un gran ejemplo de esto.

Alicia
Sí. El AI podría describir con confianza, en vívido detalle, la campaña militar de Napoleón en Sudáfrica.

Beto
Una campaña que, por supuesto, nunca ocurrió.

Alicia
Nunca ocurrió. Simplemente sintetiza una historia que suena plausible a partir de conceptos relacionados: “Napoleón campañó en Sudáfrica”, y lo afirma con total confianza. Eso es un error cognitivo profundo en la recuperación.

Beto
Y nosotros, los usuarios, hemos construido otra contorsión para enmascararlo: la "generación aumentada por recuperación", "Retrieval Augmented Generation", RAG.

Alicia
RAG es un parche comercial vital, pero es fundamentalmente un parche. Enmascara la incapacidad del modelo para acceder de manera fiable a su propio conocimiento y, más importante, la ausencia total de una memoria experiencial dinámica.

Beto
RAG tira de una base de datos; no es recordar.

Alicia
Eso es. No es un sustituto de memoria integrada real.

Beto
Cerrando con las brechas multimodales: Visual y auditivo. GPT-4 sacó 0 en ambos.

Alicia
GPT-5 muestra progreso, pero aún incompleto: llega a 4% en visual y 6% en auditivo. El progreso visual está en percepción básica y en generar imágenes. Pero todavía falla seriamente en razonamiento visual complejo.

Beto
¿Como qué?

Alicia
Por ejemplo, rotar mentalmente un objeto 3D en la mente o navegar un laberinto a partir de un mapa visual. Puede “ver” y generar, pero le cuesta razonar espacialmente sobre lo que ve.

Beto
Y en lo auditivo, ...

Alicia
... el progreso es sobre todo mejor reconocimiento del habla. Sigue puntuando cero en cosas más profundas, como entender el ritmo o emitir juicios musicales complejos.

Beto
Sintetizando todo esto, tenemos ese perfil dentado: GPT-4 en 27%, GPT-5 en 57%. Tenemos una IA que es más estrecha que un humano debido a estos déficits cognitivos profundos, aun siendo sobrehumana en cosas específicas como las matemáticas.

Alicia
Y este marco nos obliga a ser mucho más precisos con nuestro lenguaje. Ese 57% es un progreso increíble hacia la AGI, pero no es AGI.

Beto
Tenemos que separarlo de otros conceptos. Primero, esto es solo sobre habilidades cognitivas. Deliberadamente deja fuera habilidades físicas.

Alicia
Correcto: esto no mide lo que llaman IA de reemplazo, que necesitaría realizar tareas físicas mejor que un humano. La AGI es el cerebro, no el cuerpo.

Beto
Tampoco mide la IA económicamente valiosa. Podrías tener un algoritmo simple que genere miles de millones en beneficio sin ser en absoluto generalmente inteligente.

Alicia
Y finalmente, AGI no es superinteligencia. Esta se define como "una IA que supera ampliamente la cognición humana en prácticamente todos los dominios". Al 57% todavía estamos trazando la ruta hacia la paridad humana, no más allá de ella.

Beto
Así que este marco nos da el mapa. Y muestra que el progreso se está acelerando como loco — de 27% a 57% en dos años —. Pero los desafíos nucleares, el aprendizaje continuo y el razonamiento fiable, siguen siendo barreras enormes.

Alicia
Y aquí va el pensamiento final para que te lo lleves: los autores insisten en lo profundamente interdependientes que son las 10 habilidades. No puedes hacer matemáticas avanzadas sin razonamiento. No puedes procesar imágenes sin conocimientos generales.

Beto
Y no puedes resolver un problema complejo sin recurrir a la memoria.

Alicia
Hemos establecido que este motor de inteligencia está atascado en 57% de eficiencia por su componente más débil: ese 0% en almacenamiento de memoria a largo plazo.

Beto
Así que la pregunta es, ...

Alicia
¿Qué pasa cuando ese único cuello de botella crítico — esa incapacidad para consolidar nuevas memorias — se resuelva por fin? Dado lo interconectadas que están todas las piezas, ¿qué tan rápido acelerará la corrección de esa parte rota el progreso en las otras nueve áreas que dependen de contexto y aprendizaje a largo plazo?

Beto
Te hace preguntarte cuán rápido cruzaremos el umbral del 100% cuando esa pieza rezagada finalmente se ponga al día y desbloquee el potencial completo de todo lo demás. Piensa en esa relación entre memoria e inteligencia mientras ves cómo se despliegan estos nuevos modelos.

Alicia
Nos vemos en el próximo análisis profundo.