Mostrando entradas con la etiqueta redes neuronales. Mostrar todas las entradas
Mostrando entradas con la etiqueta redes neuronales. Mostrar todas las entradas

sábado, 28 de marzo de 2026

Encuesta sobre Modelos de Lenguaje a Gran Escala (LLM)

 
 

Esta extensa encuesta ofrece una visión técnica completa de los modelos de lenguaje a gran escala (LLM), analizando su evolución desde los primeros métodos estadísticos hasta las arquitecturas modernas con miles de millones de parámetros, como GPT-4 y LLaMA. Los autores examinan el fenómeno de las leyes de escala, que determinan cómo el aumento del tamaño de los datos y del modelo conduce al surgimiento de capacidades avanzadas como el razonamiento y el aprendizaje contextual. Se detallan las fases clave del desarrollo, centrándose específicamente en el papel fundamental del preprocesamiento de datos, las estrategias de preentrenamiento y el ajuste de las instrucciones para alinear los modelos con las preferencias humanas. El texto también cataloga recursos esenciales de código abierto, incluyendo conjuntos de datos y bibliotecas de software, para ayudar a los investigadores a comprender los complejos requisitos de ingeniería del desarrollo de LLM. En definitiva, las fuentes presentan a los LLM como solucionadores de tareas de propósito general que están revolucionando fundamentalmente el panorama de la inteligencia artificial.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "A Survey of Large Language Models", por Wayne Xin Zhao y colegas. Publicado el 18 de Marzo de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Sabes, en realidad no hace tanto tiempo que lo más impresionante que la inteligencia artificial podía hacer era simplemente terminarte la frase en una barra de búsqueda.

Alicia
Exacto. Como que escribías "cómo hervir" y te sugería "un huevo".

Beto
Exactamente. Es un pequeño truco de salón. Pero hoy, quiero decir, estamos tratando con sistemas de IA que escriben arquitecturas de software complejas, pasan el examen de abogado y literalmente simulan el razonamiento humano paso a paso.

Alicia
Es un salto asombroso.

Beto
De verdad lo es. Hemos pasado de un autocompletar glorificado a algo que altera fundamentalmente cómo procesamos la información.

Alicia
Es un cambio completo de paradigma. Sí. Y dado que la velocidad de esta tecnología ha sido tan implacablemente rápida, es muy fácil mirar el panorama actual y sentir que estos modelos son simplemente cajas negras mágicas.

Beto
Claro.

Alicia
Pero en realidad no son magia. Son el resultado de avances muy específicos en matemáticas e ingeniería.

Cronologia de los LLMs

Beto
Totalmente. Y precisamente por eso la inmersión de hoy está diseñada para ser tu atajo definitivo para ponerte al día con lo que sucede bajo el capó.

Alicia
Sí. Hoy realmente vamos al fondo.

Beto
Sí. Anclamos nuestra conversación en la actualización 2026 de un artículo emblemático: se llama "A Survey of Large Language Models", elaborado por Wayne Xin Zhao y un enorme equipo de investigadores.

Alicia
Es un artículo fantástico.

Beto
De verdad lo es. Y nuestra misión hoy es cortar todo el lenguaje académico y extraer los mecanismos centrales de cómo funcionan realmente estos modelos. Vamos a desentrañar la evolución, las recetas de datos específicas y la sala de máquinas literal que los hace funcionar.

Alicia
Y para establecer un marco mientras nos sumergimos, creo que ayuda ver todo este campo a través de una única lente fundacional.

Beto
¿Cuál?

Alicia
Bueno, el modelado del lenguaje desde sus inicios siempre ha tenido un objetivo específico: comprimir el conocimiento del mundo en una máquina.

Beto
Comprimirlo.

Alicia
Sí. Ahora, simplemente, ¿qué ocurre cuando esa compresión alcanza una masa crítica explosiva?

Beto
Entonces tracemos esa compresión hacia atrás, porque para comprender verdaderamente la arquitectura de una IA moderna tienes que entender los cuellos de botella que nos retuvieron durante décadas. ¿Verdad?

Alicia
Absolutamente.


LLMs: de Predictores de Texto, a Solucionadores de Tareas

Beto
La encuesta traza cuatro generaciones distintas de modelos de lenguaje, empezando por pura estadística.

Alicia
Correcto. Así que la primera generación, que dominó los 90 y primeros 2000, confiaba en modelos estadísticos de lenguaje. Eran esencialmente modelos N-gram. Intentaban predecir la siguiente palabra basándose enteramente en la probabilidad de las pocas palabras que la precedían inmediatamente, pero chocaron con un enorme escollo, llamado "la maldición de la dimensionalidad".

Beto
Ajá, claro. Porque si quieres que el modelo realmente entienda el contexto de todo un párrafo, las combinaciones matemáticas de secuencias de palabras explotan exponencialmente, ¿no?

Alicia
Exacto. Se te acaba la potencia de cómputo casi al instante. Simplemente no puedes mapear la probabilidad de cada oración de 20 palabras en inglés.

Beto
¿Cómo lo superaron?

Alicia
Pues los investigadores tuvieron que replantear por completo cómo las máquinas representan el lenguaje. Eso condujo a la segunda generación alrededor de 2013, que fueron los modelos neuronales de lenguaje.

Beto
Y esa fue la era de word2vec.

Alicia
Exacto. En lugar de fijarse en coincidencias exactas de palabras, los investigadores usaron redes neuronales para mapear palabras como vectores distribuidos en un espacio continuo y multidimensional.

Beto
Bien. Así que en lugar de que una palabra sea solo una cadena de letras, se convierte en un conjunto de coordenadas.

Alicia
Sí.

Beto
Palabras con significados similares, como, no sé, "rey" y "reina", acaban físicamente más cerca en ese espacio matemático.

Alicia
Lo clavaste. Eso permitió a la máquina entender relaciones semánticas por primera vez.

Beto
Oh, wow.

Alicia
Y luego llegó la tercera generación con los modelos preentrenados de lenguaje, sobre todo BERT.

Beto
Oh, sí, BERT fue enorme.

Alicia
Lo fue. Porque en lugar de solo aprender coordenadas de palabras, estos modelos aprendieron representaciones conscientes del contexto. Leyeron enormes cantidades de texto sin etiquetar primero, ...

Beto
... absorbiéndolo todo.

Alicia
Sí. Aprendiendo el contexto bidireccional profundo de una oración antes de ser afinados para una tarea estrecha y específica, como traducción o análisis de sentimiento.

Beto
Pero seguían siendo, en última instancia, expertos estrechos, ¿no? Tenías un modelo para traducir francés y otro completamente distinto para resumir un documento.

Alicia
Exacto.

Beto
Así que el verdadero salto, la cuarta generación, ocurrió cuando los investigadores esencialmente decidieron dejar de construir expertos estrechos y, en su lugar, construyeron grandes modelos de lenguaje.

Alicia
Sí, la teoría subyacente cambió.

Beto
Y la filosofía predominante se volvió sorprendentemente directa, ¿no? Simplemente haz la red neuronal masiva.

Alicia
Sí, eso fue exactamente lo que pasó. Los investigadores hipotetizaron que si escalas los parámetros —las sinapsis artificiales de la red— y escalas los datos, el modelo no solo mejoraría en predecir texto;

Beto
se convertiría en un solucionador de tareas de propósito general.

Alicia
Precisamente. Y esta explosión en tamaño estuvo gobernada por leyes de escala increíblemente precisas.

Beto
Correcto. La primera de peso fue la ley de escala KM de OpenAI.

Alicia
Sí.

Beto
Esencialmente probaron una relación matemática que muestra que si tienes un presupuesto finito pero enorme de potencia de cómputo, obtienes el mejor retorno de inversión al dedicar ese cómputo a aumentar el tamaño bruto del modelo —el conteo de parámetros— en lugar de simplemente ejecutar más datos a través de un modelo más pequeño.

Alicia
Exacto. Más tarde, ese enfoque se refinó con la ley de escala Chinchilla por Google DeepMind.

Beto
Correcto.

Alicia
Y eso alteró fundamentalmente cómo se estaban utilizando los centros de datos.

Beto
Espera, quiero contraponer esto un segundo. Si OpenAI demostró que modelos más grandes dan mejores resultados, ¿por qué la industria no se centró exclusivamente en construir colosos de billones de parámetros?

Alicia
Es una buena pregunta.

Beto
Quiero decir, ¿hay un límite matemático a solo arrojar escala de parámetros al problema?

Alicia
Sí lo hay. Exactamente, eso es lo que probó el artículo de Chinchilla. Encontraron que la ley de escala KM en realidad subestimaba ligeramente la importancia de los datos en sí.

Beto
Interesante.

Alicia
Sí. DeepMind demostró que para obtener un rendimiento óptimo dado un presupuesto de cómputo, necesitas escalar el tamaño del modelo y la cantidad de datos de entrenamiento por igual.

Beto
Escalas iguales.

Alicia
Exacto. Así que si duplicas el número de parámetros en tu red, matemáticamente debes duplicar la cantidad de datos de entrenamiento que le das.

Beto
¿Si no?

Alicia
Terminas con un modelo masivamente hinchado que está esencialmente subentrenado e increíblemente ineficiente.

Beto
Entendido. Y cuando finalmente balancearon esa ecuación —grandes conteos de parámetros emparejados con enormes conjuntos de datos de alta calidad— vimos nacer lo que los investigadores llaman "habilidades emergentes".

Alicia
Sí, los saltos "mágicos".

Beto
Correcto. Son capacidades como seguir instrucciones complejas, aprender en contexto y razonamiento paso a paso. Esas que sencillamente no existen cuando un modelo tiene mil millones de parámetros, pero que se encienden de forma espontánea cuando alcanza los cien mil millones.

Alicia
Es fascinante.

Beto
Es como ver agua que se calienta: es solo agua caliente que se calienta más y más y, de repente, a 100 grados Celsius ocurre una transición de fase y se vuelve vapor. Cambia fundamentalmente su comportamiento.

Alicia
La metáfora de la transición de fase es perfecta. El modelo pasa de predecir meramente sintaxis a aparentemente predecir lógica.

Beto
Espera, sin embargo, porque no me queda del todo claro.

Alicia
¿Cómo es eso?

Beto
Bueno, si las leyes de escala Chinchilla y KM se basan en curvas matemáticas suaves y previsibles donde más cómputo equivale a una caída constante en la tasa de error, ¿por qué las salidas reales —esas habilidades emergentes— ocurren como picos repentinos e impredecibles? ¿Estamos realmente viendo un salto mágico en la cognición? ¿O es una ilusión creada por cómo los humanos evaluamos las pruebas?

Alicia
Esa es en realidad una de las preguntas más disputadas en el campo ahora mismo.

Alicia
Oh, absolutamente. Muchos investigadores sostienen que la emergencia es, en efecto, una ilusión causada por nuestras métricas de evaluación.

Beto
¿Cómo funciona eso?

Alicia
Bueno, piensa en cómo evaluamos a una IA en programación. Usamos una métrica binaria: ¿el código compiló y funcionó con éxito? ¿Sí o no?

Beto
Correcto.

Alicia
Por debajo del capó, el modelo podría estar mejorando de forma constante y suave su predicción de sintaxis durante meses a medida que escala. Pero no vemos esa curva suave.

Beto
Solo vemos que la puntuación salta de 0 a 100 exactamente el día que el modelo por fin pone todos los puntos y comas en su sitio.

Alicia
Exacto. Así que la comprensión interna de la IA está en un gradiente suave, pero nuestra percepción humana de su éxito es un acantilado repentino.

Beto
Hmm, eso tiene mucho sentido.

Alicia
Pero también hay que notar que para ti, el usuario final, esa discontinuidad es muy real. No te importa si una IA está al 90% de escribir un script de Python funcionando; solo te importa cuando cruza el umbral y realmente funciona.

Beto
Totalmente justo.

Alicia
Además, hay fenómenos documentados como el "grokking", donde la representación interna de un modelo se reorganiza de repente para generalizar perfectamente un patrón después de millones de pasos de rendimiento aparentemente aleatorio. Así que sí, la mecánica pura de la emergencia aún se está desenmarañando activamente.

Beto
Lo que nos lleva a la organización que realmente comercializó esas leyes de escala: OpenAI y la serie GPT.

Alicia
Exacto.

Beto
GPT, por supuesto, significa "Generative Pre-trained Transformer". La arquitectura empezó relativamente pequeña con GPT-1, luego GPT-2 con 1.500 millones de parámetros, y luego lanzaron GPT-3, que tenía 175.000 millones de parámetros.

Alicia
Y GPT-3 fue el modelo que realmente probó al mundo el concepto de aprendizaje en contexto.

Beto
Es decir, que no tenías que reentrenarlo para cada nueva tarea.

Alicia
Exacto. No necesitabas reentrenar los pesos del modelo. Podías simplemente darle unos pocos ejemplos en el propio prompt de texto, y el modelo identificaría el patrón y completaría la tarea dinámicamente.

Beto
Pero por impresionante que fuera GPT-3, no era GPT de verdad.

Alicia
No, no lo era.

Beto
No era el agente conversacional y razonador en el que confiamos hoy. Para salvar esa brecha, los investigadores tuvieron que implementar dos enormes mejoras de capacidad.

Alicia
Sí, así fue.

Beto
Y la primera es absolutamente fascinante para mí: el entrenamiento con código.

Alicia
Oh, esto es enorme.

Beto
OpenAI afinó sus modelos con grandes repositorios de código de GitHub, creando un modelo llamado Codex. Evidentemente, eso hizo a la IA buena programando. Pero la sorpresa fue que digerir código informático desbloqueó inesperadamente razonamiento sofisticado y lógica de cadena de pensamiento también en lenguaje natural.

Alicia
Es un efecto secundario brillante de la arquitectura.

Beto
¿Pero por qué? Quiero decir, ¿por qué alimentar a una red neuronal con miles de líneas de Python la convierte en mucho mejor para resolver un acertijo lógico en inglés o para escribir un ensayo legal altamente estructurado? ¿Qué tiene el código que enseña al modelo a "pensar"?

Alicia
Realmente se reduce a las diferencias estructurales entre el lenguaje humano y el código. El lenguaje humano es muy permisivo y, honestamente, a menudo ambiguo.

Beto
Eso es verdad.

Alicia
Si desordeno la sintaxis de una frase o uso un pronombre vago, normalmente puedes usar el contexto para deducir lo que quiero decir. Un modelo entrenado puramente en Reddit y Wikipedia aprende esa laxitud. Pero el código informático es completamente determinista. Es rígidamente jerárquico. Y, lo más importante, depende de dependencias estrictas a largo alcance.

Beto
Correcto. Porque si defines una variable en la línea 12, tiene que ser exactamente lo mismo cuando la llamas en la línea 800.

Alicia
Exacto. Requiere rastrear estados, mantener una lógica interna rigurosa y ejecutar procedimientos paso a paso para alcanzar un objetivo.

Beto
Vaya.

Alicia
Así que al forzar a la red neuronal a predecir el siguiente token en un bloque de código de software complejo, estás obligando matemáticamente a sus "attention heads" a rastrear esas dependencias a largo plazo y a internalizar la deducción secuencial.

Beto
Efectivamente aprende la arquitectura subyacente del razonamiento, que luego puede aplicar al lenguaje humano.

Alicia
Sí.

Beto
Básicamente le estás enseñando la disciplina estricta de la lógica.

Alicia
Precisamente.

Beto
Tiene todo el sentido. Así que el entrenamiento con código construye el "cerebro lógico".

Alicia
Sí.

Beto
Pero la segunda mejora de capacidad tenía que ver con el comportamiento.

Alicia
Pues sí: RLHF.

Beto
RLHF es "Reinforcement Learning from Human Feedback", Aprendizaje por refuerzo a partir de retroalimentación humana. Porque incluso un modelo de lenguaje masivo y muy lógico es, en última instancia, solo un motor de predicción de texto. Si lo dejas a su aire, puede divagar, generar contenido altamente tóxico o contestar una pregunta con otra pregunta.

Alicia
Correcto. El preentrenamiento puro te da un modelo que refleja con precisión Internet. Es decir, puede ser brillante, pero también caótico, sesgado y profundamente poco útil.

Beto
Totalmente.

Alicia
RLHF es la fase de alineamiento. Es el proceso de enseñar a ese sabio caótico la etiqueta necesaria para ser un asistente útil, inocuo y honesto.

Beto
Siempre lo pienso como tomar a un genio brillante pero completamente salvaje, que ha memorizado Internet entero, y enseñarle las reglas sociales para asistir a una cena formal.

Alicia
Es una gran analogía.

Beto
Y el mecanismo es literalmente poner a humanos en el bucle de entrenamiento como jueces de comportamiento.

Alicia
Correcto. Los investigadores le daban un prompt al modelo y este generaba varias respuestas potenciales. Los etiquetadores humanos leían esas respuestas y las ordenaban de mejor a peor según su utilidad y seguridad.

Beto
Pero espera: la IA no lee las clasificaciones y piensa "oh, me equivoqué, mejoraré". ¿Cómo altera esa preferencia humana realmente la red neuronal?

Alicia
Buena pregunta. Usan esas clasificaciones humanas para entrenar una segunda IA más pequeña llamada modelo de recompensa. Este modelo de recompensa aprende a puntuar el texto exactamente como lo haría un humano. Luego usan un algoritmo de aprendizaje por refuerzo, normalmente algo llamado "Proximal Policy Optimization" (PPO), para dejar que el modelo principal practique generando respuestas.

Beto
Y sea calificado.

Alicia
Exacto. Cada vez que genera una respuesta, el modelo de recompensa la puntúa. Durante millones de iteraciones, el modelo principal actualiza sus pesos internos para maximizar esa puntuación de recompensa.

Beto
Así que literalmente cambia sus distribuciones de probabilidad para favorecer el tono y la estructura que los humanos prefieren.

Alicia
Eso es exactamente.

Beto
Código le da lógica y RLHF le da personalidad y límites.

Alicia
Correcto.

Beto
Pero nada de eso funciona si la base subyacente está mal, lo que nos lleva a la dieta real del modelo: la receta de datos.

Alicia
El combustible.

Beto
Sabemos que ingieren petabytes de información: Common Crawl, scrapes web, bibliotecas de libros, artículos científicos de arXiv. Pero la encuesta enfatiza que no puedes simplemente echar datos crudos en un superordenador.

Alicia
No, para nada. La calidad de los datos es, posiblemente, el cuello de botella más crítico en la IA moderna.

Beto
Oh, sí.

Alicia
Las tuberías de limpieza son extraordinariamente complejas. Tienes filtrado heurístico para eliminar spam de baja calidad, limpieza de privacidad para remover información personal identificable y, quizá lo más importante, desduplicación.

Beto
Eliminar texto idéntico o altamente similar.

Alicia
Sí.

Beto
Espera un momento. Si la ley de escala Chinchilla dicta que necesitamos océanos absolutos de datos para entrenar bien estos gigantes, ¿por qué la desduplicación es tan crítica?

Alicia
Parece contradictorio.

Beto
Tiene razón: parece intuitivo pensar que necesitaríamos el mismo libro o artículo diez veces para que la IA memorice mejor ese concepto. ¿Por qué la IA se "envenena" al leer la misma frase demasiadas veces?

Alicia
Bueno, en el aprendizaje humano la repetición es buena. Pero en redes neuronales, el exceso de datos duplicados dispara una falla matemática conocida como "double descent" o "sobreajuste severo".

Este es el mecanismo: un modelo de lenguaje intenta aprender las reglas generales subyacentes de gramática, lógica y hechos. Cuando el algoritmo de entrenamiento encuentra la misma secuencia de texto una y otra vez, los gradientes matemáticos que actualizan los pesos del modelo comienzan a cavar una zanja profunda y estrecha. El modelo se sobreoptimiza para esa cadena específica de palabras.

Beto
Se fija en ella.

Alicia
Se queda anclado. Sus mecanismos de atención se sobrefijan en ese ruido repetitivo, lo que daña activamente su capacidad de generalizar a prompts nuevos no vistos. Si le preguntas algo ligeramente distinto, intenta forzar el texto memorizado en la respuesta. Básicamente rompe la capacidad del modelo para aprender dinámicamente en contexto.

Beto
Así que la diversidad en el conjunto de datos no es solo una preferencia: es estructuralmente vital para mantener los pesos neuronales flexibles.

Alicia
Exacto.

Beto
Fascinante. Entonces los datos se limpian agresivamente y se desduplican. Luego viene el proceso de tokenización.

Alicia
Sí.

Beto
Y este es un concepto que los usuarios avanzados realmente necesitan comprender. Porque una IA no "lee" la palabra "unbelievable" como lo hace un humano. No procesa palabras enteras basándose en sus definiciones.

Alicia
No: el texto bruto debe traducirse a números. Algoritmos como "Byte Pair Encoding" (BPE) escanean el conjunto de datos y van fusionando iterativamente los caracteres adyacentes que más aparecen.

Beto
Como bloques de Lego atómicos del lenguaje.

Alicia
Sí. Entonces puede mantener palabras comunes como "el" o "Apple" como tokens únicos, pero una palabra compleja o rara como "unbelievable" podría fracturarse en sub-tokens como "un", "believ" y "able".

Beto
Pero, ¿por qué no hacer cada palabra del diccionario su propio token? ¿No sería más limpio?

Alicia
Realmente se reduce a límites de vocabulario y eficiencia de la ventana de contexto. Si el vocabulario de tu modelo fuera una lista fija de 50.000 palabras enteras, ¿qué pasa cuando encuentra una falta de ortografía o un término de jerga nuevo o un nombre de variable muy específico en código?

Beto
Simplemente produciría un token desconocido.

Alicia
Exacto. Usando tokenización por subpalabras como BPE, el modelo puede construir o descomponer dinámicamente cualquier palabra en cualquier idioma o cualquier cadena de código a partir de sus componentes subword.

Beto
Tiene todo el sentido. Mantiene el diccionario comprimido pero infinitamente adaptable.

Alicia
Exacto.

Beto
Y una vez que tenemos esos tokens meticulosamente creados, los investigadores despliegan un currículo de datos. No vierten todo de golpe. El orden de las operaciones importa enormemente.

Alicia
Sí.

Beto
La encuesta destaca que codeloma es un ejemplo perfecto.

Alicia
Correcto. El aprendizaje por currículo imita el desarrollo cognitivo. Con codeloma, los investigadores primero entrenan el modelo en dos billones de tokens de texto general amplio. Esto construye la comprensión fundamental del lenguaje, hechos y estructura del mundo. Luego cambian al currículo, afinándolo con 500.000 millones de tokens de datos fuertemente orientados a código para inculcar ese razonamiento lógico del que hablamos.

Beto
Correcto. Construyendo la lógica.

Alicia
Y finalmente hacen una pasada hiperfocalizada de 100.000 millones de tokens específicamente relacionados con Python.

Beto
Básicamente: una educación general, seguida de una carrera en ciencias de la computación y culminada con una maestría en Python.

Alicia
Perfecta analogía.

Beto
Muy bien. Hemos curado la dieta perfecta, desduplicada y la hemos alimentado a través de un currículo optimizado. Entremos en la sala de máquinas mecánica.

Alicia
Vamos.

Beto
Cuando pulso Enter en un prompt, ¿cómo es la arquitectura física de la IA y cómo procesa mi solicitud?

Alicia
Casi todos los modelos de lenguaje de vanguardia usan una arquitectura llamada "decodificador causal", "causal decoder".

Beto
Bien.

Alicia
La variación científica del Transformador introducido en 2017: un decodificador causal opera bajo una regla estricta. Solo puede mirar hacia atrás, a los tokens que vinieron antes.

Beto
Nunca puede mirar hacia adelante.

Alicia
Correcto. Usa mecanismos de auto-atención para ponderar la importancia de cada palabra previa en tu prompt para predecir matemáticamente el siguiente token más probable.

Beto
Pero eso crea un enorme cuello de botella computacional, ¿no? Por la complejidad cuadrática de la auto-atención.

Alicia
Sí, lo hace.

Beto
Si te doy un prompt de mil palabras, cada una de esas palabras tiene que calcular su relación con todas las demás. Y si amplío el prompt a 10.000 palabras, la potencia de cómputo necesaria no solo sube por 10: explota de forma cuadrática.

Alicia
Es un problema de escala enorme.

Beto
¿Cómo manejan los modelos modernos esas ventanas de contexto masivas de 100.000 tokens sin fundir las GPUs?

Alicia
Lo hacen mediante una ingeniería arquitectónica brillante. Una de las rupturas más importantes destacadas en la encuesta es RoPE, que significa "Rotary Positional Embeddings".

Beto
RoPE. ¿Cómo resuelve RoPE el problema de contexto?

Alicia
En modelos más antiguos, tenías que asignar un número absoluto rígido a la posición de una palabra: palabra 1, palabra 2, palabra 3. Eso se desmorona a largas distancias. RoPE toma un enfoque matemático completamente distinto. En lugar de asignar una ID estática, toma el vector matemático de un token y literalmente lo rota en un plano complejo multidimensional según su posición en la secuencia.

Beto
¿En serio? Entonces, la posición se codifica como un ángulo.

Alicia
Exacto. Cuando el mecanismo de atención quiere saber qué tan separados están dos tokens —digamos un pronombre en la página 10 y el sustantivo al que se refiere en la página 1— simplemente calcula el ángulo entre sus dos vectores rotados.

Beto
Oh, wow.

Alicia
Esta posicionalidad relativa es increíblemente eficiente y permite al modelo mantener contexto a través de documentos vastos sin que las matemáticas se vayan al garete.

Beto
Pero incluso con RoPE optimizando la matemática de posición, sigue habiendo un enorme problema físico de memoria en las GPUs del servidor, ¿no?

Alicia
Oh, absolutamente.

Beto
Porque a medida que el modelo genera una respuesta token por token, tiene que almacenar los estados de auto-atención calculados —las matrices key y value— para cada token anterior. Así no tiene que recalcular todo el ensayo cada vez que añade una sílaba.

Alicia
Sí. Eso se conoce como la "caché KV". Y es el mayor devorador de memoria GPU en la IA hoy.

Beto
¿Cómo lo solucionan?

Alicia
Se apropian de un concepto de los sistemas operativos tradicionales llamado "memoria virtual paginada". En IA lo llaman "atención paginada", PagedAttention.

Beto
¿Cómo arregla la paginación la caché KV?

Alicia
Normalmente la caché KV requiere bloques continuos masivos de memoria. Si un bloque está fragmentado, la memoria se desperdicia y la GPU se queda sin espacio. La atención paginada lo soluciona troceando la caché KV en bloques pequeños de tamaño fijo que pueden almacenarse dinámicamente en espacios no contiguos fragmentados a través del pool de memoria de la GPU.

Beto
Muy inteligente.

Alicia
Reduce drásticamente el desperdicio de memoria, permitiendo al servidor manejar muchos más usuarios simultáneos y ventanas de contexto mucho más largas.

Beto
Y la encuesta también menciona que para acelerar la lectura física de esa memoria por parte de la GPU, los investigadores desarrollaron "FlashAttention", que optimiza el movimiento físico de datos entre los bancos de memoria grandes y lentos de la GPU y la caché de cómputo ultra‑rápida y pequeña junto al núcleo de procesamiento.

Alicia
Sí.

Beto
Minimiza el cuello de botella de IO.

Alicia
Exacto.

Beto
Pero lo que realmente me fascina es que los investigadores ya están mirando más allá del transformador por completo.

Alicia
Sí.

Beto
La encuesta destaca arquitecturas emergentes como Mamba, que usan modelos de espacio de estados.

Alicia
Correcto. Los "modelos de espacio de estados", "State Space Models" (SSM) están intentando destronar activamente al transformador. Como dijimos, el transformador tiene ese cuello de botella cuadrático por la auto-atención: cada token mira a todo token pasado. Mamba aborda el problema de forma lineal. Funciona algo así como una red neuronal recurrente tradicional donde mantiene un estado oculto que se actualiza a medida que lee token por token.

Beto
Pero espera: las redes recurrentes antiguas solían olvidar el comienzo de una oración al llegar al final. ¿Cómo evita Mamba eso?

Alicia
Mamba introduce un mecanismo de filtrado selectivo. Mientras procesa una secuencia, las matemáticas dictan dinámicamente qué información es vital para mantener en su memoria de estado interno y qué información es irrelevante y debe olvidarse de inmediato.

Beto
Eso es ingenioso.

Alicia
Porque no está reevaluando constantemente cada token pasado, los requisitos de cómputo de Mamba escalan linealmente con la longitud de la secuencia en lugar de cuadráticamente. Es una arquitectura increíblemente eficiente que podría representar el próximo gran cambio de paradigma.

Beto
El modelo ha digerido el prompt, mapeado los vectores multidimensionales, optimizado sus cachés de memoria y determinado matemáticamente la probabilidad de cada posible siguiente palabra en su vocabulario.

Alicia
Correcto.

Beto
Ahora tiene que elegir una. Esta es la estrategia de decodificación. Y el método más básico es la "búsqueda codiciosa".

Alicia
"Búsqueda codiciosa", "Greedy search", es exactamente lo que parece: el modelo mira la distribución de probabilidad para el siguiente token y simplemente selecciona la opción de mayor probabilidad. Lo hace cada vez sin excepción.

Beto
La búsqueda codiciosa hace un conversador terrible.

Alicia
Sí, lo hace.

Beto
Si siempre eliges la palabra estadísticamente más probable, la salida se vuelve repetitiva, en bucle y robótica.

Alicia
Claro.

Beto
El lenguaje humano es dinámico. No siempre usamos la palabra más predecible, por eso la investigación introdujo métodos de muestreo aleatorio como Top-p y el ajuste más crítico para cualquier usuario avanzado: la temperatura.

Alicia
La temperatura es esencialmente un modificador matemático aplicado a la distribución de probabilidad antes de que el modelo haga su elección.

Beto
Siempre la describo como un dial literal de creatividad para la IA.

Alicia
Lo es.

Beto
Si estás haciendo tus impuestos o pidiéndole a la IA que escriba una consulta SQL funcional, quieres la temperatura en cero. Quieres búsqueda codiciosa. Quieres determinismo porque hay una respuesta matemáticamente correcta. Pero si estás generando ideas para copy de marketing o escribiendo una novela, subes la temperatura.

Alicia
Exacto. Cuando aumentas la temperatura, digamos a 0.7 o 1.0, estás matemáticamente aplanando la curva de probabilidad.

Beto
Bien.

Alicia
El token de mayor probabilidad sigue estando arriba, pero la brecha entre él y el segundo, tercer o cuarto token más probable se reduce.

Beto
Entiendo.

Alicia
Esto permite al modelo muestrear aleatoriamente esos tokens ligeramente menos probables. Es lo que introduce metáfora, cadencia sorprendente y esa chispa elusiva de creatividad parecida a la humana.

Beto
Lo que sintetiza perfectamente la realidad de estos sistemas: los modelos basados en datos no son magia sensible.

Alicia
No lo son.

Beto
Son la colisión de leyes de escala muy predecibles, tuberías de datos meticulosas donde la desduplicación es literalmente cuestión de vida o muerte, maravillas arquitectónicas como RoPE y atención paginada, y estrategias de decodificación que transforman estadísticas crudas en un compañero conversacional.

Alicia
Todo es solo matemáticas e ingeniería.

Beto
Y saber manipular esas palancas —como entender por qué un modelo entrenado en Python es mejor en lógica deductiva— cambia fundamentalmente cómo aprovechas la técnica.

Alicia
Empodera absolutamente al usuario. Pero si retrocedemos y miramos la trayectoria esbozada en la encuesta de 2026, hay una pregunta estructural profunda que se cierne sobre todo lo que hemos discutido hoy.

Beto
¿Cuál?

Alicia
Bueno, hablamos de cómo las leyes de escala Chinchilla exigen mares masivos de datos diversos y perfectamente limpios, ¿verdad? La realidad es que la industria está topándose rápidamente con un muro. El texto humano de alta calidad generado orgánicamente en Internet es esencialmente un recurso finito, y se nos está acabando.

Beto
Vaya. Así que el pozo de datos humanos orgánicos se está secando.

Alicia
Exacto. Para seguir escalando, los laboratorios de IA recurren cada vez más a datos sintéticos. Están usando modelos actuales para generar billones de tokens de texto para entrenar la próxima generación de modelos de lenguaje.

Beto
Modelos entrenando modelos.

Alicia
Exacto. Incluso estamos viendo modelos evaluando y alineando a otros modelos sin humanos en el bucle.

Beto
Oh, vaya.

Alicia
Esto nos deja con una variable altamente provocativa para el futuro. Si la evolución continua de la IA depende fundamentalmente de que los modelos ingieran salidas sintéticas matemáticamente generadas por otros modelos, ¿desbloqueamos un bucle descontrolado de mejora recursiva, una inteligencia artificial general auto‑mejorante, o sin la diversidad orgánica y desordenada del lenguaje humano real, corremos el riesgo de atrapar a estas arquitecturas en una cámara de eco cerrada y degenerativa donde el modelo colapsa lentamente sobre su propio ruido estadístico?

Beto
Una cámara de eco algorítmica. Colapso del modelo. Eso da miedo, pero también es totalmente fascinante.

Alicia
Realmente replantea cómo pensamos sobre el techo de esta tecnología.

Beto
Completamente. Así que la próxima vez que escribas un prompt en una ventana de chat y veas esas palabras desplazarse por la pantalla, recuerda cuánto maquinaria invisible, lógica rigurosa y arquitectura estadística perfectamente equilibrada está funcionando a velocidad vertiginosa justo bajo la superficie.

jueves, 8 de enero de 2026

Modelos Fundacionales en Medicina

 
 

Hoy les traigo un resumen de un artículo científico que ofrece un estudio exhaustivo de los Modelos Fundacionales (MF) y sus amplias aplicaciones en el ámbito sanitario. Traza la historia de la Inteligencia Artificial (IA) en medicina, destacando avances arquitectónicos clave como las Redes Neuronales Convolucionales (CNN), las Redes Neuronales Recurrentes (RNN) y, en especial, los Transformadores, cruciales para los MF modernos. La fuente clasifica los MF en áreas como los Modelos Clínicos de Lenguaje Grande (LCLM), el Análisis de Imágenes Médicas (incluyendo segmentación y clasificación) y la Genómica (genómica y proteómica), detallando modelos especializados como GatorTronGPT y MedSAM. Además, el análisis explora las importantes oportunidades que ofrecen los MF, como la mejora de la robustez y el abordaje de datos de pequeño tamaño en enfermedades raras, a la vez que aborda desafíos cruciales como el alto coste computacional, la interpretabilidad y las preocupaciones legales y éticas para su adopción clínica generalizada.

Enlace al artículo, para aquellos interesados en profundizar en el tema: "A Comprehensive Survey of Foundation Models in Medicine", Wasif Khan y colegas. Publicado en Enero 16 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Bienvenidos a este análisis profundo en la que tomamos el vasto y a menudo abrumador mundo de los datos complejos y tratamos de reducirlo a las ideas esenciales y fascinantes que necesitas conocer.

Hoy emprendemos una inmensa inmersión. Es una que se sitúa exactamente en la intersección entre la tecnología revolucionaria y la salud humana. Estamos analizando los modelos fundacionales — o FMs — y su revisión comprehensiva en medicina y atención sanitaria, basada en una encuesta extensa y realmente crítica del campo.

Bien, empecemos por desentrañar este tema central. ¿De qué hablamos realmente cuando decimos modelos fundacionales?

Técnicamente, son modelos de aprendizaje profundo a gran escala. Se entrenan con conjuntos de datos enormes, normalmente usando lo que se llama aprendizaje auto-supervisado. Y el resultado es un único modelo base, altamente versátil, que luego puede adaptarse y ajustarse para una enorme gama de tareas específicas.

Alicia
Exacto. Para los oyentes que quizá no tengan un doctorado en aprendizaje automático, ¿cómo describirías la diferencia entre un modelo fundacional y una IA especializada estándar que hemos visto antes?

Beto
Piensa en una IA especializada como una llave de una sola casa. Abre una cerradura: por ejemplo, detectar tumores en un tipo muy específico de radiografía.

Un modelo fundacional, en cambio, es más como una llave maestra. Una vez entrenado, tiene una comprensión tan amplia de patrones y contexto que puede adaptarse rápidamente para abrir miles de cerraduras diferentes: desde diagnósticos hasta descubrimiento de fármacos o generar resúmenes de pacientes.

Alicia
Esa es una analogía perfecta, y esto es tan importante porque, aunque la inteligencia artificial y la salud no son nuevas — la cirugía asistida por ordenador comenzó ya a principios de los años 80 —, el ritmo de progreso ha explotado recientemente.


Tamaño de los Modelos Fundacionales

Y el catalizador clave de esta explosión fue la introducción de la arquitectura transformer en 2017. Los modelos construidos sobre esta arquitectura, como las familias BERT y GPT, están ahora transformando casi todos los aspectos de la atención sanitaria. Estamos yendo más allá del simple reconocimiento de patrones hacia una verdadera síntesis de alto nivel, ya sea en análisis de imágenes médicas o en el complejo y abstracto mundo de la investigación genómica.

Beto
Nuestra misión hoy para ti, el oyente, es bastante clara. Vamos a levantar el telón sobre los FMs específicos que se están adaptando para uso clínico. Examinaremos algunas de sus capacidades verdaderamente sorprendentes, como esos datos avanzados de resonancia magnética sintetizados que mencionamos. Y, de forma crucial, revisaremos los principales desafíos prácticos y estructurales a los que se enfrentan.

Alicia
Y solo para situar el escenario desde el momento "ajá" inicial, tienes que entender que la escala aquí es simplemente asombrosa y altamente especializada. Estos modelos médicos varían dramáticamente; están muy por encima de lo con lo que el público suele interactuar.

Por ejemplo, existen modelos como Megatron-LM que ahora escalan hasta 70.000 millones de parámetros y se entrenaron con literalmente miles de millones de palabras de texto clínico. Esto los hace profundamente, profundamente integrados en el vocabulario y el contexto específico de la medicina.

Beto
Esa escala es simplemente alucinante. Empecemos exactamente por dónde viene esa escala: la base técnica.

El verdadero punto de inflexión no fue solo más datos; fue una mejor arquitectura. Mencionaste la introducción en 2017 del modelo transformer. ¿Por qué fue eso un terremoto técnico?

Alicia
Pues porque cambió fundamentalmente cómo las máquinas procesan secuencias de información, ya sean esas secuencias palabras en una oración o bases en una cadena de ADN. Verás, antes dependíamos de modelos secuenciales como las redes neuronales recurrentes (RNNs). Tenían que leer una palabra y luego la siguiente y luego la siguiente. El modelo transformer, usando un mecanismo de autoatención, permite que el modelo capture el contexto en paralelo: mira toda la secuencia de una vez, entendiendo cómo el comienzo de una oración se relaciona con el final simultáneamente.

Beto
Así puede procesar el contexto mucho más rápido y a fondo.

Alicia
Exactamente. Este salto permitió la creación de los primeros grandes modelos fundacionales, como BERT, que se convirtieron en el estándar casi de la noche a la mañana. Y, por supuesto, la familia GPT.

Pero el habilitador fundamental para todos los FMs, lo que les permite manejar esta cantidad colosal de información, es el aprendizaje auto-supervisado ("Self-Supervised Learning", SSL). Aquí el modelo genera autónomamente sus tareas de preentrenamiento a partir de enormes cantidades de datos sin etiquetar. Aprende sin que un humano tenga que etiquetar manualmente cada pieza de información.

Beto
Eso explica cómo pueden digerir tanto texto sin procesar.

Pero aquí viene la pregunta clave, especialmente para las implicaciones clínicas. ¿Por qué no podemos simplemente usar un modelo general enorme, como por ejemplo un chat GPT genérico? ¿Por qué necesitamos modelos lingüísticos clínicos a gran escala especializados ("Clinical Large Language Models", CLLMs)?

Alicia
Todo se reduce al vocabulario y a las distribuciones contextuales. Los modelos generales se entrenan con datos generales de Internet: Reddit, Wikipedia, libros. Las distribuciones de palabras, la terminología específica, los acrónimos, la jerga, la forma en que se estructuran las notas son significativamente diferentes en el contexto clínico. Un modelo que traduce bien del francés al alemán podría tener dificultades para distinguir “neumonía” de “infiltrado” en la nota de un médico. Necesitas modelos empapados en corpus médicos.

Beto
Detallemos esos modelos especializados que surgieron de esta necesidad. ¿Cuáles fueron los primeros pioneros que realmente establecieron este entrenamiento específico por dominio?

Alicia
Uno de los primeros y más exitosos fue BioBERT, introducido en 2018. Se entrenó específicamente con literatura biomédica a gran escala. Su éxito fue casi inmediato en tareas críticas para el procesamiento del lenguaje natural clínico: reconocimiento de entidades nombradas, extracción de relaciones y respuesta a preguntas.

Beto
Un momento. Para nuestros oyentes, asegurémonos de desmenuzar esa sopa de siglas. ¿Cómo se ve el reconocimiento de entidades nombradas ("Named Entity Recognition", NER) en un entorno clínico?

Alicia
Buena pregunta. El NER enseña a la máquina a identificar y categorizar conceptos críticos en una nota médica. Identifica “aspirina”, “paciente Jaundo” e “infarto de miocardio” como tipos específicos de entidades: un medicamento, una persona, una enfermedad, todo en un bloque de texto no estructurado. Luego la extracción de relaciones ("Relation Extraction", RE) da un paso más: conecta esas entidades. Por ejemplo, reconocer que la aspirina fue recetada al paciente Jaundo por el infarto de miocardio. Y la respuesta a preguntas ("Question Answering", QA) usa esas relaciones identificadas para contestar instantáneamente una consulta del clínico basada en el expediente del paciente.

Beto
Ese nivel de especialización funcional es crítico. ¿Y hasta qué punto han evolucionado desde esa base de 2018?

Alicia
Han alcanzado una escala operacional real. Por ejemplo, toma GatorTronGPT de 2023. Se construyó sobre la arquitectura GPT-3, escalando hasta 20.000 millones de parámetros. Y, crucialmente, sus datos de entrenamiento incluyeron un volumen masivo de 82.000 millones de palabras de texto clínico desidentificado del UF Health. Eso, junto con datos generales, llevó el total a 277.000 millones de palabras. Porque se entrenó con documentación clínica del mundo real, mostró la capacidad notable de generar datos sintéticos alineados con el conocimiento médico. Incluso alcanzó un rendimiento comparable al humano en una prueba de Turing para médicos.

Beto
Ese es un hito fenomenal: desempeñarse de forma comparable a humanos en una prueba de Turing.

Pero si ese modelo se entrenó con 82.000 millones de palabras desidentificadas de una sola institución, UF Health, ¿no introduce eso inevitablemente un sesgo regional o demográfico? ¿No lo haría menos efectivo en una clínica rural en Alaska o en un gran hospital metropolitano en Nueva York, que atienden poblaciones de pacientes totalmente diferentes?

Alicia
Ese es precisamente el punto de fricción con el que lidiamos. El sesgo de datos institucionales es una preocupación enorme. Aunque estos modelos especializados muestran un rendimiento increíble a nivel local porque están perfectamente afinados al estilo de documentación y la cohorte de pacientes de ese hospital específico, su generalizabilidad sigue siendo una gran pregunta abierta. Los investigadores están trabajando activamente en técnicas de fusión de modelos y en el intercambio multi-institucional de datos para mitigar esto.

Beto
Y en cuanto al tamaño, ¿estamos viendo modelos aún más grandes ahora?

Alicia
Sí. El modelo MEDITRON, también de 2023, es aún mayor con 70.000 millones de parámetros. Se entrenó con 48.1 mil millones de tokens del dominio médico. Y encuestas han mostrado consistentemente que MEDITRON supera en ciertas tareas médicas específicas a anteriores modelos de vanguardia como GPT-3.5 y MedPaLM. Esto subraya que, por ahora, tamaño y datos especializados siguen siendo las palancas clave para el rendimiento.

Beto
La complejidad del lenguaje clínico es inmensa, pero el desafío se complica aún más cuando pasas de registros de texto a datos visuales: el mundo de la imagen médica. ¿Cómo pasan los modelos fundacionales de leer miles de millones de palabras a analizar escáneres de alta resolución?

Alicia
La visión por computadora médica es donde los patrones y características difieren más significativamente de las imágenes naturales que encuentras en Internet general. Los desafíos hacen que los modelos de segmentación generales — incluso los muy exitosos como SAM, "Segment Analysis Model", entrenado con más de 11 millones de imágenes generales — sean a menudo ineficaces para tareas especializadas.

Beto
Como, ¿por ejemplo?

Alicia
Especialmente en imágenes volumétricas 3D complejas como las resonancias magnéticas (RM) o las tomografías computarizadas (TC). La definición del límite entre tejido sano y tejido patológico es demasiado sutil para que un modelo general lo capte.

Beto
¿Cuál es la respuesta especializada en el dominio visual?

Alicia
Refleja la estrategia textual: entrenamiento intensivo específico por dominio. Así vimos modelos como MedSAM, introducido en 2024. Es un FM relacionado con la medicina diseñado para segmentación universal de imágenes. Se entrenó con más de 1.5 millones de pares imagen-texto médicos y muestra un rendimiento superior en ese entorno especializado comparado con su contraparte de propósito general.

Beto
También vemos modelos basados en conceptos como CLIP, que conectan imágenes y texto. ¿Enfrentan el mismo problema de escasez de datos que mencionaste antes?

Alicia
Sí. Los modelos basados en CLIP se topan con una traba porque el dominio médico tiene conjuntos de datos de imágenes-texto de alta calidad mucho más pequeños que los miles de millones de imágenes generales etiquetadas en Internet.

Beto
¿Cómo están afrontando los investigadores esa limitación de datos de forma eficiente e ingeniosa?

Alicia
Se están volviendo inteligentes con los datos que tienen. Por ejemplo, MedCLIP en 2022 adoptó un enfoque muy astuto: emplearon aprendizaje contrastivo, pero desacoplaron las imágenes y el texto y reemplazaron las funciones de pérdida estándar — es decir, las medidas de error — por una pérdida de emparejamiento semántico basada en conocimiento médico.

Beto
¿Puedes simplificar esa idea de pérdida de emparejamiento semántico?

Alicia
Claro. Piénsalo así: en lugar de castigar al modelo solo por estar numéricamente equivocado, enseñaron al modelo el significado de los términos médicos. Aseguraron que la representación visual del modelo se alineara con el significado estructurado del concepto. Crucialmente, MedCLIP logró un desempeño prometedor comparado con modelos generales, pero usando 10 veces menos datos de entrenamiento. Eso habla directamente del poder de la experiencia específica del dominio por encima de la mera recopilación masiva de datos.

Beto
Eso es un ejemplo fantástico de eficiencia.

Ahora, esto se vuelve realmente abstracto e interesante cuando pasamos al núcleo biológico: hablemos de ómicas — genómica, proteómica, transcriptómica — donde los FMs están extrayendo cavidades de datos celulares increíblemente complejos. Aquí es donde la IA realmente comienza a descifrar el lenguaje de la vida misma.

Alicia
Si lo conectamos con la visión global, en ómicas la arquitectura transformer se usa para encontrar estructura en datos mucho más complejos que el lenguaje humano. Por ejemplo, Geneformer: un modelo basado en transformer entrenado en un enorme conjunto de 29.9 millones de transcriptomas de células individuales, compilado en lo que se llama Genecorpus-30M.

Beto
¿Qué permite realmente a un investigador usar un modelo transformer para mirar transcriptomas?

Alicia
Le permite al modelo actuar como un mapeador con conciencia de contexto de redes génicas. No mira un gen en aislamiento: entiende cómo la expresión del gen A se relaciona con los genes B, C y D simultáneamente a través de distintos tipos celulares y condiciones. Esto es esencial para identificar mecanismos sutiles en enfermedades o predecir cómo responderá una célula a un nuevo fármaco. El modelo está literalmente aprendiendo la gramática y la semántica de la biología celular.

Beto
Es un nivel completamente distinto de reconocimiento de patrones.

¿Esta área también está viendo ganancias de eficiencia similares a los modelos de visión especializados?

Alicia
Absolutamente. Mira DNABERT2: es una extensión del modelo basado en BERT diseñada específicamente para decodificar el lenguaje del ADN no codificante. Logra rendimientos prometedores usando 21 veces menos parámetros que su predecesor, DNABERT. Este giro hacia arquitecturas altamente eficientes pero aún especializadas es una tendencia mayor en todo el dominio. Nos estamos volviendo más inteligentes sobre cómo entrenar, no solo más grandes.

Beto
Esa capacidad de generalizar conocimiento es la recompensa práctica. Pasemos a las líneas clínicas y hablemos de aplicaciones que ilustran inmediatamente el valor de los FMs en el flujo de trabajo clínico. Empecemos con los aspectos más destacados para aplicaciones de procesamiento de lenguaje natural ("Natural Language Processing", NLP) clínico.

Alicia
El valor inmediato reside en mejorar la comunicación y reducir masivamente la carga administrativa. En NLP clínico, los CLLMs están impulsando chatbots y asistentes virtuales que pueden proporcionar respuestas precisas y relevantes para preguntas específicas del paciente extraídas directamente de notas clínicas complejas. Hay estudios que muestran que chatbots médicos ofrecieron recomendaciones de calidad comparable a expertos humanos en ciertos escenarios de triaje.

Beto
Eso es potente.

¿Y la traducción? El lenguaje médico suele ser intencionalmente complejo, incluso en la lengua materna del paciente.

Alicia
Sí, los FMs muestran alta precisión para la traducción contextual del lenguaje médico. Esto simplifica la terminología compleja: por ejemplo, convertir “edema periférico” en “hinchazón del tobillo” o “hipertensión” en “presión arterial alta” para los pacientes. Esto mejora enormemente la accesibilidad comunicativa para pacientes y cuidadores.

Beto
Si estos CLLMs simplifican la terminología médica en tiempo real, ¿existe el riesgo de que sobre-simplifiquemos y perdamos matices importantes en el proceso? Por ejemplo, “hipertensión” es más específico que simplemente “presión arterial alta” en una ficha clínica compleja.

Alicia
Ese es un reto muy real. La utilidad está en traducir para el paciente y mejorar su comprensión y adherencia al tratamiento. Para el clínico, el modelo debe mantener absolutamente esa terminología técnica de alta fidelidad. Por tanto, los sistemas necesitan salvaguardas robustas para saber cuándo actúan como comunicadores para el paciente y cuándo como asistentes clínicos. El objetivo es accesibilidad, no desinformación.

Beto
Esa utilidad de traducción es fantástica. Pero cambiemos al área donde vemos el mayor dramatismo clínico: aplicaciones de visión por computadora médica.

Alicia
Dos aplicaciones destacan especialmente: mejora/reconstrucción de imágenes y asistencia aumentada en procedimientos. Los FMs son muy eficaces en la reconstrucción de imágenes, abordando problemas inversos complejos como la reconstrucción acelerada de RM, incluso cuando el sujeto se mueve y arruina a menudo una exploración.

Beto
Pero aquí hay un punto crítico en la mejora que apareció en las fuentes: la idea de sintetizar datos. Háblanos más sobre la posibilidad de tomar hardware de gama baja y generar resultados de alta gama.

Alicia
Esto cambia por completo la ecuación de acceso diagnóstico. Usando técnicas de superresolución, los FMs podrían potencialmente permitir que hospitales con RM de 1.5 T, que son estándar y asequibles, sinteticen datos comparables a RM de 7 T. Las resonancias de 7 teslas ofrecen una resolución significativamente mayor: permiten detectar estructuras y lesiones mucho más pequeñas, pero son increíblemente caras y raras.

Beto
Sintetizar 7 T a partir de una máquina de 1.5 T cambia la ecuación para hospitales rurales o clínicas en países en desarrollo. ¿Puedes darnos un ejemplo breve de un diagnóstico que se vuelva posible con esos datos sintetizados que antes no lo era?

Alicia
Claro. Piensa en enfermedades neurodegenerativas en etapa temprana como la esclerosis múltiple (EM). Las lesiones sutiles de la sustancia blanca asociadas con la EM suelen ser difíciles de caracterizar definitivamente en una exploración estándar de 1.5 T. La resolución mejorada sintetizada por el FM podría permitir a un radiólogo detectar y analizar esas pequeñas lesiones con la precisión que antes estaba reservada a centros de investigación avanzados. Eso impacta significativamente la precisión diagnóstica y el acceso a capacidades de imagen de alta gama.

Beto
Es una aplicación realmente transformadora para la accesibilidad global.

¿Qué hay de la asistencia en tiempo real durante procedimientos?

Alicia
Los FMs están integrando datos multimodales para proporcionar asistencia en tiempo real durante procedimientos complejos como la cirugía. Esta asistencia va desde anotar transmisiones de vídeo en vivo — identificando instantáneamente anatomía o instrumentos — hasta, aún más crítico, alertar a los equipos quirúrgicos si se omite un paso procedimental requerido, lo que mejora la seguridad del paciente y asegura la consistencia del procedimiento.

Beto
Todo eso suena increíblemente prometedor, pero al avanzar hacia la parte final de nuestra inmersión profunda, tenemos que discutir los desafíos críticos que enfrentan estos FMs en la atención sanitaria, que exige un pensamiento crítico extremadamente cuidadoso.

Alicia
Y esto plantea una pregunta importante: ¿podemos siquiera costearlos? La inmensa escala de estos modelos presenta un desafío significativo en términos de coste y requerimientos. Entrenar MedSAM, por ejemplo, requirió 20 GPUs Nvidia A100 totalizando 1.600 gigabytes de memoria. Esta pura demanda computacional limita la accesibilidad para muchos investigadores en entornos clínicos más pequeños y podría concentrar la innovación en unas pocas grandes instituciones.

Beto
Y más allá del coste del hardware, hay un problema de confianza en situaciones de vida o muerte. Tenemos que hablar de interpretabilidad o la naturaleza de «caja negra» de los FMs, que es un gran obstáculo para la adopción clínica. Los clínicos exigen transparencia y una justificación clara para un diagnóstico.

Alicia
Y el problema es que las técnicas generales de interpretabilidad — como fijarse en qué partes de los datos el modelo prestó más atención — sólo proporcionan intuiciones superficiales: muestran correlaciones. En asistencia sanitaria necesitamos métodos causales. Debemos ir más allá de “esto está correlacionado con la enfermedad” a “esto causa la enfermedad”.

Beto
Necesitamos métodos causales, no correlaciones espurias.

Para un clínico, ¿cuál es la diferencia práctica entre saber que algo ayuda y saber exactamente por qué ayuda?

Alicia
Es la diferencia entre confiar ciegamente en una caja negra y tener una validación biológica. Si una IA sugiere un diagnóstico basado en una correlación espuria — por ejemplo, asociar cáncer de pulmón con que el expediente del paciente fue escaneado un martes — eso es peligroso. Los métodos causales obligan al modelo a basar su decisión en mecanismos biológicos subyacentes, como identificar la expresión de una proteína específica o la morfología celular. Sin una causalidad clara que vincule la lógica del IA con el conocimiento biológico aceptado, la adopción clínica seguirá siendo limitada.

Beto
Luego está la amenaza crítica a la seguridad del paciente: la imprecisión y la preocupación más inmediata y peligrosa en medicina son las alucinaciones.

Alicia
La alucinación, para quienes no lo conocen, es la generación de información plausible pero inexacta o no verificada. Si un modelo genera una nota clínica alucinada o recomienda un plan de tratamiento no verificado, el potencial de daño al paciente es extremadamente alto. En un entorno sanitario, ese nivel de falta de fiabilidad es simplemente inaceptable.

Beto
Entonces, ¿qué significa todo esto para los investigadores y desarrolladores que intentan navegar estos enormes desafíos técnicos y logísticos? ¿Cuál es la lección principal aprendida aquí?

Alicia
La lección mayor es que los modelos fundacionales deben ser rigurosamente adaptados al dominio médico. No pueden simplemente portarse desde dominios generales sin una intensa especialización para ser efectivos. Y esto lo vemos consistentemente: modelos especializados como el GatorTronGPT que discutimos antes superan de forma significativa y consistente a sus contrapartes generalizadas en tareas médicas complejas como preguntas biomédicas y reconocimiento de entidades nombradas. La especialización no es negociable para la seguridad y la eficacia.

Beto
Así que los modelos fundacionales están aquí y están revolucionando la atención sanitaria al permitir la síntesis comprensiva de datos diversos — texto, imagen y ómicas — para ofrecer soporte diagnóstico y terapéutico poderoso que antes era inimaginable.

Alicia
Y las oportunidades futuras son particularmente emocionantes, sobre todo en áreas actualmente limitadas por la escasez de datos, como las enfermedades raras. Los FMs, mediante aprendizaje por transferencia, pueden adaptar representaciones robustas aprendidas en enfermedades comunes y luego afinarse a nuevos dominios con datos especializados mínimos usando lo que se llama aprendizaje few-shot o zero-shot. Esta capacidad de generalizar conocimientos fundamentales abrirá verdaderamente nuevas fronteras diagnósticas y terapéuticas.

Beto
Eso nos devuelve al mayor desafío que tocamos antes: el que está ligado directamente al coste y la escala. Y aquí hay algo en qué pensar mientras procesas esta inmersión profunda: si los únicos que pueden permitirse entrenar estos enormes modelos de 70.000 millones de parámetros son un puñado de instituciones con muchos recursos, ¿cómo garantizamos que la IA resultante, que nos afecta a todos, sea verdaderamente representativa y no esté sesgada hacia la población global, en lugar de ser simplemente un reflejo de los bancos de datos más ricos y de mayor intensidad de recursos?

miércoles, 8 de octubre de 2025

Inteligencia Artificial en Matemáticas

 
 

Hoy les traigo un resumen a una conferencia del Profesor Yang-Hui He, del Instituto para Ciencias Matemáticas de Londres. Explica cómo la Inteligencia Artificial (IA) y luego el Aprendizaje por Máquina surgen a partir de las matemáticas, y ahora an alcanzado un nivel tan alto, que se empieza a usar la IA para resolver problemas matemáticos complejos.

El enlace a este video, en inglés, es el siguiente:
Mathematics: The rise of the machines , por Yang-Hui He.

El resumen, la transcripción, y la traducción de este video fueron hechos usando herramientas de Inteligencia Artificial.

El resumen se presenta en forma de un diálogo entre dos personajes sintéticos, que llamaremos Alicia y Beto.


Resumen

Alicia
Si pasas algo de tiempo en internet o viendo las noticias últimamente, da la sensación de que todo el debate sobre la IA está atrapado en dos bandos, ¿no?

Beto
Sí, realmente lo está.

Alicia
Bueno, por un lado tienes a la gente que dice que la singularidad se acerca. La IA lo va a controlar todo.

Beto
El mundo va a cambiar de forma radical.

Alicia
Y luego, por el otro lado, están los que dicen que todo es puro bombo: es básicamente una calculadora sofisticada. Que la gente se calme, ¿no?

Beto
Solo estadísticas a escala. Y, honestamente, todo ese ruido, creo que pierde el punto. Si queremos ver de verdad lo que la IA puede hacer, no solo lo que la gente afirma, tenemos que mirar a algo puro, algo estructurado.

Alicia
Y eso es la matemática. Así que eso es nuestro análisis de hoy: la IA, específicamente en matemáticas —descubrimiento, demostración, todo el paquete—. Tratamos de averiguar, OK, si miramos cómo la IA maneja datos matemáticos puros, ¿podemos hacernos una idea real de dónde estamos?

Beto
Exacto. Y las matemáticas son, bueno, el lugar perfecto para esto porque los datos matemáticos, el lenguaje matemático, esa información estructurada es precisamente lo que estos modelos de IA, estas redes neuronales, son buenos procesando. Está cambiando el campo ahora mismo de forma fundamental.

Alicia
Bien. Entonces quizá expliquemos la IA para un matemático. La idea central ahora, oirás este término, "conectivismo → emergencia". Suena elegante, pero ...

Beto
... Solo significa que construyes estas redes enormes, ¿vale? Redes neuronales; en realidad son sistemas complejos de funciones, todas conectadas entre sí, intentando imitar cómo pensamos que funciona el cerebro con todas sus conexiones.

Alicia
Y hay matemática real que respalda esto: que pueden realmente imitar cosas.

Beto
Ah, sí, absolutamente. Existen los llamados "teoremas de aproximación universal". Básicamente nos dicen que si haces una red neuronal lo bastante compleja y le das suficientes datos, teóricamente puede modelar cualquier relación, cualquier entrada a cualquier salida. No es solo cálculo: puede aprender patrones.

Alicia
Así que el potencial está ahí. Podría modelar cualquier cosa, desde, no sé, patrones climáticos hasta cómo planear movimientos, si la construyes bien.

Beto
Esa es la idea.
Y sabes, parece muy nuevo, pero el término "inteligencia artificial" en sí mismo se remonta bastante atrás. John McCarthy lo acuñó para esa conferencia de Dartmouth en 1955. Aparentemente pensó que “inteligencia computacional” no sonaba lo bastante emocionante para la propuesta de financiación.

Alicia
Huh. Hay que amar el marketing académico. Pero la idea de una máquina pensante es muchísimo más antigua, ¿no?

Beto
Oh, siglos más antigua.

Alicia
Siempre vuelvo a Descartes hablando de la “bestia máquina” en el siglo XVII, pensando que los animales eran solo robots complejos. Pero para mí, el presagio real es Ada Lovelace. En 1842, mirando la máquina de Babbage, predijo que quizá algún día una máquina así podría componer música, música compleja, que es exactamente lo que cosas como ChatGPT están haciendo ahora con el lenguaje. Es asombroso.

Beto
Ese es un gran punto. Y esos primeros pensamientos llevaron a referencias reales, ¿no? Como el test de Turing en el ’49 —¿puede una máquina engañarte?—

Alicia
Correcto. Luego Deep Blue venciendo a Kasparov en ajedrez en el ’97. Eso se sintió enorme en su momento.

Beto
Fue enorme. Y luego AlphaGo venciendo al campeón mundial de Go en 2012, un juego mucho, mucho más difícil que el ajedrez.

Alicia
Así que si la IA trata de encontrar patrones mediante estas conexiones y las matemáticas son, como dijo G. H. Hardy, bueno, “un matemático es como un pintor, un poeta, un creador de patrones”.

Beto
Esa es la cita perfecta. Literalmente cazamos patrones, patrones en números, formas, datos.

Alicia
Así que desatas la herramienta suprema de caza de patrones —la IA— en el campo de las matemáticas.

Beto
Y sí, las cosas tienen que cambiar. El propio trabajo empieza a verse diferente.

Alicia
Ok, vamos a mapear esto para todos. ¿Cómo está cambiando la IA realmente la forma en que se hace la matemática en el día a día? Lo hemos dividido en tres maneras principales. Está la vía de abajo hacia arriba: certeza, pruebas.

Beto
Ajá, axiomas primero.

Alicia
Luego la vía de arriba hacia abajo: más intuición, descubrimiento, jugar, ...

Beto
... matemática experimental. Sí.

Alicia
Y finalmente, esta área más nueva y extraña: la meta-matemática con cosas como los grandes modelos de lenguaje, los LLM.

Beto
Ahí es donde las cosas se ponen realmente interesantes, quizá un poco raras.

Alicia
Empecemos por la base, entonces: abajo hacia arriba. Esta es la idea clásica, ¿no? Euclides, 300 a. C. Empiezas con verdades básicas, axiomas, definiciones, y construyes todo paso a paso.

Beto
Absolutamente. Y la versión más extrema de esto tiene que ser "Principia Mathematica", el proyecto de Russell y Whitehead a principios del siglo XX. Su proyecto masivo quería mostrar que toda la matemática puede construirse puramente desde la lógica; enorme ambición.

Alicia
“Ambicioso” es una palabra para eso. “Tedioso” sería otra. Oyes historias: les llevó, ¿qué?, trescientos sesenta y dos páginas.

Beto
Sí, 362 páginas de símbolos increíblemente densos solo para probar que uno más uno es dos.

Alicia
Es casi increíble. 362 páginas para 1 + 1 = 2.

Beto
De verdad. Y el proceso era tan complejo, tan engorroso, que la gente básicamente dijo: esto no es para humanos. Era demasiado fácil cometer un pequeño error en cientos de páginas de lógica.

Alicia
Casi un callejón sin salida intelectual, incluso antes de que Gödel apareciera.

Beto
Prácticamente se sintió como un fracaso en la práctica. Y luego, sí, Gödel dio el golpe teórico quizá 20 años después con sus teoremas de incompletitud.

Alicia
¿Nos recuerdas qué decían?

Beto
Básicamente, Gödel demostró que en cualquier sistema formal lo suficientemente complejo, como el que Russell y Whitehead intentaban construir, siempre habrá afirmaciones verdaderas que simplemente no puedes probar dentro de ese sistema. No puedes tener una base perfectamente completa y consistente para todo.

Alicia
Así que el sueño de una certeza absoluta construida desde abajo quedó algo muerto.

Beto
Le dio un golpe enorme. Parecía como que todo el proyecto axiomático estuviera limitado.

Alicia
Ok, pero aquí viene el giro. Si ese tipo de lógica tediosa, paso a paso, propensa a errores para los humanos no es para nosotros, ...

Beto
... es absolutamente perfecta para las computadoras. Si no se aburren, no cometen deslices lógicos si están programadas correctamente.

Alicia
Exacto. Así que los científicos de la computación y los lógicos recogieron esas piezas.

Beto
Lo hicieron. Y ahora, avanzando hasta hoy, tenemos cosas como el proyecto Mathlib. Funciona sobre un lenguaje asistente de pruebas llamado Lean. Es un enorme esfuerzo colaborativo.

Alicia
¿Y qué hace? ¿Es como "Principia Mathematica" otra vez?

Beto
Algo así, pero práctico esta vez: están formalizando sistemáticamente —en esencia traduciendo a código verificable por computadora— el currículo estándar de matemáticas de grado universitario. Esa parte se llama Project Zena. Hablamos de más de un millón de líneas de código ahora.

Alicia
Wow. Pero, ¿por qué? Pero si ya sabemos que esos teoremas son verdaderos, ¿no? Los enseñamos todos los días.

Beto
Pensamos que sabemos que son verdaderos. Pero el sistema humano de revisar pruebas, "peer review", no es perfecto. Uno de los investigadores involucrados mencionó encontrar resúmenes en The Annals of Mathematics.

Alicia
Que es como la mejor revista de matemáticas del mundo, ¿no?

Beto
Pues sí, el pináculo de la revisión por pares. Y encontraron resúmenes que eran, cito, "mutuamente contradictorios". Ambos no podían ser ciertos. Alguien en algún lugar pasó algo por alto: error humano.

Alicia
Así que Mathlib no es solo archivar matemáticas. Se trata de asegurarse de que realmente son correctas de una forma que los humanos no pueden garantizar.

Beto
Exacto. Cada paso, cada lema, cada teorema es comprobado por la máquina por consistencia lógica. Se trata de lograr un nivel de certeza que nos hemos dado cuenta de que la revisión humana por sí sola no puede proporcionar, especialmente a medida que las matemáticas se vuelven más complejas.

Alicia
Eso es bastante profundo. No es solo tecnología guay. Es la integridad del campo.

Beto
Lo es. Y la parte realmente emocionante: ahora tenemos esta enorme biblioteca verificada y estructurada de conocimiento matemático. Es la entrada perfecta para la IA.

Alicia
Sí.

Beto
El siguiente paso es que la IA aprenda los patrones de las demostraciones a partir de esta biblioteca. Tal vez incluso genere nuevas pruebas complejas totalmente verificadas por sí misma.

Alicia
Bien, eso es abajo hacia arriba: máquinas forzando certeza. Vamos a girar completamente hacia arriba: el lado de la intuición, la matemática experimental.

Beto
Sí. Aquí es donde los matemáticos “juegan”, como dicen. Juegas con números, haces cálculos, buscas patrones. Alguien una vez llamó a las matemáticas “una rama de la física donde los experimentos son baratos”. Esa es la vibra.

Alicia
Y el ejemplo clásico aquí es Gauss, ¿no? Como adolescente, ...

Beto
Carl Friedrich Gauss. Sí. La historia cuenta que tenía quizá 16 años, empezó a contar números primos, a trazarlos, a mirar la densidad. Y solo mirando los datos, conjeturó el teorema de los números primos: que la cuenta es aproximadamente x/log x.

Alicia
Y lo más loco de esa historia, creo, es que tuvo que inventar la estadística y la regresión en el acto solo para determinar qué curva se ajustaba mejor a los números que estaba generando.

Beto
Exacto. Vio el patrón y tuvieron que construir las herramientas para describirlo correctamente. Intuición matemática pura impulsada por el experimento.

Alicia
Y este enfoque experimental no es solo anécdotas históricas. Ha impulsado algunos de los mayores problemas abiertos que tenemos hoy.

Beto
Absolutamente. Piensa en los problemas del milenio, las preguntas del millón de dólares: la Hipótesis de Riemann de 1859, Riemann la formuló basándose en comprobar solo las primeras 20 o así de las ceros de la función Zeta. Unos pocos puntos de datos llevaron a una de las conjeturas más profundas en matemáticas.

Alicia
Wow. Y la Conjetura de Birch y Swinnerton-Dyer (BSD).

Beto
Esa de los años 60 fue una de las primeras grandes conjeturas nacidas directamente de la asistencia computacional. Usaron una computadora gigante temprana, EDSAC en Cambridge, para trazar datos sobre curvas elípticas y vieron un patrón que nadie esperaba.

Alicia
OK, así que los humanos usando ordenadores como herramientas para la intuición no es nuevo. Lo que diferencia a la IA moderna es que la IA está haciendo la intuición ahora.

Beto
Ese es el salto. La IA está empezando a hacer el descubrimiento real. DeepMind, por ejemplo, alimentó una IA con datos sobre nudos matemáticos, lazos complejos enredados, y la IA encontró una fórmula completamente nueva, una relación nueva entre diferentes invariantes de nudos que los humanos no habían detectado.

Alicia
OK, eso es una gran afirmación. Encontrar un patrón es una cosa, pero formular una conjetura real y demostrable… ¿cómo sabemos que la IA no está simplemente encontrando algún fluke estadístico extraño en los datos y que realmente ha hallado algo significativo?

Beto
Esa es una pregunta crucial. Y llevó a los matemáticos en 2023 a establecer una barra muy alta llamada "la prueba Birch", nombrada por Bryan Birch de fama BSD. Tiene tres criterios para un descubrimiento genuino asistido por IA.

Alicia
¿Cuales son?

Beto
Ok.

  • Primero, tiene que ser automático. La IA debe encontrar el patrón y sugerir la conjetura sin que un humano la guíe o filtre la salida.
  • Segundo, debe ser interpretable. La IA no puede ser solo una caja negra diciendo “esto está correlacionado”; tiene que producir algo como una fórmula, una afirmación concreta que los humanos puedan entender y luego intentar demostrar.

Alicia
Tiene sentido. ¿Y el tercero?

Beto

  • Y tercero, debe ser no trivial. La conjetura tiene que ser lo bastante interesante y profunda como para que los matemáticos la quieran dedicar tiempo a probarla. Tiene que ser matemáticamente significativa.

Alicia
Bien: Automática, interpretable, y no trivial.

¿Ha pasado algo que haya pasado la prueba Birch?

Beto
Nos acercamos increíblemente, de verdad. Fue en el área de curvas elípticas, otra vez relacionado con BSD. Investigadores alimentaron una red neuronal con unos 3.5 millones de puntos de datos de una enorme base de datos, la LMFDB.

Alicia
¿Y qué ocurrió?

Beto
La colaboración produjo una conjetura abierta nueva, increíblemente precisa, sobre esas curvas.

Alicia
¿Era interesante, no trivial?

Beto
Oh, sí. Aparentemente escribieron a algunos de los mayores especialistas mundiales en teoría de números en esa área específica y compleja. Y los expertos básicamente dijeron: "nunca hemos visto nada igual". No tenemos idea de por qué esto debería ser cierto. Desafiaba toda la teoría existente; un avance genuino.

Alicia
Wow. Así que pasó lo de interpretable y no trivial con sobresaliente. ¿Y automático?

Beto
Ahí fue donde falló. La red neuronal señaló con fuerza la relación; encontró el patrón en ese conjunto masivo de datos. Pero aún requirió un esfuerzo humano significativo para convertir la salida bruta de la IA en la fórmula matemática final, limpia y precisa. Tuvieron que arrancarla a tirones, por decirlo así.

Alicia
La IA encontró la mina de oro, pero los humanos aún tuvieron que refinar el metal.

Beto
Buena analogía. Sí. La IA llegó quizá al 95 % del camino: generó la intuición central a partir de los datos, pero ese último 5 % de formulación todavía necesitó el toque del pintor y poeta humano.

Alicia
Aun así, el 95 % hacia una nueva conjetura importante que dejó perplejos a los expertos es impresionante.

Beto
Es un progreso asombroso. Muestra el potencial, aunque la automatización total aún no esté del todo ahí; la asociación humano–IA es claramente increíblemente poderosa.

Alicia
Bien. Esto nos lleva al tercer área, quizá la que parece más ciencia ficción ahora mismo: la metamatemática. Aquí es donde entran modelos de lenguaje grande (LLMs), como ChatGPT, por ejemplo.

Beto
Exacto. Y estos son bichos completamente distintos. AlphaGo está entrenado específicamente para jugar Go. Estos LLM, se entrenan con, bueno, aparentemente todo: enormes porciones de internet, libros, artículos. Aprenden patrones estadísticos y el lenguaje para predecir la siguiente palabra.

Alicia
Se trata menos de resolver un problema específico y más de imitar la generación de texto humana.

Beto
Correcto. Pero lo sorprendente es lo buenos que se están volviendo en tareas que requieren razonamiento estructurado, como matemáticas. ChatGPT pasó el test de Turing ya en 2022: a menudo no puedes decir que estás hablando con una máquina.

Alicia
Y cuando apuntaron estos modelos a competiciones matemáticas reales, ...

Beto
... los resultados han acelerado muy deprisa.

Mira el reto IMO: la Olimpiada Internacional de Matemáticas. Son problemas de bachillerato notoriamente difíciles que necesitan verdadera creatividad.

Alicia
Sí. No es solo aplicar fórmulas.

Beto
Definitivamente no. En 2024, un sistema llamado AlphaGeometry combinado con AlphaProof logró una medalla de plata, que ya era asombroso.

Alicia
OK.

Beto
Luego en 2025, el sistema Gemini de Google DeepMind ganó oro. Resolvían problemas considerados increíblemente difíciles, superando a los mejores competidores humanos.

Alicia
Una medalla de oro en la IMO usando un LLM generalista —eso sí que es un gran salto desde vencer en Go.

Beto
Lo es. Indica que estos modelos estadísticos de alguna manera están captando estructuras lógicas profundas, no solo patrones superficiales del texto. Es alucinante, francamente.

Alicia
Y no se quedaron en problemas de bachillerato, ¿no? Hubo este proyecto Frontier Math con problemas de nivel cuatro. ¿Qué es exactamente un problema de nivel cuatro?

Beto
Bien, “nivel cuatro” significa matemáticas de investigación serias. No son ejercicios de libro de texto. Son preguntas hiper-especializadas. Piensa en resultados profundos en teoría analítica de números o propiedades oscuras de ciertas curvas elípticas. A menudo ni siquiera un matemático de un campo ligeramente distinto entendería la pregunta, y mucho menos sabría cómo responderla.

Alicia
Wow.

Beto
Y, crucialmente, estos problemas requieren una respuesta precisa, a menudo numérica con varios dígitos. Nada de adivinar, nada de opción múltiple: tienes que calcular el número exacto correcto. Reunieron a 30 matemáticos de primer nivel que básicamente se aislaron y crearon problemas que ellos mismos no podían resolver fácilmente. Problemas en la frontera del conocimiento actual.

Alicia
¿Qué pasó cuando se los dieron a los LLM?

Beto
Esta es la parte asombrosa: los LLM, simplemente por emparejar patrones a través de, esencialmente, todos sus datos de entrenamiento —internet, artículos científicos, todo— consiguieron una tasa de éxito del 10 % en esos problemas de nivel cuatro.

Alicia
Espera, ¿10 %? De cada diez problemas que eran básicamente de vanguardia, especializados, ...

Beto
... los LLM acertaron uno: dieron la respuesta numérica precisa y correcta.

Alicia
Parece increíble. Eso significa que estos modelos ya pueden resolver problemas que en algunos casos equivaldrían a una parte significativa de una tesis doctoral.

Beto
Esa es exactamente la implicación. Estamos ya en un punto donde estos LLM generalistas, entrenados sobre el amplio conocimiento humano, pueden resolver problemas específicos y técnicos que la mayoría de los matemáticos humanos ni siquiera sabrían por dónde empezar.

Alicia
Bien. Pausemos y asimilemos esto. Sacando todo en conjunto, ¿dónde estamos? La IA aún no ha resuelto uno de los grandes problemas famosos abiertos, como la hipótesis de Riemann o BSD.

Beto
Todavía no. Eso parece la próxima frontera, quizá nivel cinco.

Alicia
Pero debajo de ese titular, ya está cambiando todo el trabajo diario, ¿no? Desde escribir código verificable para las pruebas abajo hacia arriba ...

Beto
... usando Lean y mathlib, ...

Alicia
... hasta provocar nuevas ideas en el trabajo experimental de arriba hacia abajo ...

Beto
... como ese casi acierto con la prueba Birch ...

Alicia
... y ahora incluso resolviendo problemas nuevos y metamatemáticos.

Beto
Absolutamente. La conclusión parece bastante clara: el futuro no es humanos contra IA. Es humanos trabajando con IA. Estamos usando estas herramientas para hacer las demostraciones más ciertas, para potenciar nuestra intuición e incluso para resolver problemas aprovechando la totalidad del conocimiento documentado de maneras que nuestras mentes individuales no pueden.

Alicia
Realmente se siente quizá como el momento más emocionante en las matemáticas desde, no sé, los griegos antiguos.

Beto
Seguro que está entre los más destacables. El ritmo de cambio en todas estas formas de hacer matemáticas, todo a la vez, es sin precedentes.

Alicia
Así que deja esta idea para el final: hemos visto a la IA volverse increíblemente buena, y muy rápido, en matemáticas —olimpiadas, investigación especializada— básicamente aprendiendo patrones de toda la matemática que los humanos ya han creado y escrito, ...

Beto
... aprovechando el corpus existente.

Alicia
Si las máquinas se están convirtiendo en maestras en sintetizar y extender lo que ya sabemos, ¿significa eso que los descubrimientos verdaderamente revolucionarios, los grandes saltos, tienen que venir de algún otro lugar, fuera de ese conocimiento formalizado? ¿Y qué nos dice eso sobre el papel futuro, la necesidad de la intuición humana pura e inalterada, esa chispa que ve algo completamente nuevo?

Algo para pensar.