miércoles, 15 de octubre de 2025

Mundos Océanicos - Buscando a Tierra 2.0

 
 

Hoy vamos a explorar otro tema fascinante. He estado leyendo una serie de artículos científicos en el área de Astro-Física. Desde hace años la NASA ha descubierto más 6,000 exoplanetas - planetas que orbitan estrellas allá afuera, diferentes al sol. Y están investigando lo que todos queremos saber: cuáles de esos planetas se encuentran en zonas habitables y podrían tener vida.

Así que compilé varios artículos recientes sobre el tema de "Hycean worlds", que es una palabra acuñada recientemente para referirse a "mundos que tienen una atmósfera de hidrógeno y océanos". Les dejo los enlaces a estos artículos, en inglés, para aquellos que deseen investigar el tema más a fondo:

El resumen de estos artículos científicos, con su transcripción y traducción, fue hecho usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Si has estado siguiendo la búsqueda de vida más allá de la Tierra, probablemente conoces la idea habitual: Encontrar otra Tierra, ¿verdad? Una "Tierra 2.0".

Beto
Sí, el foco ha estado en planetas pequeños, rocosos y templados, algo así como nuestro hogar.

Alicia
Exacto. Pero hoy vamos a, bueno, dejar ese plano a un lado por un rato. Vamos a bucear profundamente en algo que, sinceramente, suena contraintuitivo. Mundos que no se parecen en nada a la Tierra, pero que en realidad podrían ser mejores lugares para buscar vida.

Beto
Cambio de mentalidad bastante grande, ¿no?

Hablamos de mundos "hycean".

Alicia
“Hycean” — vale, desglósalo.

Beto
Claro. Es básicamente una mezcla: hydrogen (hidrógeno) y ocean (océano). Imagínalo: un planeta completamente cubierto por un enorme, profundo y global océano. Agua líquida por todas partes.

Alicia
Vale, entendido. Mundo oceánico.

Beto
Pero, y aquí está el giro, en lugar de tener una atmósfera como la nuestra, tiene una masa enorme, casi hinchada, de atmósfera compuesta mayoritariamente por hidrógeno.

Alicia
Sí: hydrogen (hidrógeno) + ocean (océano) → hycean.

Y dijiste que no son como otros planetas que conocemos.

Beto
Exacto. Encajan en un hueco: son más grandes que los super-Tierras rocosos de los que hablamos, pero no llegan a ser Neptunos. Ocupan ese interesante término medio.

Alicia
¿De qué tamaño hablamos?

Beto
En cuanto a radio, pueden llegar hasta unas 2,5 veces el radio de la Tierra. Pero lo realmente clave para su detección es esa atmósfera de hidrógeno.

Alicia
¿Por qué hidrógeno específicamente?

Beto
Porque el hidrógeno es súper ligero, ¿no? El elemento más ligero. Así que la atmósfera no queda compactada; se hincha, como un gran globo de baja densidad alrededor del planeta.

Alicia
Ah, y por eso son buenos objetivos.

Beto
Exactamente. Esa atmósfera tan extensa es la salsa secreta observacional. Los hace objetivos fantásticos para telescopios como el JWST.

Alicia
El James Webb — usando espectroscopía de transmisión.

Beto
Ese es el método: ver la luz de la estrella filtrarse a través de esa atmósfera grande y esponjosa cuando el planeta pasa frente a su estrella.

Alicia
Y porque la atmósfera está tan extendida y es tan liviana, ...

Beto
... las huellas químicas — las pequeñas sombras que dejan las moléculas en la luz estelar — son mucho más fáciles de detectar y analizar en comparación con, por ejemplo, un mundo rocoso con una atmósfera más delgada y densa. Honestamente, probablemente sean los objetivos más prometedores que tenemos ahora mismo para caracterizar la atmósfera de un exoplaneta.

Alicia
Bien, esa es la misión de este análisis: entender cómo estos, bueno, raros mundos hycean pueden existir y permanecer habitables.

Beto
Cierto. La premisa es que hay un océano ahí abajo.

Alicia
Y tenemos que hablar del caso emblemático, K2-18 b, y del debate en curso en la comunidad: parece que realmente está ampliando nuestra definición de habitabilidad.

Beto
Así es.

Alicia
Empecemos con la estructura. Si cortáramos por la mitad a un mundo hycean, ¿qué encontraríamos por dentro? Dijiste que no es sólo una bola de gas, como un mini-Neptuno.

Beto
No, para nada. La estructura es bastante estratificada. Probablemente encontrarías un núcleo interno de hierro, luego un núcleo exterior o manto rocoso, cosas bastante estándar. Pero encima de esa roca hay una enorme capa de agua (H2O).

Alicia
¿Qué tan enorme?

Beto
Podría constituir entre, digamos, el 10% y potencialmente hasta el 90% de la masa total del planeta. 90% es una posibilidad. Y aun ese extremo inferior, 10% de agua por masa, ya es algo así como cien veces más agua que todos los océanos de la Tierra juntos.

Alicia
Vaya! Entonces: núcleo rocoso, capa de agua absolutamente masiva.

Beto
... y encima esa gran atmósfera hinchada de hidrógeno y helio.

Alicia
Esa enorme capa de agua debe cambiar por completo las reglas para la zona habitable, ¿verdad? Si el agua puede mantenerse líquida bajo esa atmósfera espesa, quizá el planeta no necesite estar en esa posición perfecta “Ricitos de Oro” respecto a su estrella.

Beto
Exactamente: la zona habitable potencial para un mundo hycean es mucho más amplia. Podría ser el doble o incluso el triple del tamaño de la zona tradicional que definimos para planetas tipo Tierra, donde el agua líquida debe existir en la superficie.

Alicia
Más lugares para posible vida. ¿Cómo clasifican estas variantes hycean?

Beto
Tendemos a dividirlas en tres tipos principales, según la temperatura y la órbita alrededor de su estrella.

Alicia
¿Cuál es el primer tipo, la versión estándar?

Beto
Los llamamos "hycean regulares". Básicamente están lo bastante calientes, orbitando en un lugar donde condiciones de agua líquida podrían existir prácticamente en todo el planeta, día y noche.

Alicia
¿Y “lo bastante calientes” cuánto es?

Beto
Las temperaturas de equilibrio — el calor promedio que reciben de la estrella — podrían llegar hasta unos 430 kelvin.

Alicia
Espera, 430 K, eso son unos 157 °C! Eso es un hervidero! ¿Cómo puede ser habitable?

Beto
Ah, pero recuerda esa atmósfera súper densa: ejerce una presión inmensa sobre el océano. Piénsalo como una olla a presión gigante. Esa presión mantiene el agua en estado líquido, o incluso en estado supercrítico, impidiendo que se evapore, aún a temperaturas que nos parecen escandalosamente altas.

Alicia
Sí, la presión cambia el punto de ebullición. Tiene sentido.

Beto
Tipo 2: mencionaste uno con un nombre atractivo ...

"Hycean oscuro". Son divertidos. Son planetas que están en acoplamiento por marea con su estrella.

Alicia
Significa que un lado siempre mira a la estrella y el otro lado siempre está en la oscuridad.

Beto
Exacto. El lado diurno permanente recibe un bombardeo estelar y es demasiado caliente para agua líquida, pero el lado nocturno permanece lo bastante frío como para ser habitable.

Alicia
La vida podría apegarse al lado oscuro, incluso si el planeta en conjunto está increíblemente caliente.

Beto
Esa es la idea. Y gracias a ese refugio nocturno, estos hycean oscuros podrían mantener condiciones habitables aun con temperaturas de equilibrio promedio muy altas (el texto original menciona “5–10 kelvin”, que parece un error tipográfico; la idea es que la temperatura promedio puede ser mucho más alta, pero el lado nocturno mantiene zonas frías y estables).

Alicia
Y el tercer tipo?

Beto
Hycean fríos. Piensa en candidatos congelados. Podrían orbitar muy lejos de su estrella, recibiendo muy poca luz, o incluso ser planetas errantes ("rogue") flotando en el espacio sin ninguna estrella.

Alicia
¿Cómo serían habitables?

Beto
Su habitabilidad potencial vendría enteramente del calor interno del planeta, generado por la desintegración radiactiva y el asentamiento gravitacional, no por la luz estelar.

Alicia
Bien: regular, oscuro y frío — eso amplía muchísimo los lugares potenciales para la vida. Pero hay una gran preocupación, especialmente para planetas alrededor de enanas M, que son muchos de estos candidatos ...

Beto
La actividad estelar. Llamaradas, eyecciones de masa coronal.

Alicia
Las enanas M pueden ser despiadadas. ¿Cómo puede ese enorme océano sobrevivir miles de millones de años de irradiación estelar intensa?

Beto
En realidad se reduce al volumen masivo de agua: actúa como un gran escudo. Los modelos sugieren que, incluso con el mínimo 10% de fracción de masa en agua que mencionamos.

Alicia
Que ya sería unas cien veces los océanos terrestres.

Beto
Exacto. La mayor parte del océano podría sobrevivir a la intensa radiación estelar y a la pérdida de atmósfera por miles de millones de años. Las llamaradas podrían erosionar las capas altas de la atmósfera con el tiempo, sí, pero el océano profundo queda protegido por su propia profundidad y la enorme presión que tiene por encima.

Alicia
La estructura parece plausible e incluso robusta. Hablemos de química. La vida necesita bloques de construcción, ¿no? Elementos bioesenciales como fósforo, azufre, hierro, etc. En la Tierra mucho de eso proviene de las rocas mediante meteorización y actividad geotérmica. Pero si el océano está sobre una capa de hielo de alta presión que separa el agua del núcleo rocoso ...

Beto
Entonces hay un problema: lo llamamos desacoplamiento geoquímico. Los ciclos geológicos que reponen nutrientes en la Tierra no funcionan fácilmente. El océano está desconectado de la roca.

Alicia
Así que los nutrientes tienen que venir de otro lado.

Beto
Correcto. No vienen desde abajo. Probablemente vienen desde arriba.

Alicia
Desde arriba, como despachados por asterioides.

Beto
Sí. Los asteroides son una posibilidad fuerte. Si un mundo hycean experimentó una fase de bombardeo temprano similar al período Hadeano de la Tierra, las estimaciones sugieren que la masa total entregada por impactos podría ser enorme, quizá miles de millones de toneladas de material que podrían aportar cantidades plausibles de muchos elementos clave: hierro, níquel, zinc e incluso fósforo al océano primitivo.

Alicia
Millones de toneladas cayendo; sucio pero efectivo para suministrar nutrientes.

Beto
Potencialmente sí. Algunos elementos como molibdeno o ciertas formas de azufre pueden ser más complicados y necesitar otras fuentes, pero los impactos podrían proporcionar una buena reserva inicial.

Alicia
¿Otras fuentes? Mencionaste la propia atmósfera.

Beto
Exacto. La segunda idea es la sedimentación atmosférica. Si la atmósfera primordial del planeta se formó con una composición similar a la de su estrella, ...

Alicia
... rica en diversos elementos ...,

Beto
... algunos metales bioesenciales podrían haber existido como condensados — pequeñas partículas de polvo — dentro de esa atmósfera primitiva. Con el tiempo, se sedimentan y “llueven” hacia el océano, añadiendo a la mezcla química.

Alicia
Bien: impactos y lluvia desde la atmósfera podrían resolver el problema de nutrientes. Ahora, ¿cómo nos dice la propia atmósfera si hay un océano abajo? ¿Qué señales químicas buscamos para distinguir un mundo hycean de un mini-Neptuno seco?

Beto
La clave absoluta que todos buscan es el amoníaco, NH3.

Alicia
¿Por qué el amoníaco?

Beto
Porque el amoníaco es increíblemente soluble en agua líquida; se disuelve muy fácilmente. Si tienes un océano masivo bajo la atmósfera, ...

Alicia
... actúa como una esponja gigante para el amoníaco.

Beto
Por eso, si observamos la atmósfera de un candidato hycean y encontramos muy poco amoníaco o no lo detectamos en absoluto (sólo límites superiores).

Alicia
Eso sugiere que el océano está ahí absorbiéndolo.

Beto
Precisamente. Lleva a lo esperado: una relación característica alta de metano (CH4) frente al amoníaco (NH3). Alto CH4 / bajo NH3 apunta con fuerza al océano profundo.

Alicia
¿Qué más? Compuestos del carbono.

Beto
Para una atmósfera hycean interactuando con ese océano, generalmente esperamos que el dióxido de carbono (CO2) sea mucho más abundante que el monóxido de carbono (CO), es decir una alta relación CO2/CO.

Alicia
Los mini-Neptunos, serían distintos.

Beto
Los mini-Neptunos, con interiores más profundos y calientes y química diferente, tienden a favorecer lo contrario — más CO que CO2. Esa relación es otro diagnóstico. Y potencialmente ciertos hidrocarburos específicos, como etano o metanol, también pueden dar pistas sobre si la atmósfera está en contacto con un océano en lugar de con una superficie sólida.

Alicia
Interesante. Ahora, si sospechamos que hay vida con base en estas condiciones, ¿qué tipo de biosignaturas buscamos? Probablemente no será algo tipo oxígeno, ¿verdad? No en una atmósfera rica en hidrógeno.

Beto
Ese es un punto crítico: las biosignaturas familiares como el oxígeno (O2) o el ozono (O3) no son fiables ni quizá posibles en estos ambientes ricos en hidrógeno; reaccionarían rápidamente o podrían ser producidas por procesos abióticos.

Alicia
Así que nada fácil como una señal de oxígeno. ¿Qué entonces?

Beto
El foco cambia a gases traza: gases producidos por procesos metabólicos secundarios, quizá productos residuales de microbios alienígenas. La esperanza es que, incluso si se producen en pequeñas cantidades, podrían acumularse lo suficiente en esa atmósfera enorme como para ser detectables, quizá en niveles de alrededor de una parte por millón en volumen.

Alicia
Gases traza, ¿como cuáles?

Beto
Algunos candidatos que discuten los científicos incluyen dimetilsulfuro (DMS), que es producido por vida oceánica en la Tierra; también disulfuro de carbono (CS2), óxido nitroso (N2O), carbonil sulfuro (OCS) y clorometano (CH3Cl). Todas son moléculas con vínculos plausibles a actividad biológica, especialmente en un ambiente acuático, y podrían ser detectables.

Alicia
Con ese panorama — potencialmente habitable, buena detectabilidad, signos químicos únicos como la baja abundancia de amoníaco — no es difícil ver por qué K2-18 b se convirtió en el ejemplo principal.

Beto
Exacto: cumplía todas las casillas inicialmente. En cuanto a tamaño, tiene alrededor de 8,6 masas terrestres y 2,6 radios terrestres, justo en ese rango hycean; orbita dentro de la zona habitable de su estrella.

Alicia
Y entonces JWST la observó. ¿Qué encontró?

Beto
Los primeros resultados fueron, bueno, bastante emocionantes. JWST confirmó detecciones robustas de metano (CH4) y dióxido de carbono (CO2).

Alicia
¿Y el amoníaco, el diagnóstico clave?

Beto
JWST no detectó amoníaco ni monóxido de carbono ni siquiera vapor de agua en la atmósfera alta: sólo límites superiores.

Alicia
Vaya! Mucho metano y CO2, pero una marcada falta de amoníaco. ¿No es eso prueba contundente del modelo hycean — el “sumidero oceánico” funcionando?

Beto
Realmente parece muy consistente con el panorama hycean. Esa combinación específica — alto CH4 y CO2, pero muy bajo NH3 y CO — encaja sorprendentemente bien con los modelos de un mundo hycean.

Alicia
Entonces, ¿por qué sigue habiendo debate? ¿Por qué no están todos convencidos de que es hycean y no un mini-Neptuno?

Beto
Bueno, los datos son consistentes con hycean. De hecho, encajan con al menos dos variantes de escenario hycean. Una es un hycean no habitado: eso requiere condiciones bastante específicas, como presiones superficiales muy altas (quizá 25–50 veces la presión al nivel del mar de la Tierra) y una superficie oceánica muy reflectante.

Alicia
Condiciones específicas, pero posibles. ¿Y el otro escenario?

Beto
La otra es un hycean habitado: en ese caso, la cantidad tan elevada de metano observada podría requerir una fuente biológica — microbios produciendo metano activamente para mantener esos niveles frente a la destrucción fotoquímica.

Alicia
¿Y el argumento del mini-Neptuno? ¿Sigue siendo viable?

Beto
Ahí es donde los modelados se vuelven duros para los escépticos. Varios grupos independientes han ejecutado modelos fotoquímicos sofisticados intentando reproducir el espectro observado de K2-18 b asumiendo que es un mini-Neptuno con una atmósfera profunda y caliente que se extiende hasta un interior sin océano, y consistentemente tienen dificultades. El gran problema es explicar la no-detección simultánea de tres especies clave: vapor de agua (H2O), monóxido de carbono (CO) y amoníaco (NH3). Los modelos encuentran muy difícil eliminar las tres al mismo tiempo en un escenario de atmósfera profunda y seca. Parece matemáticamente inconsistente con los datos actuales.

Alicia
Así que, ¿el modelo todavía apunta hacia el hycean?

Beto
Según la composición atmosférica medida por JWST, sí, el escenario hycean da una explicación mucho mejor que el mini-Neptuno.

Alicia
Y siempre está la ciencia dura: modelar estas atmósferas es increíblemente complejo y hay enormes incertidumbres.

Beto
Sí, enormes. Ahí es donde ocurre el tira y afloja científico. Las predicciones químicas que hacen estos modelos son extremadamente sensibles a la física y la química de entrada que uses.

Alicia
¿Cuán sensibles?

Beto
Tomemos las secciones eficaces fotoquímicas: son datos que describen cómo diferentes longitudes de onda de la luz estelar rompen moléculas en la atmósfera. Es fundamental. Grupos diferentes a veces usan bases de datos ligeramente distintas de estas secciones eficaces, y resulta que cambiar el conjunto de datos puede alterar la abundancia predicha de una molécula por un factor de hasta mil en una simulación hycean.

Alicia
El orden de magnitud — mil veces — sólo por cambiar la “regla química”.

Beto
Y para el caso mini-Neptuno las diferencias pueden ser aún más extremas, incluso enormes (el texto original sugiere factores astronómicos, ~109).

Alicia
Bueno, eso muestra que apenas nos estamos dando cuenta sobre cómo funciona la química en estas atmósferas alienígenas.

Beto
Eso deja claro que aún estamos afinando los mismos fundamentos: mediciones de laboratorio y cálculos teóricos que sustentan los modelos.

Y se complica más: la estrella misma. K2-18 es una enana M, y no hemos medido directamente su espectro ultravioleta con mucho detalle. La luz UV es el motor principal que impulsa toda esa fotoquímica: rompe moléculas y crea otras nuevas.

Alicia
Así que hay que estimar cómo es su UV.

Beto
Debemos usar “proxies” de otras enanas M similares (por ejemplo GJ 176 o GJ 436), pero cada estrella es un poco distinta. Elegir un proxy distinto puede cambiar significativamente las predicciones del modelo sobre la atmósfera del planeta, especialmente para químicos sensibles al UV.

Alicia
Datos difíciles, entradas inciertas: tiene sentido que haya cautela, aunque el escenario hycean encaje mejor ahora mismo.

Cambiemos de perspectiva hacia la biología. Si la vida surgiera en un mundo hycean, ¿cómo afectarían esas condiciones la velocidad de su evolución? ¿Hay un vínculo entre el entorno del planeta y la rapidez de la vida?

Beto
Hay investigaciones nuevas e intrigantes que sugieren precisamente eso, centradas en la temperatura. La idea básica es que, al menos para vida unicelular simple, la tasa de evolución está ligada a la tasa metabólica del organismo.

Alicia
Metabolismo: qué tan rápido procesa energía, crece y se reproduce.

Beto
Correcto. Y el metabolismo depende en gran medida de la temperatura — piensa en animales de sangre fría en la Tierra que se ralentizan con el frío.

Alicia
La lógica simple: temperaturas más cálidas → metabolismo más rápido → evolución potencialmente más rápida.

Beto
Precisamente esa es la hipótesis. Los modelos sugieren que incluso una diferencia relativamente pequeña, digamos un aumento de 10 kelvin en la temperatura media del océano respecto a lo que la Tierra tuvo, podría doblar la velocidad de aparición de innovaciones biológicas.

Alicia
Doble de rápido. ¿Qué significaría en la práctica?

Beto
Podría significar que, en un hycean más cálido, todos los grandes grupos de vida unicelular podrían emerger mucho antes, quizá dentro del primer ~1.2 miles de millones de años tras el origen de la vida.

Alicia
Eso tiene enormes implicaciones. K2-18 b, por ejemplo, orbita una estrella relativamente joven: el sistema se estima en una edad de ~2.4 Gyr (mil millones de años).

Beto
Exacto. Si K2-18 b es un hycean cálido, podría haber tenido tiempo — con una tasa evolutiva acelerada — de desarrollar microbios complejos que produzcan esos gases traza, como el DMS. Cambia radicalmente nuestras expectativas para planetas jóvenes:

Alicia
No tendríamos que esperar 4.5 Gyr como en la Tierra.

Beto
Por otro lado, el reverso también es cierto: si un hycean es más frío ...

Alicia
... el metabolismo sería más lento y la evolución podría ir con retraso.

Beto
Correcto. Una disminución de 10 kelvin podría ralentizar la emergencia de grupos clave (p. ej., eucariotas) por miles de millones de años: la vida podría existir pero aún ser demasiado simple para generar gases detectables.

Alicia
Conclusión práctica: para detectar biosignaturas es mejor apuntar a los más cálidos.

Beto
Para detectar biosignaturas, sí. Mundos hycean más cálidos parecen mostrar más fuertes, diversas, y tempranas señales de vida en sus atmósferas, simplemente porque su evolución podría ocurrir más rápidamente.

Alicia
Ha sido fascinante. De verdad parece que los mundos hycean han abierto una nueva avenida en la búsqueda de vida, empujándonos más allá de buscar solo el gemelo de la Tierra.

Beto
Creo que son transformadores. Para recapitular los puntos clave rápidamente: los mundos hycean son objetivos emocionantes porque, primero, son más fáciles de observar — su atmósfera de hidrógeno hinchada le da al JWST una señal mucho mejor.

Alicia
Correcto. Detectabilidad es clave.

Beto
Segundo, amplían la zona habitable potencial, así que más planetas podrían tener océanos líquidos.

Alicia
Más “boletos” en la lotería de la búsqueda de vida.

Beto
Exactamente. Y tercero, ofrecen pistas químicas únicas, especialmente la esperada falta de amoníaco por el sumidero oceánico, lo que ayuda a distinguirlos de mini-Neptunos potencialmente estériles.

Alicia
Y los datos que tenemos para K2-18 b, a pesar de todas las complejidades y las incertidumbres en los modelos, ...

Beto
Actualmente se inclinan bastante hacia el escenario hycean. Explican mejor las observaciones que los modelos de mini-Neptuno y plantean la posibilidad tentadora de condiciones oceánicas muy específicas, o incluso de una biosfera que bombee metano a la atmósfera.

Alicia
Bien: mundos hycean prometedores, K2-18 b parece un buen candidato. ¿Cuál es el gran desafío final al que hay que prestar atención?

Beto
Creo que el comodín es la actividad estelar. Seguimos volviendo a ello. K2-18 orbita una enana M, y esas estrellas son notoriamente activas, aunque K2-18 parezca relativamente tranquila ahora.

Alicia
¿Que las llamaradas podrían cambiar las cosas?

Beto
Absolutamente. Ese océano masivo ofrece buena protección para la vida acuática, sí, pero la atmósfera que está por encima interactúa constantemente con la radiación y el viento de partículas de la estrella. Los ciclos de actividad estelar podrían alterar significativamente la química atmosférica con el tiempo.

Alicia
Así que las señales que vemos hoy podrían no ser estables.

Beto
Es posible que así sea. K2-18 fue observado por JWST durante un supuesto mínimo en su ciclo de actividad, pero los modelos sugieren que la estrella podría dirigirse a un nuevo pico de actividad alrededor de 2025–2026.

Alicia
En la esquina está la historia.

Beto
La gran pregunta es: ¿cambiará ese próximo estallido la atmósfera de K2-18 b o su química — destruyendo moléculas, creando otras, o enmascarando/imitando firmas biosignatures? Necesitamos monitoreo a largo plazo, no solo instantáneas, para entender cómo se comportan estas atmósferas potencialmente habitables bajo la influencia de sus estrellas activas. Ese es el siguiente frente.

lunes, 13 de octubre de 2025

Razonamiento Recursivo con Redes Diminutas

 
 

Hoy les traigo el resumen de un artículo científico reciente que resalta algo novedoso en arquitectura de Modelos de Razonamiento de Inteligencia Artificial. Los investigadores de Samsung han logrado diseñar un modelo pequeño que razona de manera profunda usando recursión y dos capas de redes neuronales jerárquicas.

Enlace al artículo original, en inglés:
"Less is More: Recursive Reasoning with Tiny Networks", publicado el 6 de Octubre de 2025, por Alexia Jolicoeur-Martineau, de Samsung Montreal.

En el resumen también incluimos algunos enlaces, para aquellos que quieran profundizar en el tema.

El resumen, la transcripción y traducción de este artículo fueron hechos usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Bueno, durante buena parte de la última década, la creencia central que ha impulsado la investigación en IA ha sido realmente la ley de escalado, ya sabes: dicho sencillamente, más grande es mejor.

Beto
Más parámetros, modelos más anchos.

Alicia
Exacto, pilas más profundas. Se supone que todo eso conduce a un mejor rendimiento, especialmente en esas tareas realmente difíciles de razonamiento de alto nivel.

Beto
Y esa ley ciertamente parece mantenerse en lo que es conocimiento general y fluidez del lenguaje, sin duda.

Pero hoy profundizamos en algunas fuentes que le lanzan una curva realmente fuerte a esa filosofía de “más es mejor”, un desafío poderoso y contraintuitivo.

Alicia
De verdad que lo hacen. Estamos hablando de un avance bastante importante centrado en esta nueva arquitectura llamada el Modelo de Recursión Diminuto o TRM (Tiny Recursion Model).

Beto
¿Preocupante, verdad?

Alicia
Y lo que sorprende es que este modelo diminuto no solo compite, sino que en realidad está superando a esos enormes LLMs e incluso a su propio predecesor más complejo en algunos rompecabezas serios de lógica y espacio.

Beto
Sí. Nuestra misión hoy es desentrañar toda esta idea de “menos es más”. Las fuentes que tenemos detallan cómo TRM logra, bueno, una generalización y una precisión superiores con una arquitectura ridículamente simplificada.

Alicia
“Ridículamente simplificada” es correcto.

Beto
En un conteo de parámetros que a menudo baja hasta, ¿qué?, siete millones; compáralo con los modelos de los que solemos hablar, cientos de miles de millones e incluso billones de parámetros. Es otro mundo.

Alicia
Y necesitamos con urgencia este tipo de eficiencia. Porque, enfrentémoslo, a pesar de sus increíbles habilidades de lenguaje, los LLMs luchan fundamentalmente con el razonamiento duro.

Beto
Lo hacen.

Alicia
Piénsalo: cuando un LLM genera una solución, digamos para un problema matemático complejo, lo hace auto-regresivamente, ¿verdad? Un token tras otro.

Beto
Sí, de forma secuencial. Y esa generación secuencial lo hace muy propenso a un efecto dominó: un pequeño error al principio, una vuelta equivocada, ...

Alicia
... y toda la solución de varios pasos se viene abajo.

Beto
Exacto. No pueden retroceder y corregirse con facilidad.

Alicia
Correcto. Y por eso el campo recurre a estos trucos costosos y a menudo complejos, cosas como la cadena de pensamiento (CoT, Chain of Thought).

Beto
Ajá. Donde el modelo se habla a sí mismo a través de los pasos esperando que sean correctos.

Alicia
O el cómputo en tiempo de prueba (Test-Time Compute, TTC), donde básicamente ejecutan el modelo una y otra vez y esperan que la respuesta más frecuente sea la correcta. Suena un poco a adivinanza.

Beto
Es lento. Es caro. Y en los benchmarks realmente difíciles, estas soluciones todavía no bastan. Hablamos de conjuntos de rompecabezas como "Sudoku Extreme", y "Maze Hard".


Sudoku-Extreme es un dataset nuevo que consiste en 3.8 millones de problemas de Sudoku difíciles de resolver, que requieren planificación a largo plazo.

Y Maze-Hard es un laberinto de 30x30 cuadros donde el objetivo es encontrar el camino óptimo.

Ejemplos:

Fuente: Hierarchical Reasoning Model, Guan Wang y colegas, publicado en Agosto 4 de 2025.


Alicia
Y esos rompecabezas ARC-AGI de razonamiento abstracto realmente difíciles.


ARC-AGI-2 consiste en un dataset de tareas de entrenamiento y evaluación, que usa rejillas con puntos de colores, con reglas de razonamiento y composición, fáciles para resolver por un ser humano, que no se pueden memorizar.

Fuente: "ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems", por François Chollet y colegas, publicado en Mayo 17 de 2025.


Beto
Sí, son asesinos. Las fuentes son claras. Incluso los LLMs de primer nivel no han alcanzado la precisión humana ahí todavía. Ni cerca, a veces.

Alicia
Solo para poner un número a esa tasa de fallo, las fuentes mencionaron a Gemini 2.5 Pro, un modelo supuestamente de última generación. Solo consiguió, ¿qué?, 4.9% de precisión en la prueba del nuevo benchmark ARC-AGI-2. Incluso usando mucho cómputo en tiempo de prueba.

Beto
4.9%.

Alicia
Eso es una tasa de fallo del 95%. Eso te dice todo lo que necesitas saber sobre por qué necesitamos un motor de razonamiento mejor y más fiable.

Beto
Precisamente.

Para entender cómo TRM logró esto, en realidad tenemos que mirar el modelo que vino justo antes: el Modelo de Razonamiento Jerárquico, o HRM (Hierarchical Reasoning Model). Este modelo fue en sí un gran avance, aunque seguía operando con un tamaño relativamente pequeño, 27 millones de parámetros en total.

Alicia
Todavía diminuto comparado con los gigantes de hoy, pero bueno.

Beto
HRM fue novedoso porque se centró en la profundidad mediante la recursión, no solo en la fuerza bruta.

Alicia
Exacto. Se apoyó en dos conceptos realmente clave. El primero fue la supervisión profunda.

Beto
Supervisión profunda. ¿Qué es eso?

Alicia
Esencialmente le da al modelo una especie de memoria perfecta y verificable de sus propios estados internos previos, sus propios “pensamientos”. En lugar de simplemente ejecutar hacia adelante una vez, el modelo reutiliza las características latentes, los datos internos del paso de procesamiento anterior, y los usa como punto de partida para el siguiente.

Beto
Ah, así que construye directamente sobre su trabajo anterior.

Alicia
Correcto. Le permite al modelo razonar recursivamente a lo largo de muchos pasos —probaron hasta 16— sin los enormes costos de memoria de construir físicamente una red de 16 capas.

Beto
Darle un bloc de notas interno que debe revisar antes de empezar el siguiente cálculo, ¿no?

Alicia
Es una gran analogía. Profundidad efectiva lograda recursivamente, no físicamente.

Beto
Tiene sentido. ¿Y el segundo concepto?

Alicia
El segundo fue el razonamiento jerárquico recursivo. Y aquí es donde HRM empezó a ponerse, bueno, un poco complicado.

Beto
Usaba dos redes pequeñas separadas, de dos “niveles” o “bandas”. Estaban diseñadas para procesar información a diferentes “frecuencias conceptuales”, como una red de detalle de alta frecuencia y una red de contexto de baja frecuencia.

Alicia
Bien. ¿Dos redes? ¿Por qué?

Beto
Incluso fueron un paso más allá e intentaron justificar esta estructura con argumentos biológicos bastante complejos que sugerían que imitaba cómo los cerebros podrían manejar entradas sensoriales rápidas frente a una comprensión contextual más lenta.

Alicia
IA inspirada en la biología; ya hemos visto eso antes.

Pero espera, dijiste “complicado”. Entonces construyeron este sistema complejo de dos redes. ¿Cuál fue el problema? ¿Cuál fue el defecto?

Beto
El fallo estuvo realmente en la complejidad teórica y las suposiciones que tuvieron que hacer. Para lograr que esas dos redes funcionaran juntas de forma eficiente, HRM se apoyó fuertemente en matemáticas avanzadas, específicamente en algo llamado el teorema de la función implícita (Implicit Function Theorem, IFT).

Alicia
IFT. Vale. Vago recuerdo de cálculo, tal vez. ¿Qué asume aquí?

Beto
Básicamente asumía que este proceso recursivo paso tras paso eventualmente se estabilizaría, convergiendo a un punto fijo estable.

Alicia
¿Y por qué necesitaban esa suposición? ¿Qué les daba?

Beto
Porque si asumían que convergía, podían usar un atajo masivo durante el entrenamiento llamado la aproximación del gradiente de un paso (One-step Gradient Approximation).

Alicia
Un atajo. Vale.

Beto
Significaba que, cuando calculaban cómo actualizar el modelo, solo tenían que retropropagar la señal de error a través de los dos últimos pasos de la recursión en vez de quizá seis pasos totales en una pasada hacia adelante.

Alicia
Ah. Así que en lugar de calcular el error a través de los seis pasos, solo hacían los dos últimos, lo que ahorra muchísima memoria y cómputo, me imagino.

Beto
Una cantidad enorme.

Alicia
Pero dependía de que la suposición del punto fijo fuera cierta. Cambiaron el rigor teórico por ahorros prácticos, construyendo sobre una base potencialmente inestable.

Beto
Precisamente. Y las fuentes señalan que análisis independientes sugirieron que ese punto fijo rara vez, si es que alguna vez, se alcanzaba en la práctica.

Alicia
Oh. Así que toda la justificación teórica estaba tambaleante.

Beto
Muy tambaleante. Y, de forma algo irónica, estudios posteriores encontraron que la parte realmente complicada —la estructura recursiva inspirada biológicamente de dos frecuencias— ni siquiera era la razón principal de que funcionara bien.

Alicia
¿En serio?

Beto
Sí. El éxito vino casi enteramente del otro concepto: la supervisión profunda. Eso de la memoria autorreferencial que comentamos.

Alicia
Vaya. Así que toda esa complejidad extra —las dos redes, la justificación biológica— era básicamente lastre. Una lección enorme ahí.

Beto
Absolutamente. Pero la complejidad no se quedó solo en la teoría; también se filtró en el coste práctico de entrenamiento, ¿verdad?

Alicia
Lo hizo. HRM usó algo llamado tiempo computacional adaptativo (Adaptive Computational Time, ACT) para intentar ser más rápido.

Beto
ACT. Significa que el modelo podía aprender a detenerse temprano.

Alicia
Exacto. Aprendía a parar la recursión si pensaba que ya tenía la respuesta, típicamente gastando menos de dos pasos en promedio en lugar de ir los 16 pasos supervisados completos. Suena bien para la velocidad. Pero la forma en que implementaron ACT requirió un objetivo complejo de aprendizaje por refuerzo tipo Q-learning para decidir si detenerse o continuar.

Beto
Q-learning, ¿vale? Aprendizaje por refuerzo.

Alicia
Sí. Y ese cálculo de Q-learning necesitaba una pasada hacia adelante completamente separada por la red solo para averiguar el valor de "continuar o parar".

Beto
Espera, ¿dos pasadas hacia adelante por cada actualización de entrenamiento?

Alicia
Sí. Una pasada para la predicción real y una segunda pasada solo para la decisión de ACT. Efectivamente duplicaba el coste de cómputo por paso de optimización.

Beto
Duele! Así que HRM era teóricamente frágil y caro de entrenar. No ideal.

Alicia
Para nada.

Y esto prepara el terreno perfectamente para el Modelo de Recursión Diminuto, TRM. Porque TRM básicamente mira a HRM, ve esos fallos y consigue mejores resultados simplificando de forma implacable.

Beto
Aplicando la navaja de Occam.

Alicia
Totalmente. En vez de andarse con muletas teóricas y analogías biológicas, TRM es la prueba de que a veces la simplicidad es la jugada ganadora.

Beto
Entonces, ¿cuál fue la primera gran simplificación?

Alicia
La red neuronal misma. TRM elimina completamente las dos redes de cuatro capas de HRM y las reemplaza con una única red de dos capas.

Beto
¿Dos capas? Vaya, eso es una reducción radical.

Alicia
Lo es. Reduce el recuento de parámetros de los 27 millones de HRM hasta apenas 7 millones, o incluso 5 millones en algunas versiones.

Beto
Espera, menos capas. ¿No perjudicó el rendimiento? Es decir, eso va en contra de todo lo que oímos sobre las leyes de escalado, la necesidad de profundidad.

Alicia
Ese es el núcleo de la idea “menos es más” aquí, y es muy importante. Porque los conjuntos de datos para estos rompecabezas realmente difíciles, como Sudoku-Extreme, solo tienen 1.000 ejemplos de entrenamiento. Son minúsculos. Con conjuntos de datos tan pequeños, si intentas entrenar una red grande y profunda, el modelo simplemente se sobreajusta. Memoriza las respuestas en lugar de aprender las reglas subyacentes.

Beto
Ya veo. Demasiada capacidad para la cantidad de datos.

Alicia
Exacto. Al usar solo dos capas, TRM restringe esa capacidad lo suficiente para forzar la generalización. Dos capas resultaron ser el punto óptimo; con más, el rendimiento bajaba por sobreajuste.

Beto
Es un resultado de escalado fascinante. No se trata solo de profundidad, sino de profundidad efectiva mediante recursión, equilibrada con el ancho físico justo para no morir de inanición de datos. Increíble.

Alicia
Totalmente.

Bien. La simplificación número dos: limpiaron cómo se pensaba sobre las características internas, lo latente.

Beto
Se deshicieron del argot confuso.

Alicia
Básicamente. Eliminaron la complicada etiqueta jerárquica basada en frecuencias. ¿Recuerdas lo de alta y baja frecuencia?

Beto
Sí, lo de alta y baja frecuencia.

Alicia
En TRM, lo antiguo que era “answer” ahora es simplemente la respuesta predicha; lo llamaremos "y". Y lo antiguo que era “scratch” es simplemente la característica latente de razonamiento, el proceso interno de pensamiento; lo llamaremos "z". Así de simple.

Beto
Entonces "y" para la respuesta, "z" para el razonamiento. Mucho más claro.

Alicia
Y esta clarificación conduce directamente al momento “ajá” sobre por qué realmente necesitas dos características, pero probablemente no más.

Beto
Bueno. ¿Por qué dos?

Alicia
Porque "y" es como la hoja de respuestas, y "z" es como el bloc de notas donde sucede el trabajo.

Beto
Tiene sentido.

Alicia
Si quitas "z", el bloc de notas, el modelo no tiene memoria de cómo llegó a la respuesta; solo tiene la respuesta en bruto y se olvida de los pasos, cometiendo más errores.

Beto
Bien. Y si quitas la hoja de respuestas, ...

Alicia
... entonces el modelo se ve forzado a intentar meter la solución final dentro del bloc de notas — tiene que almacenar la respuesta dentro de los pasos de razonamiento — lo que también empeora la precisión.

Beto
Entiendo. Así que necesitas roles distintos: un sitio para mantener la solución y otro para mantener la cadena de pensamiento. Simple y elegante.

Alicia
Exacto.

Ahora, la simplificación número tres quizá sea el mayor cambio de juego de toda la historia. TRM elimina por completo esa endeble aproximación teórica del IFT, la aproximación de gradiente de un paso que mencionamos antes.

Beto
Ese atajo teórico. Lo tiran. Simplemente lo quitan.

Alicia
Evitan todo el problema del punto fijo al no asumirlo. En lugar de confiar en ese atajo teórico que quizá sea falso, TRM retropropaga el error a través de todo el proceso recursivo. Todos los 16 pasos fijos en la pasada hacia adelante. Sin aproximaciones. Simplemente calculan el gradiente completo.

Beto
Vaya! OK. Así que abrazan el cómputo en vez de esconderse detrás de una teoría potencialmente defectuosa sobre ese cómputo.

Alicia
Me gusta eso. Y la mejora en rendimiento solo por este cambio fue asombrosa. La fuente señala que en Sudoku-Extreme, simplemente descartando esa aproximación y usando retropropagación completa, su precisión en test subió de 56.5% —que estaba bien pero no era gran cosa— a un increíble 87.4%.

Beto
Whoa. De mediados de los cincuenta a casi el 90% solo calculando bien el gradiente.

Alicia
Sí. Ese único cambio desbloqueó ganancias masivas. Simplemente, haz las matemáticas correctamente.

Beto
Increíble.

Beto
Y la simplificación final es el coste de entrenamiento.

Alicia
Obviamente. Simplificaron ACT, el tiempo computacional adaptativo: se deshicieron del objetivo complejo de Q-learning.

Beto
Eso significa que eliminaron esa segunda pasada hacia adelante tan cara.

Alicia
Exacto. Ya no más duplicar el cómputo por paso. Encontraron que podían simplemente aprender una probabilidad de detenerse usando la entropía cruzada binaria estándar, mucho más sencilla y barata.

Beto
¿Y esa simplificación perjudicó el rendimiento? Normalmente lo simple significa menos capaz.

Alicia
Aquí no. Mostró una precisión casi idéntica: 86.1% frente al 87.4% con la retropropagación completa, mientras hacía el entrenamiento significativamente más rápido y barato.

Beto
Así se realiza la eficiencia sin pérdida de rendimiento, ese el sueño.

Alicia
Eso es realmente.

Bien, miremos la tarjeta final. ¿Qué consiguió esta combinación —simplificación implacable, foco en la supervisión profunda, recursión honesta y completa— en términos de resultados?

Beto
Las comparaciones son bastante contundentes, especialmente dado el tamaño relativo entre TRM y los grandes LLMs. Es casi embarazoso para la filosofía estándar de escalado.

Alicia
El benchmark más duro, ARC-AGI-2.

Cuéntanos sobre el resultado.

Beto
TRM con self-attention — y recuerda, esto tiene solo 7 millones de parámetros — consigue 7.8% de precisión. 7.8. Nosotros mencionamos que Gemini 2.5 Pro solo obtiene 4.9%.

Alicia
Mejor precisión con muchísimos menos parámetros. Muy por debajo en parámetros.

Beto
Con mucho menos. Y si comparas los 7 millones de parámetros de TRM con algo como, digamos, Grok-4-thinking, que supuestamente tiene 1.7 billones de parámetros, TRM opera con menos del 0.01% de los parámetros, menos de 1/110.000, y obtiene mejores resultados de razonamiento en ese benchmark.

Alicia
Eso es una locura. La eficiencia en parámetros está fuera de serie.

Beto
Completamente.

Y los resultados en los rompecabezas dedicados, Sudoku y Maze, son igual de dramáticos.

Alicia
Sí.

Beto
En Sudoku Extreme, la versión aún más pequeña de 5 millones de parámetros de TRM, la que no tiene self-attention, sube a ese 87.4% de precisión en test. Recuerda que HRM, el predecesor, estaba estancado en 55.0%.

Alicia
Un salto de "apenas aprobando", a "casi perfecto".

Beto
Y en Maze Hard, el TRM de 7 millones con atención consigue 85.3%, nuevamente muy por encima del HRM con 74.5%.

Alicia
Bien, esa diferencia es interesante. ¿Por qué atención para Maze pero no para Sudoku?

Beto
Eso conecta con la visión más amplia: la elección arquitectónica debe ajustarse al problema. La fuente destacó esto. La efectividad de TRM depende realmente de la estructura de la tarea.

Alicia
Así que la variante MLP más simple, sin self-attention, funciona mejor para contextos fijos y pequeños como una cuadrícula de Sudoku 9x9.

Beto
Exacto. Las relaciones entre celdas son bastante locales y predecibles. Pero para la gran complejidad y la naturaleza variable de las tareas ARC-AGI, o para cuadrículas más grandes como laberintos 30x30, ...

Alicia
... necesitas ese mecanismo de self-attention para que el modelo encuentre dinámicamente las dependencias a larga distancia importantes.

Beto
Precisamente. Muestra que puedes obtener resultados de vanguardia combinando estratégicamente componentes mínimos pero potentes — solo dos capas, una característica de memoria dedicada, quizá self-attention si hace falta — en vez de escalarlo todo sin discriminación.

Alicia
Bien, cerremos esto. ¿Qué significa todo esto para ti, el oyente?

Creo que la idea principal aquí es bastante profunda. El futuro del razonamiento fiable y de alto nivel en IA puede no estar en construir modelos cada vez más anchos con trillones más de parámetros. Podría estar en construir modelos recursivos más inteligentes que realmente adopten la profundidad efectiva.

Beto
Profundidad a través de la recursión, no solo capas.

Alicia
Exacto. Los elementos cruciales que TRM clavó parecen ser la supervisión profunda — esa memoria interna — y la recursión transparente y completa, calculando todo el proceso honestamente. Demuestra que una profundidad efectiva extrema, como las ~42 capas efectivas que consiguieron con solo dos capas físicas en TRM, puede ser mucho más potente que la mera amplitud masiva, especialmente cuando los datos de entrenamiento son limitados, que a menudo lo son para razonamiento complejo.

Beto
Lo cual plantea una gran pregunta sobre lo que viene después, ¿no?

Alicia
Sí que la plantea.

Beto
Ahora mismo, estos modelos de razonamiento recursivo, TRM y HRM, son métodos de aprendizaje supervisado, ¿cierto? Están entrenados para encontrar una única respuesta determinista.

Alicia
Encuentra la solución del Sudoku; encuentra el camino por el laberinto.

Beto
Correcto. Pero muchos problemas del mundo real, quizá la mayoría de los interesantes, no tienen una única respuesta correcta. Pueden tener múltiples soluciones válidas o requerir salidas abiertas y creativas, ...

Alicia
... como generar diferentes estrategias o escribir distintas explicaciones.

Beto
Exacto. El siguiente paso importante para los investigadores es averiguar cómo tomar esta arquitectura recursiva increíblemente eficiente y poderosa que TRM ha pionero y extenderla con éxito a tareas generativas.

¿Cómo lograr que ese razonamiento recursivo riguroso produzca salidas diversas, creativas, pero aún lógicamente sólidas? Esa parece ser la próxima frontera.

Aprendizaje por Refuerzo en Gran Modelos de Razonamiento

 
 

Hoy les traigo un resumen de un artículo muy importante que explica cómo se están haciendo los modelos de razonamiento en Inteligencia Artificial (IA), usando Aprendizaje por Refuerzo.

Enlace al artículo original, en inglés, para aquellas personas que quieran profundizar en este tema:
A Survey of Reinforcement Learning for Large Reasoning Models, publicado en Octubre 10 de 2025, por Kaiyan Zhang y colegas.

El resumen, su transcripción y traducción, fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en forma de un diálogo entre dos personajes sintéticos, que llamaremos Alicia y Beto.


Resumen

Alicia
Bienvenido de nuevo a la inmersión profunda. Entonces, si has estado siguiendo la IA últimamente, la gran historia siempre han sido los grandes modelos de lenguaje, ¿no? LLMs ("Large Language Models").

Beto
Exacto. Sistemas entrenados para predecir la siguiente palabra, enfocados mayormente en, ya sabes, sonar humano y ser útiles.

Alicia
Exacto. Alineamiento conversacional. Pero hoy vamos a profundizar en algo distinto. La fuente apunta a un cambio realmente fundamental. Estamos viendo el auge del gran modelo de razonamiento, el LRM ("Large Reasoning Model").

Beto
Sí, y es un paso enorme. Esto no se trata solo de hacerlos mejores escritores o chatbots más educados. Se trata de competencia pura.

Alicia
Entonces, ¿qué es lo que hace que un LRM sea un LRM?

Beto
Básicamente definimos LRMs como LLMs que han sido específicamente reingenierizados usando aprendizaje por refuerzo (RL, "Reinforcement Learning") para manejar tareas lógicas complejas. Cosas donde hay una respuesta correcta.

Alicia
Como problemas de matemáticas o programación.

Beto
Exacto. Matemática competitiva, desafíos de codificación complejos, razonamiento en múltiples pasos, cosas que necesitan planificación real, quizá algo de reflexión e incluso autocorrección integrada.

Alicia
Muy bien, así que nuestra misión hoy es revisar las fuentes que están trazando esta nueva forma de entrenamiento. Básicamente estamos moviendo los postes de la portería. Ya no se trata de sonar bien.

Beto
Se trata de ser bueno razonando. Intentamos incentivar directamente el razonamiento objetivo en sí. Y el método clave del que todos hablan es el aprendizaje por refuerzo con recompensas verificables (RLVR = "Reinforcement Learning with Verifiable Rewards").

Alicia
RLVR, claro. Y este campo se ha disparado recientemente, impulsado por modelos como DeepSeek R1.

Beto
Exacto. Está avanzando increíblemente rápido. Y las fuentes apuntan de forma consistente a que RL ("Reinforcement Learning", Aprendizaje por Refuerzo) ya no es solo para fine-tuning (perfeccionamiento, refinamiento).

Alicia
Parece más fundamental ahora, como la clave para escalar capacidades hacia, bueno, hacia AGI ("Artificial General Intelligence" = Inteligencia General Artificial) o incluso ASI ("Artificial Super-Intelligence" = Super Inteligencia Artificial).

Beto
Esa parece ser la trayectoria, sí. Aprender a razonar de forma eficaz y escalable parece el siguiente paso crítico.

Alicia
Muy bien, desempacemos esa diferencia entonces, porque RL ("Reinforcement Learning", Aprendizaje por Refuerzo) no es nuevo, ¿cierto? Ya hablamos de RLHF antes ("Reinforcement Learning through Human Feedback", Aprendizaje por Refuerzo con Retroalimentación Humana) y también de DPO ("Direct Preference Optimization": Optimización por Preferencia Directa). Esas eran mayormente sobre alineamiento, ¿no? Hacer que el modelo dé respuestas que los humanos prefieran.

Beto
Exactamente. RLHF, DPO, todo eso iba sobre preferencia subjetiva. ¿Le gusta a un humano esta respuesta?

RLVR lo invierte. Abandona las puntuaciones subjetivas. Pasa a retroalimentación objetiva basada en reglas. Todo el objetivo cambia a mejorar la capacidad central del modelo para resolver problemas. No es, "¿se siente bien esto?" sino, "¿es esto demostrablemente correcto?".

Alicia
Entendido. Y las fuentes mencionan esto. La “ley del verificador” suena un poco pomposa.

Beto
Lo es, pero la idea en sí es bastante sencilla. La ley del verificador básicamente dice que lo fácil que es entrenar a una IA para una tarea está directamente relacionado con lo fácil que es comprobar si la IA hizo la tarea correctamente.

Alicia
OK, si puedes automatizar la verificación, ...

Beto
... puedes generar básicamente señales de entrenamiento perfectas e infinitas sin necesitar humanos en el bucle constantemente, lo cual es carísimo. Verificabilidad equivale a escalabilidad, esencialmente.

Alicia
Tiene sentido. Señal limpia, aprendizaje más rápido, y los ejemplos ayudan mucho. Para matemáticas, es sólo si la respuesta final es correcta, comprobado automáticamente.

Beto
Sí. Para programación, ¿compila? ¿pasan los tests unitarios? Esa es tu señal de recompensa.

Alicia
¿Hay algún truco para hacer que eso funcione a escala?

Beto
Bueno, un detalle técnico clave es la consistencia. Los modelos tienen que sacar su respuesta final en un formato muy específico y predecible, como poner el número en una etiqueta de “caja”.

Alicia
Así el verificador automático no se confunde.

Beto
Exacto. Necesita poder parsear millones de salidas de forma fiable.

Alicia
Y hemos visto grandes avances que prueban que esto funciona. Los modelos o1 de OpenAI, por ejemplo.

Beto
Sí, la serie o1 fue fascinante. Mostró que el rendimiento escalaba no sólo con más cómputo de entrenamiento RL, como cabría esperar, sino también con cómputo en tiempo de prueba. Básicamente, cuánto tiempo pasa el modelo “pensando” durante la inferencia.

Alicia
¿Es decir que los mejores modelos realmente se benefician más si se les deja más tiempo para responder?

Beto
Ese fue el hallazgo. Más tiempo les permite generar, evaluar, quizá revisar sus pasos de razonamiento internos. Lo vincula al rendimiento directamente con, bueno, el esfuerzo cognitivo si quieres verlo así.

Alicia
Interesante. Y luego estuvo DeepSeek R1. Ese rompió bastante el viejo manual.

Beto
Totalmente. Adoptó un enfoque “cero SFT” (sin "Supervised Fine-Tuning", sin Perfeccionamiento Supervisado). DeepSeek demostró que usando un algoritmo RL específico, GRPO (Group Relative Policy Optimization), a una escala masiva, podían enseñar estas habilidades de razonamiento complejo directamente a un modelo base.

Alicia
Un modelo base. Así que sin fine-tuning supervisado primero.

Beto
Ninguno. Se saltaron la etapa SFT por completo, lo que sugiere, quizá, que el RL puede encontrar caminos de razonamiento que los ejemplos humanos podrían bloquear o desalentar inadvertidamente.

Alicia
De acuerdo, esto suena increíble para matemáticas y código donde hay una respuesta clara. Pero seamos honestos, la mayoría de las cosas no son así. El diseño de recompensas debe volverse mucho más complicado.

Beto
Absolutamente. Fuera de esos dominios limpios, se pone desordenado rápidamente, lo que lleva a este gran intercambio que discuten las fuentes: recompensas de resultado versus recompensas de proceso.

Alicia
Correcto. Las recompensas de resultado, como las verificables, son escalables y eficientes. Nos gustan. ¿Cuál es la trampa?

Beto
El riesgo es lo que algunos investigadores llaman “respuesta correcta primero, alucinar después”. El modelo se vuelve muy bueno en escupir la respuesta final correcta, quizá en el formato requerido, pero el razonamiento que lo llevó allí puede ser endeble, no fiel. Puede haberse inventado la explicación a posteriori sólo para justificar una respuesta que ya sabía que era correcta.

Alicia
Ajá. Aprende a engañar al sistema: consigue el resultado correcto, pero el trabajo interno es basura. No es lo que quieres para confiar en la IA.

Beto
Definitivamente no.

Si quieres razonamiento fiel, te inclinas hacia las recompensas de proceso.

Alicia
¿Y cómo funcionan esas?

Beto
Proporcionan retroalimentación en cada paso del proceso de razonamiento. Señal mucho más densa, a menudo usando algo llamado Modelo de Recompensa de Proceso (PRM, "Process-based Reward Model").

Alicia
OK, verifica el método, no sólo la respuesta final. Eso suena más estable.

Beto
Lo es para aprender razonamiento fiel, pero la gran desventaja es el coste. Hacer que humanos anoten cada paso de una cadena de razonamiento compleja en montones de ejemplos es increíblemente caro y lento. No escala nada bien.

Alicia
¿Y cuál es la solución para tareas subjetivas? Como juzgar escritura creativa o un argumento ético complejo. No hay una única respuesta correcta ahí.

Beto
Cierto. Y ahí las cosas se ponen especialmente vanguardistas. Aquí es donde entran los modelos de recompensa generativos, o “GenRMs”.

Alicia
Recompensas generativas. Entonces la recompensa ya no es solo un número.

Beto
Exacto. En vez de escupir una puntuación como 0.8, un modelo de recompensa generativo (GenRM) usa a su vez un LRM potente para generar una crítica. Escribe una explicación detallada, quizá usa una rúbrica, explicando por qué una respuesta es buena o mala. La recompensa es retroalimentación textual.

Alicia
Guau! OK, entonces el modelo de recompensa tiene que articular su propio razonamiento. Y la fuente insinuó algo todavía más salvaje: sistemas co-evolutivos.

Beto
Sí. Esto va más allá de tener un juez fijo y una política que aprende de él. En estos montajes co-evolutivos, el modelo que genera respuestas — la política — y el modelo que genera las críticas — el GenRM — en realidad mejoran juntos de forma dinámica.

Alicia
¿Cómo funciona eso?

Beto
Pues la política hace un intento, el GenRM lo critica en detalle, y luego la política usa esa rica retroalimentación para autocorregirse. A veces incluso intercambian roles, potenciando su propia mejora. Se acerca a una especie de "self-play" (ejecución autónoma) para razonamiento.

Alicia
Cambiando un poco de tema, hablemos del motor que ejecuta todo este entrenamiento RL. Mencionaste GRPO (Group Relative Policy Optimization) para DeepSeek R1. ¿Por qué ese algoritmo específico para estos modelos enormes?

Beto
Con modelos tan gigantescos necesitas algoritmos computacionalmente eficientes. Se prefieren métodos de primer orden. PPO (Proximal Policy Optimization) es popular. Pero GRPO es una modificación.

Alicia
¿Cuál es la diferencia clave?

Beto
GRPO es “sin crítico”. PPO estándar necesita una red crítica separada para estimar qué tan bueno es un estado, lo que básicamente duplica el tamaño del modelo y el cómputo durante el entrenamiento. GRPO logra deshacerse de eso por completo.

Alicia
Sin crítico. Ahorra mucho cómputo, seguro. Pero entonces, ¿cómo sabe qué acciones — qué palabras o tokens generados — fueron buenas si no hay un crítico que las valore?

Beto
Ah, esa es la parte ingeniosa. Usa algo llamado "normalización relativa de grupo". En lugar de juzgar cada token individualmente contra un estándar absoluto, mira todo un lote de respuestas generadas y calcula una puntuación de ventaja para todos los tokens en una respuesta relativa a la puntuación media de todas las respuestas en ese lote. Piensa en ello como calificar en curva dentro de ese pequeño grupo.

Alicia
Ah, entiendo. No se trata de ser perfecto. Se trata de ser mejor que el promedio dentro del lote.

Beto
Precisamente. Proporciona una señal de aprendizaje estable y eficiente sin necesitar ese modelo crítico extra. Hace el RL a gran escala mucho más factible.

Alicia
Bien, tenemos los mecanismos. RLVR, recompensas, GRPO. Pero hay un debate más amplio: ¿qué está haciendo fundamentalmente RL aquí? ¿Solo agudiza habilidades que el modelo ya aprendió en preentrenamiento, o está habilitando el descubrimiento de habilidades totalmente nuevas?

Beto
Esa es la pregunta del millón. La visión de “agudizar” sugiere que RL básicamente encuentra y amplifica lo bueno que ya estaba latente en los pesos del modelo, como enfocar una lente.

Alicia
Tiene sentido.

Beto
La argumentación de “descubrimiento”, en cambio, dice que para tareas complejas en múltiples pasos, RL permite componer esas habilidades latentes básicas de maneras genuinamente nuevas para construir cadenas de razonamiento más largas a las que antes no se podía acceder.

Alicia
Poner habilidades simples juntas para crear algo novedoso. ¿Dónde se posicionan las fuentes?

Beto
Parece inclinarse hacia una visión unificada. No es estrictamente una cosa u otra. RL actúa como un afilador eficiente, guiando al modelo rápidamente hacia patrones de razonamiento de alta recompensa. Pero dado suficiente tiempo de entrenamiento y el tipo correcto de exploración, ese afilado permite la composición de habilidades, lo que a su vez conduce a la emergencia de comportamientos novedosos — la parte de descubrimiento. Así que son dos caras de la misma moneda.

Alicia
Entendido. Afilado que habilita descubrimiento con el tiempo.

Ahora, prácticamente hablando, hay un hallazgo contraintuitivo sobre dónde comienzas el proceso RL: un modelo débil versus un modelo fuerte.

Beto
Correcto. ¿Debes empezar RL sobre un modelo base pre-entrenado y crudo — el inicio débil — o sobre un modelo que ya pasó por mucho fine-tuning para seguir instrucciones y ser servicial — el inicio fuerte?

Alicia
Mi intuición dice, empieza fuerte. Aprovecha todo ese trabajo de alineamiento.

Beto
Parece lógico, ¿no? Pero la evidencia, particularmente del trabajo DeepSeek R1, apunta fuertemente al otro lado. Empezar RL directamente sobre el modelo base consistentemente produce mejor rendimiento de razonamiento al final.

Alicia
¿En serio? Eso suena totalmente contraintuitivo. ¿Por qué sería perjudicial que el modelo ya sea servicial y alineado para aprender pura lógica o matemáticas?

Beto
La teoría tiene que ver con los sesgos de obediencia.

Alicia
Los “obedience priors”.

Beto
Sí. El proceso de fine-tuning supervisado (SFT) inculca tendencias profundas hacia ser útil, conversacional, cauteloso, alineado con preferencias humanas. Pero RLVR demanda una optimización implacable hacia un objetivo verificable y objetivo.

Alicia
Y esas dos cosas pueden entrar en conflicto.

Beto
Esa inclinación arraigada a ser cortés o a matizar puede interferir con que el modelo se comprometa plenamente con los pasos lógicos estrictos necesarios para maximizar una recompensa verificable como la corrección matemática.

Alicia
Interesante. Así que para obtener razonamiento pico, quizá no quieras que el modelo sea demasiado “amable” desde el inicio. Es una idea fascinante.

¿Se aplica esto por igual a todos los modelos?

Beto
Aparentemente no. Hay otra extrañeza: asimetría entre familias de modelos. Diferentes modelos base reaccionan distinto al proceso RLVR.

Alicia
¿Cómo?

Beto
Las fuentes mencionaron que modelos de la familia Qwen, por ejemplo, suelen ser más “amigables” al RL. Muestran buenas ganancias incluso si la señal de recompensa es imperfecta. Simplemente se adaptan mejor.

Alicia
OK. ¿Y otros?, mencionaste Llama.

Beto
Sí, los modelos de la familia Llama, según algunos reportes, pueden ser más frágiles inicialmente con el enfoque “cero RL”. No escalan tan fluidamente solo con el proceso RLVR.

Alicia
¿Rinden peor? ¿O hay solución?

Beto
Hay una solución. Investigadores encontraron que para modelos como Llama pueden lograr escalabilidad similar inyectando estratégicamente datos de alta calidad de matemáticas y código durante el entrenamiento RL, como un curso de corrección intermedia.

Alicia
¿Interrumpir el RL para darle un golpe de refuerzo con datos concretos?

Beto
Algo así. Parece fortalecer esas habilidades latentes de razonamiento sobre las que el proceso RL está construyendo, haciéndolas más resistentes a las presiones de RLVR.

Alicia
Bien, hablemos de aplicaciones. ¿Dónde se está usando realmente este razonamiento impulsado por RL? ¿Cuál es el beneficio? Empezando por la programación.

Beto
Sí, la programación es un área enorme. El RL, usando retroalimentación por ejecución — ¿el código corre? ¿pasan los tests? — ha mejorado dramáticamente la generación de código. Métodos como Afterburner usan esto para afinar modelos.

Alicia
El resultado?

Beto
Hemos visto saltos masivos en la tasa de éxito del primer intento. En algunos benchmarks, estos modelos entrenados con RL están superando el rendimiento humano promedio en programación competitiva y depuración. También tareas como reparación de código y mejora automática de la calidad del código.

Alicia
Impresionante.

¿Qué hay de modelos que necesitan usar herramientas o interactuar con el mundo, tareas agentivas?

Beto
Ahí RL es absolutamente crucial. Entrenar modelos para usar eficazmente búsquedas web, calculadoras, intérpretes de código, o simplemente manejar una conversación larga y con propósito requiere RL. El modelo tiene que aprender por ensayo y error qué herramientas usar y cuándo.

Alicia
Eso suena intensivo en cómputo. Mucho ensayo y error.

Beto
Lo es. Los tiempos de rollout — permitir que el agente pruebe cosas en un entorno — pueden ser muy largos y caros. Es un gran cuello de botella. Se trabaja en rollouts asincrónicos, mejores sistemas de memoria y otras maneras de hacerlo más eficiente.

Alicia
Llevándolo al mundo físico, robótica. Usando modelos Visión-Lenguaje-Acción (VLAs, Vision-Language-Action).

Beto
Sí, RL también está haciendo olas allí. A menudo usando recompensas más simples, como éxito o fracaso binario para una tarea. El hallazgo: RL ayuda a las VLAs a generalizar mucho mejor con menos datos.

Alicia
La mejor generalización es clave. Hay algo más?

Beto
Las VLAs entrenadas con RL han llegado a descubrir patrones de comportamiento novedosos, maneras completamente nuevas de resolver tareas físicas que no estaban en los datos de entrenamiento. Cosas que los supervisores ni siquiera imaginaron.

Alicia
Vaya! Descubrimiento genuino en el mundo físico. Eso es bastante sorprendente.

Entonces, mirando hacia adelante, ¿cuál es el siguiente gran obstáculo? Si pueden razonar, ¿cuál es el problema principal?

Beto
Uno grande es el coste de inferencia o la eficiencia en inferencia. Ahora mismo, estos LRMs son muy “listos” asignando su tiempo de pensamiento, pero de forma imperfecta.

Alicia
¿A qué te refieres?

Beto
Tienden a sobrepensar problemas sencillos, generando cadenas de pensamiento largas cuando una respuesta simple bastaría. Y a la inversa, suelen subestimar problemas difíciles, saltando a conclusiones sin suficiente razonamiento.

Alicia
Así que desperdician cómputo en lo fácil y fallan en lo difícil porque no se esfuerzan lo suficiente.

Beto
Exacto. Un problema no resuelto clave para RL es enseñar a estos modelos una mejor política de asignación de cómputo: cómo decidir dinámicamente “esto es complicado, necesito más pasos” versus “esto es fácil, contesto rápido”. Conseguir ese trade-off coste-rendimiento es crucial. Necesitamos modelos racionales frente a recursos.

Alicia
Tiene sentido.

Eso enlaza con una idea muy prospectiva que vienen discutiendo las fuentes: diseño de arquitectura, algoritmo y código conjuntamente.

Beto
Exacto. Ahora mismo RL optimiza el comportamiento del modelo para precisión. El siguiente paso podría ser dejar que RL optimice la propia estructura del modelo.

Alicia
¿Cómo funcionaría eso? Cambiando el modelo sobre la marcha.

Beto
Algo así. Piensa en modelos Mixture-of-Experts (MoEs, Mezcla de Expertos), que tienen diferentes subredes expertas. RL podría potencialmente aprender una política de enrutamiento dinámica.

Alicia
Es decir, decidir qué experto usar para qué parte del problema.

Beto
Sí. Pero optimizando no solo para la corrección de la respuesta final, sino también por eficiencia de hardware, minimizando latencia o uso de memoria. Podría adaptar las vías activas del modelo en función de lo que parezca la dificultad del problema en tiempo real. Un MoE reforzado, básicamente, optimizando la máquina misma.

Para cerrar nuestra inmersión hoy, la idea general es que RLVR está deliberadamente remodelando a los LLMs en LRMs más potentes. Aprovechamos recompensas verificables para tareas objetivas como matemáticas y código, lo que escala increíblemente bien.

Alicia
Y para lo más difuso y subjetivo, estamos viendo el auge de estos innovadores modelos de recompensa generativos.

Beto
Exacto. Es un cambio fundamental de foco.

Alicia
Sí. Realmente da la sensación de que la era de optimizar solo por “ser agradables” según preferencia humana está evolucionando. El foco se desplaza hacia confianza objetiva, hacia construir modelos que realmente hagan cosas de forma fiable. Estamos viendo enfoques híbridos, métodos de políticas mixtas que combinan lo mejor del SFT y del RL, ...

Beto
... lo que debería llevar a sistemas más robustos en general.

Y quizá si te dejo con una última cosa para pensar, es el paso crítico para hacer estos sistemas verdaderamente útiles en el mundo real: el aprendizaje por refuerzo continuo (CRL, Continual Reinforcement Learning).

Alicia
Que aprenden durante toda su vida.

Beto
Precisamente. A medida que los LLMs se despliegan en entornos dinámicos, necesitan adaptarse a nuevos datos y nuevas tareas sin olvidar todo lo que ya saben. Ese es el desafío central del CRL:

  • equilibrar la estabilidad,
  • mantener el conocimiento antiguo,
  • con la plasticidad,
  • adquirir nuevas habilidades.

Alice
El dilema estabilidad‑plasticidad.

Beto
Acertar ese equilibrio durante el entrenamiento RL continuo, probablemente sea la clave para pasar de herramientas estáticas a compañeros de IA adaptativos de por vida. Algo a lo que hay que prestar atención, sin duda.

sábado, 11 de octubre de 2025

Texas contra Pfizer

 
 

Hoy vamos a examinar un documento legal donde el estado de Texas (EEUU) acusa a la compañía farmacéutica Pfizer de haber tergiversado ilegalmente la eficacia de la vacuna contra el COVID-19 y por intentar censurar el debate público sobre el producto.

Enlace al documento en inglés, para aquellos que quieran profundizar sobre el tema:
Texas vs Pfizer, presentado por el fiscal general de Texas, Ken Paxton.

El resumen, su transcripción, y traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en forma de diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Bienvenidos al análisis en profundidad. Hoy nos centraremos realmente en una fuente clave: la petición original presentada por el estado de Texas contra Pfizer Inc. Nuestro trabajo aquí es guiarte a través de las, digamos, afirmaciones técnicas y estadísticas contenidas en este documento legal. Queremos desglosar lo que Texas está alegando sobre el mercadeo y las afirmaciones de eficacia en torno a la vacuna contra la COVID-19, BNT 162B2; nos centramos únicamente en la evidencia y los argumentos que figuran en la petición.

Beto
Sí, la neutralidad es fundamental para esta discusión. Estamos describiendo estrictamente las alegaciones y la evidencia específica citada por Texas. Aducen que Pfizer incurrió en actos y prácticas falsos, engañosos y equívocos conforme a su ley estatal, la DTPA. Así que se trata de lo que dice el documento y de por qué estas reclamaciones técnicas podrían importar al público.

Alicia
Muy bien, entremos en materia.

El número grande, el que todo el mundo oyó a finales de 2020: 95% de eficacia. Estaba en todas partes. Vamos a desglosarlo. ¿Por qué ese número es un punto central en esta petición?

Beto
Pues es fascinante, ¿no? Cómo elegir una estadística puede moldear totalmente la percepción pública. Ese 95% era la reducción relativa del riesgo, RRR. Es una medida muy técnica. Simplemente compara la tasa de infección entre el pequeño número de personas que se enfermaron en el grupo vacunado frente al pequeño número que se enfermaron en el grupo placebo durante ese ensayo específico.

Alicia
Vale, así que compara resultados solo entre las personas que se infectaron, no entre todos los participantes del ensayo.

Beto
Exacto. Y la petición señala una guía de la FDA que, al parecer, advierte sobre esto. Publicaciones de la FDA supuestamente dicen que la RRR puede ser engañosa. Puede influir indebidamente en las decisiones porque, bueno, presentar la reducción del riesgo en términos relativos hace que el efecto parezca grande, especialmente cuando el riesgo basal real de que alguien se enferme ya era bastante bajo.

Alicia
Entonces, si el 95% era la RRR, ¿en qué dice la petición que Pfizer debería haberse centrado? Mencionan la reducción absoluta del riesgo, la ARR, como la métrica que la FDA prefería para el público.

Beto
Sí. Según los datos del ensayo citados en la demanda, el riesgo de contraer COVID durante la ventana del estudio fue de aproximadamente 0,9% en el grupo placebo. Bajó a 0,04% en el grupo vacunado. Ahora, la reducción absoluta del riesgo analiza la diferencia en todo el grupo. Cuando calculas esa diferencia, 0,9 menos 0,04, la petición afirma que la vacuna solo redujo el riesgo en un 0,85% para la persona promedio en ese ensayo.

Alicia
Vaya! Bien, menos del 1% frente al 95%. Es una diferencia enorme en la forma de enmarcarlo. La petición parece argumentar que al no destacar esa cifra de ARR, la gente no pudo ponderar adecuadamente los riesgos y beneficios por sí misma.

Beto
Ese es el núcleo. Y para subrayarlo, el documento trae otra métrica: el número necesario a tratar, o NNT. Esto te dice cuántas personas necesitas vacunar para prevenir un solo caso de COVID-19 según la definición del ensayo. Y según los propios datos de Pfizer citados en la petición, había que vacunar a 119 personas para evitar un único caso.

Alicia
119 para un caso prevenido. Bien, así que ese NNT junto con el 0,85% de ARR, puedes ver cómo la petición usa esas cifras para argumentar que limitarse a reportar la RRR fue, en sus palabras, un despropósito y una desinformación engañosa para las decisiones de salud pública.

Beto
Sí, conecta las estadísticas complejas directamente con lo que eso significa para un individuo. El argumento es básicamente que la transparencia exigía mostrar las tres cifras: RRR, ARR y NNT, para que las personas pudieran tomar una decisión verdaderamente informada.

Alicia
Tras establecer ese argumento estadístico inicial, la petición sostiene que esto no fue solo un problema aislado con el número del titular. Afirma que Pfizer expandió la supuesta conducta engañosa en otros frentes clave a medida que avanzaba el tiempo. El primero grande trata de cuánto dura la protección: la duración.

Beto
Exacto. La primera acusación importante trata del decaimiento de la eficacia. Recuerda, cuando la vacuna obtuvo por primera vez la autorización de uso de emergencia, la EUA, la FDA aparentemente sabía que no era posible conocer cuánto duraría la protección más allá del tiempo medio de seguimiento, que era de dos meses.

Alicia
Dos meses. Así que la evidencia de protección a largo plazo simplemente no existía cuando empezó el gran impulso de mercadeo. ¿Cómo alega la petición que Pfizer manejó esa incertidumbre? Dice que dieron la impresión de una protección duradera y sostenida.

Beto
Bueno, la petición alega que retuvieron a sabiendas datos internos que mostraban que la eficacia disminuía y bastante rápido. Por ejemplo, los datos usados para la aprobación formal después, supuestamente mostraron que la RRR cayó de 96% justo después de la segunda dosis hasta alrededor de 83,7% en un plazo de cuatro a seis meses. Datos externos, como los de Israel cuando Delta llegó en 2021, sugirieron una caída incluso más rápida, de 64% de RRR en junio a solo 39% un mes después. La acusación central es que Pfizer no comunicó adecuadamente este conocido y rápido declive de la protección.

Alicia
La segunda área que ataca la petición es la transmisión: afirmaciones sobre detener la propagación de persona a persona. La FDA pidió específicamente a Pfizer que aportara información adicional sobre eso, ¿no?

Beto
Correcto. A pesar de esa advertencia concreta del regulador, la petición sostiene que Pfizer lanzó lo que llama una campaña de alarmismo. Argumentan que Pfizer creó la impresión de que la vacunación era esencial para proteger a los seres queridos. Incluso citan al CEO sugiriendo que no vacunarse podría afectar la vida de otros y, probablemente, la vida de las personas que más quieres.

Alicia
Vaya. Muy potente, apelando directamente a la seguridad familiar. ¿Qué evidencia usa el expediente para argumentar que esa narrativa no estaba realmente respaldada por los datos en ese momento?

Beto
El documento apunta a datos del mundo real que emergieron bastante pronto y que parecían contradecir esas afirmaciones. Mencionan el brote en Barnes-Stable County, Massachusetts, en julio de 2021: casi tres cuartas partes de las infecciones allí fueron en personas completamente vacunadas. Y quizá más directamente, citan un estudio en The Lancet que halló que las personas totalmente vacunadas que contrajeron COVID seguían propagándolo en sus hogares a una tasa del 25%, muy cerca de la de las personas no vacunadas, 23%. El argumento es que al público se le hizo creer que la vacuna detenía la transmisión mucho mejor de lo que realmente lo hacía, lo cual tuvo enormes implicaciones para los mandatos y la presión social.

Alicia
Sí, si no estaba deteniendo la transmisión como se pensaba, eso enlaza directo con la tercera gran afirmación: qué tan bien funcionó frente a variantes, específicamente Delta, que dominó en 2021.

Beto
Cierto. La acusación aquí es directa. Pfizer hizo afirmaciones falsas sobre cómo funcionaba la vacuna contra Delta, incluyendo otra vez al CEO diciendo que era "muy, muy, muy eficaz". Pero la petición sostiene que los datos citados en el documento decían otra cosa. Esos datos, que según parece el director científico de Pfizer llamó el “canario en la mina”, mostraban supuestamente que la vacuna tenía solo un 39% de eficacia contra la infección cuando Delta era la cepa dominante.

Alicia
Solo 39% de eficacia contra la infección. Es muy distinto de “muy, muy, muy eficaz”. Y la petición dice que los datos se volvieron incluso más extraños después. Menciona datos del Reino Unido y Escocia de finales de 2021 y comienzos de 2022: algo sobre eficacia negativa.

Beto
Sí, es un punto complejo en la demanda. Afirma que en ciertos períodos específicos para ciertos grupos de edad, los datos mostraron presuntamente eficacia negativa de la vacuna, es decir, que la tasa de infección o incluso de muerte por cada 100.000 personas era mayor en el grupo vacunado comparado con el no vacunado. Por ejemplo, citan una semana a finales de 2021 en Escocia, donde fue aproximadamente 1.000 casos por 100.000 no vacunados frente a 2.550 casos por 100.000 vacunados. Ahora bien, esos son datos estandarizados por edad para una ventana específica, con muchos posibles factores de confusión. Pero el punto de la petición es que esta realidad compleja, que incluso sugería una eficacia potencialmente negativa en ocasiones, estuvo completamente ausente del mensaje público de Pfizer.

Alicia
Todo esto ocurrió bajo la autorización de uso de emergencia, la EUA, al menos inicialmente. ¿Por qué esa distinción entre EUA y aprobación completa es tan central en la argumentación de la petición?

Beto
Es realmente crucial porque el estándar bajo la EUA es más bajo. Un producto solo tiene que demostrar, quizá, un efecto en una emergencia. La aprobación completa exige pruebas mucho más sólidas: evidencia sustancial de que el fármaco tendrá el efecto reclamado.

Alicia
Así que el argumento es que puesto que comenzó bajo ese estándar más bajo de la EUA, ser franco sobre las limitaciones — como el 0,85% de ARR, la inmunidad que disminuye, las dudas sobre la transmisión — era aún más importante para que la gente tomara decisiones informadas.

Beto
Exacto. La petición viene a decir que la EUA no era un pase libre para tergiversar. Y esta necesidad de transparencia se amplifica porque la vacuna no estaba libre de riesgos. Conllevaba riesgos de seguridad significativos y conocidos, en particular miocarditis y pericarditis, inflamaciones del corazón. La FDA y los CDC reconocieron esos riesgos, especialmente en hombres jóvenes. La petición entrelaza esto, argumentando que al sobrevalorar supuestamente el beneficio con esa cifra del 95% (RRR), Pfizer sesgó la ecuación riesgo-beneficio pública, haciendo que los riesgos cardiacos conocidos parecieran mucho menores en comparación.

Alicia
Correcto. Esta supuesta distorsión del riesgo frente al beneficio lleva probablemente a la parte más controvertida de la demanda: la alegación de un esfuerzo organizado para intimidar y silenciar a críticos, para proteger ventas etiquetando preguntas como desinformación.

Beto
Sí. La petición hace alegaciones muy concretas sobre coordinación. Nombra a Scott Gottlieb, que es a la vez miembro del consejo de Pfizer y excomisionado de la FDA. El expediente afirma que Gottlieb señaló publicaciones en redes sociales, concretamente de un periodista llamado Alex Berenson y de otro exdirector de la FDA, Brett Giroir, directamente a empleados de Twitter.

Alicia
Vaya! Es una acusación muy directa: tratar de usar conexiones corporativas para suprimir voces críticas. ¿Qué dice la petición que fue la razón dada para señalar esas publicaciones?

Beto
Bueno, cuando Gottlieb supuestamente señaló el tuit de Giroir, que trataba sobre la posible superioridad de la inmunidad natural, la petición cita a Gottlieb diciendo que ese tipo de discusión era corrosiva y podía acabar impulsando una cobertura mediática crítica de la vacuna. Así que la petición sostiene que esto muestra que la intención no era solo combatir la desinformación peligrosa, sino proteger la narrativa comercial de Pfizer y, en última instancia, las ventas. Señala que Berenson fue suspendido de Twitter poco después de que Gottlieb marcara su contenido.

Alicia
Y la petición conecta esa supuesta estrategia directamente con el resultado financiero para Pfizer.

Beto
Oh, absolutamente. Afirma que todo este enfoque — las estadísticas controvertidas, la supuesta exageración de la durabilidad y de la capacidad para reducir la transmisión, junto con la supuesta censura — funcionó en conjunto. Ayudó a Pfizer a capturar una enorme cuota de mercado, casi el 70% en EE. UU. y la UE a finales de 2021, y condujo a ingresos masivos. Hablamos de decenas de miles de millones de dólares en 2021 y 2022.

Alicia
Bien, para cerrar, ¿qué pide exactamente el estado de Texas en esta demanda?

Beto
Buscan sanciones civiles, potencialmente más de un millón de dólares además de restitución. Pero quizá más importante, quieren medidas cautelares. Quieren que el tribunal prohíba a Pfizer hacer este tipo de supuestas tergiversaciones en el futuro.

Alicia
Y, de forma crítica, impedir que coordinen con empresas de redes sociales para, como dice la petición, silenciar discursos veraces que contravengan su mercadeo.

Beto
Sí, se trata tanto de conducta futura como de daños pasados.

Alicia
Si te alejas de todos los detalles, ¿cuál es la idea principal aquí? La demanda pone el foco en cómo se usan las estadísticas en salud pública, ¿no es así?

Beto
Definitivamente. Subraya lo crítico que es distinguir entre reducción relativa del riesgo, reducción absoluta del riesgo y número necesario a tratar. Y cómo elegir solo una métrica como la RRR puede sesgar dramáticamente la percepción pública, especialmente durante una crisis en la que la comunicación clara es primordial.

Alicia
También plantea preguntas sobre los incentivos incorporados en el sistema, ¿verdad? Pfizer hizo esa enorme apuesta de 2.000 millones de dólares en su vacuna, decidiendo no aceptar financiación de Operation Warp Speed. Eso generó una presión comercial masiva para triunfar.

Beto
Así fue. Y eso conduce a un pensamiento final importante para que ustedes, nuestros oyentes, lo consideren. Cuando hay intereses corporativos privados tan enormes, tan ligados a metas urgentes de salud pública, especialmente bajo algo como una autorización de emergencia, ¿cómo podemos, como público, estar verdaderamente seguros de que la información que recibimos sobre eficacia y riesgo es completamente transparente, totalmente equilibrada y, crucialmente, separada de esas intensas presiones comerciales? Esa es la pregunta que este expediente deja en el aire.