domingo, 11 de enero de 2026

El Compromiso entre Razonamiento y Creatividad

 
 

Hoy les traigo un resumen de un artículo de investigación que investiga el colapso de la diversidad en grandes modelos lingüísticos (LLMs), donde el aprendizaje por refuerzo (RL) hace que los modelos se fijen en unos pocos patrones de razonamiento repetitivos. Los autores presentan el Razonamiento Creativo Distribucional (DCR), un marco teórico que trata el entrenamiento como un flujo gradiente para analizar por qué estrategias como STaR, GRPO y DPO sufren de diferentes modos de decadencia creativa. Para resolver esto, proponen una nueva función objetivo que combina la entropía de Shannon para la amplitud probabilística con un término de cobertura del núcleo para recompensar la distinción semántica. Su teorema de decadencia de la diversidad predice formalmente estos modos de falla, lo que demuestra que las recompensas estándar impulsadas por escalares erosionan inherentemente la variedad. En última instancia, el marco DCR proporciona un método basado en principios para equilibrar la utilidad y la creatividad, garantizando que los modelos converjan en un conjunto estable y diverso de caminos de razonamiento. El estudio valida estos hallazgos a través de pruebas matemáticas y simulaciones empíricas de dinámicas de estrategia simple.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "The Reasoning–Creativity Trade-off: Toward Creativity-Driven Problem Solving", por Max Ruiz Luyten y Mihaela van der Schaar, de la universidad de Cambridge. Publicado en Enero 02 del 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Sabes, es simplemente increíble lo que pueden hacer ahora los modelos de lenguaje a gran escala (LLM). Quiero decir, el nivel de razonamiento complejo es fuera de serie.

Beto
Absolutamente. Pueden escribir código sin errores, resolver problemas matemáticos muy avanzados, cosas que hace un par de años ni siquiera creíamos posibles.

Alicia
Y, sin embargo, hay una sensación que te entra cuando los usas mucho. Es como si sus soluciones, por brillantes que sean, empezaran a sentirse un poco repetitivas.

Beto
Eso es todo. Ese es el gran paradoja, ¿no? Diseñas estos sistemas para la perfección total, para la corrección, pero parece que maximizar esa brillantez en realidad los hace — bueno — mata su diversidad creativa.

Alicia
Y ese es el núcleo de lo que hablamos hoy. Esta nueva investigación de la Universidad de Cambridge lo llama la "Compensación Razonamiento–Creatividad" ("Reasoning Creativity Trade-off", RCT).

Beto
Exacto. Y es un resultado directo de nuestras actuales pipelines de entrenamiento de última generación.

Alicia
Claro. Esas que están tan fuertemente optimizadas para la corrección, usando cosas como el aprendizaje por refuerzo, RL.

Beto
Sí. Y cuando entrenas un modelo para maximizar un único y simple puntaje — tal como "¿es esta respuesta correcta?" — creas un sistema que es fatalmente sensible a lo que la investigación llama "colapso creativo".

Alicia
Así que nuestra misión en este análisis profundo es desentrañar ese colapso. Vamos a diagnosticar qué está fallando con algunos de los algoritmos de entrenamiento más grandes que hay: STaR, GRPO, DPO.

Beto
Y luego entraremos en la solución que proponen, que es este marco realmente fascinante llamado "Razonamiento Creativo Distribucional" ("Distributional Creative Reasoning", DCR).

Alicia
Antes de meternos en los fallos, tenemos que aclarar qué queremos decir con "creatividad" aquí. No es esa cosa borrosa y artística.

Beto
No, en absoluto. Tienes que pensarlo como un requisito técnico estricto. Para un LLM, la creatividad es la capacidad de mantener una cartera diversa de estrategias de razonamiento de alta utilidad.

Alicia
¿Una cartera? Me gusta mucho esa metáfora. Es como una estrategia de inversión.

Beto
Lo es, porque esa diversidad es lo que te da generalización. Si un modelo solo conoce una forma de resolver un problema, va a fallar en cuanto vea algo nuevo, algo fuera de sus datos de entrenamiento. Una IA creativa necesita respaldos. Necesita formas diferentes de pensar.

Alicia
Bien, empecemos con el problema en sí: el colapso creativo. Las fuentes lo califican como un efecto secundario recurrente y perjudicial del aprendizaje por refuerzo posterior al entrenamiento.

Beto
Especialmente el RL a partir de retroalimentación humana, "Reinforcement Learning with Human Feedback", RLHF. Y es importante notar: esto no es un "bug". Es una característica del objetivo que le estamos dando a los modelos.

Alicia
¿Cómo funciona? ¿Cuál es el mecanismo?

Beto
Bueno, es sorprendentemente simple. Cuando entrenas el modelo para maximizar ese único número de recompensa, su entropía de salida se desploma.

Alicia
La entropía aquí es básicamente nuestro sustituto para la diversidad o aleatoriedad.

Beto
Exacto. Así que todo el espacio de soluciones se contrae. El modelo deja de explorar y empieza a concentrar toda su probabilidad en solo unas pocas plantillas que sabe que van a obtener una puntuación alta. Terminas con una monocultura de alto rendimiento.

Alicia
Y hay datos duros sobre esto. No es solo una sensación. Pasa sin importar qué algoritmo uses.

Beto
Correcto. Es agnóstico al algoritmo. Lo ves en RLHF. Lo ves cuando los modelos usan GRPO para matemáticas, incluso durante la sintonización de auto-consistencia.

Alicia
Y las métricas son bastante tajantes.

Beto
Lo son. La diversidad, medida por entropía u otras cosas como la dispersión en el espacio de embeddings, simplemente se desploma después de RLHF. En algo como la escritura de historias abiertas, los modelos Llama 2 alineados perdieron algo así como entre tres y seis veces su entropía de tokens original.

Alicia
Vaya. Es como entrenar a un novelista que, al final, solo puede escribir la misma historia una y otra vez.

Beto
Ese es el colapso en acción.

Alicia
Si este es un problema tan conocido, ¿qué hay de las soluciones? Quiero decir, la gente ha intentado contrarrestarlo, ¿no? Las fuentes mencionan penalizaciones KL.

Beto
Las han usado. Pero las soluciones son, yo diría, incompletas. Son indiscriminadas. Una penalización KL básicamente le dice al modelo: oye, no te alejes demasiado de tu programación base.

Alicia
Está bien.

Beto
Pero el problema es que penaliza todo lo nuevo, incluso soluciones brillantes y de alta utilidad. Si resultan ser demasiado diferentes del modelo base, es como poner un limitador en un motor. Evitas que vaya demasiado rápido, pero también le impides encontrar un atajo brillante.

Alicia
¿Y añadir más ruido, como con PPO regularizado por entropía, ayuda?

Beto
Hace las cosas más aleatorias, claro. Pero no crea ideas cualitativamente distintas. El modelo simplemente se vuelve más ruidoso, menos confiado. Pero no está siendo más creativo de una manera estructurada. Es solo añadir estática, no esculpir nuevas vías.

Alicia
Para esculpir necesitas primero un diagnóstico. Eso nos lleva al teorema de decaimiento de diversidad. Esta es la herramienta que predice exactamente cómo fallan estos algoritmos.

Beto
Sí. Nos da tres modos muy distintos de colapso.

Alicia
Bien. Desgranémoslos. Modo de fallo 1. STaR — Self-taught Reasoner. El artículo lo llama "fijación de ganador se lo lleva todo".

Beto
Y es una descripción perfecta. La dinámica en STaR es un clásico ciclo de retroalimentación positiva.

Alicia
¿Qué significa?

Beto
Significa que si una vía de razonamiento, por simple azar, tiene una ligera ventaja al principio, el proceso de entrenamiento se aferra a ella y colapsa rápida y de forma determinista sobre esa única solución dominante. Todo lo demás se olvida.

Alicia
Así que no es una declinación lenta. Es un chasquido.

Beto
Lo es. Los datos muestran que el colapso es casi inmediato. La entropía tiende a 0. El índice de fijación tiende a 1. Es una carrera. Y el ganador se lleva literalmente todo.

Alicia
Aterradoramente eficiente. Bien. Eso es STaR. ¿Y el modo de fallo 2? GRPO. Este es mucho más sutil.

Beto
Lo es. El diseño de GRPO crea lo que llaman "estabilidad neutral entre todas las soluciones correctas".

Alicia
Lo cual suena bien en papel: no elige un único ganador.

Beto
Correcto. Trata de preservar las probabilidades iniciales de todas las respuestas correctas. Pero — y aquí está la clave — no proporciona ninguna protección activa para esa diversidad.

Alicia
¿A qué te refieres con eso?

Beto
Piénsalo como un montón de canicas sobre una lámina de hielo perfectamente plana y sin fricción. Son estables. Ningún punto es mejor que otro.

Alicia
Pero también son muy fáciles de mover.

Beto
Exacto. Y en el entrenamiento de LLM, la pequeña fuerza que las mueve es el ruido del muestreo en mini-batches.

Alicia
Espera. Entonces lo que hacemos para que el entrenamiento sea eficiente — los mini-batches — es en realidad la causa del colapso aquí.

Beto
Es el desestabilizador. Ese pequeño ruido estadístico es suficiente para que la política simplemente derive. Deambula aleatoriamente hasta que eventualmente las canicas se amontonan en una esquina. Se fija en un subconjunto pequeño de soluciones. Los datos muestran que esta deriva es lenta y depende del tamaño del batch, lo que confirma que el ruido es el culpable.

Alicia
Fascinante.

Así que tenemos una monopolización repentina con Star y una deriva lenta y ruidosa hacia una esquina con GRPO.

¿Y el modo de fallo tres? DPO, Direct Preference Optimization, es muy popular.

Beto
Y su modo de fallo es distinto de nuevo. El objetivo de DPO es hacer que las buenas respuestas tengan probabilidades aproximadamente iguales. Así que resulta en homogenización o igualación.

Alicia
De ese modo evita la fijación, lo cual es bueno.

Beto
Sí. Pero no promueve diversidad semántica dirigida.

Alicia
¿Qué significa eso en la práctica?

Beto
Significa que pides cinco formas diferentes de decir algo y DPO te da cinco excelentes maneras que son todas solo variaciones menores entre sí. Empuja probabilidades iguales a respuestas de alta utilidad, pero muchas de esas respuestas son conceptualmente redundantes. Obtienes calidad igual, pero no diversidad de ideas.

Alicia
Entonces Star es una única respuesta dominante, GRPO deriva hacia unas pocas respuestas, DPO nos da muchas respuestas similares. El problema no es el proceso de optimización en sí, entonces.

Beto
No, la optimización funciona perfectamente. El problema es la función objetivo. Le falta cualquier tipo de fuerza que recompense activamente la verdadera diversidad semántica.

Alicia
Lo que significa que la única solución es una función objetivo totalmente nueva. Hablemos de la solución: Razonamiento Creativo Distribucional, "Distributional Creative Reasoning", DCR.

Beto
DCR replantea completamente el problema. Dejamos de pensar en optimizar una sola respuesta. Empezamos a pensar en optimizar toda la cartera de estrategias del modelo.

Alicia
Le decimos: no quiero solo una buena respuesta. Quiero una política que genere muchos tipos diferentes de respuestas buenas.

Beto
Exacto. Y el objetivo DCR está diseñado para hacer eso. Es un acto de equilibrio.

Alicia
Mantiene utilidad por la corrección y algo de divergencia KL para estabilidad.

Beto
Correcto. Pero entonces está el ingrediente clave: el funcional de energía de diversidad ("Diversity Energy Functional", D[p]).

D[p] = alfa * H[p] - beta * Q[p], con alfa, beta >= 0.

Alicia
Y este tiene dos partes que hacen dos trabajos distintos.

Beto
Así es. La primera parte se basa en la vieja entropía de Shannon (H[p]). Eso promueve lo que podrías llamar "amplitud indiscriminada". Simplemente anima al modelo a mantener las opciones abiertas, a no dejar que las probabilidades de soluciones buenas pero poco comunes vayan a cero.

Alicia
Pero, como dijiste antes, la entropía por sí sola es ciega. No distingue lo correcto de lo incorrecto.

Beto
Precisamente. Y ahí entra la segunda parte: el término de cobertura del kernel ("Kernel Coverage", Q[p]).

Alicia
¿Qué hace el kernel?

Beto
Piensa en el kernel como una herramienta para medir la similitud entre dos respuestas diferentes, dos trazas de razonamiento distintas.

Alicia
Si el modelo genera dos soluciones que son básicamente la misma idea, solo enunciadas de forma distinta, el kernel las señalaría como muy similares.

Beto
Exactamente. Y aquí está la jugada inteligente. El objetivo DCR canaliza esa similitud. Castiga al modelo por tener alta cobertura de kernel. Es decir, empujas activamente la política a alejarse de generar respuestas semánticamente redundantes.

Alicia
Wow. Entropía te da amplitud. El kernel te da distintividad semántica dirigida. Es un tira y afloja.

Beto
Y la garantía matemática es el verdadero avance. Está probado que este funcional garantiza que la política convergerá a un equilibrio único, estable y diverso. No puede fijarse, no puede derivar, no puede marginalizar. Neutraliza los tres modos de fallo de los que hablamos.

Alicia
Para un practicante, esto es enorme. De repente tienes palancas reales para ajustar. Puedes definir qué significa similaridad con tu elección de kernel. Y luego puedes tunear el balance entre amplitud bruta y diversidad semántica.

Beto
Es un problema real de diseño de ingeniería ahora. No solo un tiro en la oscuridad.

Alicia
Seamos prácticos, eso sí. Aún necesitas que las respuestas sean correctas. Recompensar la diversidad no puede salirle caro a la supresión de respuestas erróneas.

Beto
Absolutamente. Y eso se resuelve con lo que llaman "la estrategia de kernel con compuerta". El kernel que usas es un kernel efectivo: un kernel semántico que está reglado por un verificador binario simple.

Alicia
Un verificador que solo pregunta: "¿es esta respuesta correcta?" Sí o no.

Beto
Eso es todo. Entonces la penalización promotora de diversidad — la parte que castiga la similitud — se aplica solo a las interacciones entre respuestas correctas.

Alicia
Ah, ya veo. Así que solo estás esculpiendo la diversidad entre las soluciones válidas. Las respuestas incorrectas ni siquiera participan en esa parte del proceso.

Beto
Estás enfocando el cincel solo en la canica buena.

Alicia
Ok, esto suena increíblemente poderoso, pero también intenso computacionalmente. ¿Es escalable para los modelos masivos de hoy?

Beto
Sorprendentemente es práctico. El término de cobertura del kernel puede estimarse muy eficientemente durante el entrenamiento usando una estadística U. El coste escala cuadráticamente con el tamaño del batch, pero ese tipo de complejidad, O(B2), ya es estándar en mucho aprendizaje métrico moderno. No es un cuello de botella imposible nuevo.

Alicia
Así que afinemos el principio central para un ingeniero que quiera usar esto. ¿Cuál es la regla más importante para balancear corrección y creatividad?

Beto
El análisis da una regla empírica muy clara: para asegurarte de que sigues suprimiendo respuestas incorrectas, la fuerza matemática que aplicas desde la penalización de diversidad no debe ser más fuerte que la recompensa que obtienes por estar en lo correcto.

Alicia
¿Puedes ponerlo en términos más sencillos?

Beto
Significa que el mando que giras para la creatividad — esa penalización del kernel — tiene que permanecer más débil que la recompensa fundamental por la corrección. Si empujas demasiado fuerte por la diversidad, corres el riesgo de que el modelo decida que una respuesta novedosa pero equivocada es mejor que una respuesta aburrida pero correcta. Es un acto de equilibrio.

Alicia
Sí. Y cada palanca afecta a las demás. Si aumentas demasiado la entropía bruta, también debilitas la supresión de respuestas erróneas, incluso mientras ayudas a que la correcta se expanda.

Beto
Exacto. DCR te da las herramientas, pero aprender a usarlas para obtener máxima amplitud estratégica sin sacrificar precisión será el próximo gran desafío de ingeniería.

Alicia
Este análisis profundo nos ha mostrado que llegar a una IA verdaderamente innovadora significa dejar atrás el premio al único mejor resultado. Las formas antiguas — STaR, GRPO, DPO — todas conducen a estos colapsos previsibles: ganador se lo lleva todo, deriva ruidosa o simple homogenización.

Beto
Y el Razonamiento Creativo Distribucional, DCR, nos da un esquema unificado y demostrable. Al construir el funcional de diversidad estructurada directamente en la función objetivo, combinando amplitud con un kernel de creatividad con compuerta, garantiza que la política encuentre una cartera estable y verdaderamente diversa de soluciones de alta calidad.

Alicia
Es el plano para modelos que pueden ser a la vez increíblemente precisos y genuinamente creativos, pero, como dijiste, hay una línea fina que hay que recorrer.

Beto
La hay. Y eso nos lleva a la pregunta final, realmente provocadora. DCR está probado que funciona, pero su efectividad depende de esa única heurística: la penalización de creatividad tiene que ser más débil que la recompensa de utilidad. Así que te preguntas qué pasaría si, en nuestra búsqueda de creatividad estructurada extrema, giramos ese dial al máximo. ¿Podríamos comprometer inadvertidamente la capacidad central del modelo para distinguir el bien del mal, creando una especie de colapso de utilidad? El reto ahora es usar estas nuevas palancas para acercarnos lo máximo posible a esa línea sin jamás, jamás cruzarla.