lunes, 2 de marzo de 2026

Marco de Creatividad de IA

 
 

Esta investigación presenta CREATIVITYPRISM, un marco integral diseñado para evaluar la naturaleza multifacética de la creatividad en grandes modelos lingüísticos. Reconociendo que la evaluación humana es demasiado lenta y costosa para el desarrollo moderno de IA, los autores proponen un sistema estandarizado que utiliza LLM como juez para automatizar el proceso. Este punto de referencia mide la producción creativa en tres dimensiones principales: calidad, novedad y diversidad, garantizando que los resultados no solo sean originales, sino también funcionales y variados. Al utilizar diversas tareas como pruebas de usos alternativos, escritura creativa y resolución de problemas matemáticos, el estudio proporciona una visión holística del rendimiento del modelo. La validación estadística mediante la Prueba de Anotación Alternativa garantiza que estos jueces automatizados se alineen estrechamente con la intuición humana experta. En definitiva, los resultados destacan que modelos propietarios como GPT-4 y DeepSeek lideran actualmente el campo de la generación de contenido sofisticado e innovador.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema:


Resumen

Beto
El otro día intenté que un chatbot me ayudara a encontrar un título para un proyecto. Quería algo contundente, algo único. Le pedí específicamente que pensara fuera de la caja.

Alicia
Ay, déjame adivinar. ¿Te dijo "The Innovation Hub" o "Project Phoenix"?

Beto
Cerca. Me dio "The Future Initiative" y "The Creative Spark".

Alicia
Vaya. Buen inicio.

Beto
Es el tipo de discurso corporativo más gris imaginable: gramaticalmente perfecto, totalmente lógico y completamente muerto por dentro. Me hizo preguntarme porque no dejamos de oír hablar de IA generativa y arte con IA todo el tiempo. Pero, ¿realmente son creativas estas máquinas?

Alicia
Vale. ¿O son solo imitadores extremadamente eficientes que, por casualidad, saben qué palabras suelen ir juntas?

Beto
Exacto. Esa es la pregunta del millón ahora mismo. Porque estamos viendo a la IA aprobar el examen de abogacía y escribir código en Python. Pero la creatividad se siente como esa frontera nebulosa distintivamente humana.

Alicia
Es como la última trinchera del excepcionalismo humano.

Beto
No nos vamos a quedar solo en la filosofía hoy. Para este análisis profundo tenemos, de hecho, un artículo de investigación que intenta poner un número concreto sobre esto. Se titula "CreativityPrism, a Holistic Evaluation Framework for Large Language Model Creativity".

Alicia
Es de Zhaoyi Joey Hou y un equipo bastante amplio de Pittsburgh, Johns Hopkins y algunas otras instituciones.

Beto
Me alegra que lo estudiemos porque la evaluación basada en sensaciones, la gente diciendo “oh, este modelo se siente más inteligente”,

Alicia
Ya no es suficiente. Necesitamos datos duros.

Beto
La misión hoy es averiguar si la IA que usas es un loro o un poeta. Y sinceramente, si me escuchas ahora mismo, y usas estas herramientas para programar, escribir o simplemente redactar un mejor correo, necesitas saber cuál es el techo.

Alicia
Necesitas saber si le estás pidiendo a una calculadora que pinte una obra maestra.

Beto
Empecemos por el problema. ¿Por qué esto no está resuelto aún? Tenemos benchmarks para todo lo demás en IA. Sí, probamos matemáticas. Probamos lógica. Comprensión lectora. ¿Por qué medir la creatividad es un desastre?

Alicia
El artículo describe el panorama actual como fragmentado, que es una forma muy académica y educada de decir que es un desastre total. Históricamente, si querías evaluar la creatividad en una máquina —o incluso en un humano— tenías que elegir un carril muy pequeño y específico.

Beto
¿Qué forma tenían esas pruebas antiguas?

Alicia
Por un lado tenías pruebas semánticas. La más famosa es la divergent association task (tarea de asociaciones divergentes, DA).

Beto
Básicamente pregunta si puedes elegir palabras que estén semánticamente lejanas entre sí.

Alicia
Es, en esencia, solo una prueba de distancia de vocabulario. Luego está la alternative use test, la prueba de usos alternativos. Esa clásica pregunta de psicología 101: ¿De cuántas maneras puedes usar una botella de vidrio?

Beto
Florero. Rodillo. Arma.

Alicia
Seguro. Pero esa prueba normalmente cuenta solo el número bruto de usos no convencionales; no juzga si son buenas ideas o si funcionarían en el mundo real. Y en el otro extremo tienes benchmarks cargados de lógica, como CreativeMath o NeoCoder.

Beto
... que honestamente suenan a lo opuesto de creatividad para la mayoría de la gente. “Matemática creativa” suena como algo por lo que un contable podría acabar en la cárcel.

Alicia
El gran problema que señalan los investigadores es que todas esas pruebas son islas aisladas. Tienes una prueba para palabras, una para código, otra para historias, ...

Beto
... pero no hay una puntuación general de creatividad.

Alicia
Exacto. Y encima hay un problema mayor encima de todo esto: el cuello de botella humano, ...

Beto
Ah, es decir, la escalabilidad.

Alicia
La creatividad es notoriamente subjetiva. Históricamente, para juzgar una historia necesitas que un humano la lea. Pero piensa en el ciclo de liberación de modelos hoy.

Beto
Recibimos nuevos modelos o actualizaciones masivas literalmente cada semana.

Alicia
Correcto. Si necesitas un panel de jueces humanos que lean mil historias cada vez que un desarrollador cambia un hiperparámetro, nunca vas a lanzar tu producto.

Beto
Quedarías permanentemente atascado en pruebas.

Alicia
Exacto. Es lento, caro y los humanos son inconsistentes: nos cansamos, nos aburrimos. Por eso CreativityPrism no es solo una nueva prueba; es una propuesta para automatizar el proceso de calificación sin perder esa sutileza humana.

Beto
Hablemos del marco mismo. Se llama “prisma” porque descompone la creatividad en diferentes espectros. ¿Qué estamos viendo exactamente?


CreativityPrism - Marco para medir la creatividad de la IA

Alicia
Proponen una visión holística que combina ocho tareas específicas repartidas en tres dominios principales. Y creo que la elección de dominios es interesante porque nos obliga a ampliar nuestra propia definición de lo que es creatividad.

Beto
El primer dominio es probablemente con el que más estamos familiarizados: pensamiento divergente.

Alicia
Es brainstorm puro. Es la capacidad de tomar un punto de partida y expandirlo en una gran variedad de direcciones.

Beto
El artículo destaca una tarea concreta que a mí me costó bastante: la tarea de “10 sustantivos irrelevantes”.

Alicia
Me encanta esta. El enunciado es muy simple: escribe 10 sustantivos en inglés que sean lo más irrelevantes entre sí posible.

Beto
Suena facilísimo hasta que lo intentas. Yo lo intenté esta mañana. Puse “manzana” y enseguida mi cerebro gritó “naranja”. Luego “árbol”. Luego “gusano”.

Alicia
Así funcionan las asociaciones humanas. Funcionamos con cadenas de asociaciones. Para ser verdaderamente divergente tienes que romper esa cadena. Tienes que suprimir la conexión obvia.

Beto
El artículo muestra una respuesta de modelo que lo clavó: listó "volcán, violín, democracia, alfombra, bacteria".

Alicia
Es una lista genuinamente bellísima.

Beto
Lo es. "Democracia" y "alfombra" tienen casi cero solapamiento semántico.

Alicia
Y piensa lo que eso supone para una IA: estos modelos son predictores de siguiente token. Están entrenados estadísticamente para predecir la palabra más probable que sigue.

Beto
Correcto. Si digo “peanut butter”, manteca de cacahuete, el modelo realmente quiere decir “gelatina”.

Alicia
Precisamente. Así que pedirle que sea lo emergente es pelear contra su propia arquitectura. Le pides a una máquina de probabilidad que sea altamente improbable.

Beto
Tiene sentido. Por eso el pensamiento divergente es una prueba de estrés: mide si puede salirse de su propia gravedad estadística.

Alicia
Sí.

Beto
OK. El segundo dominio es la escritura creativa. Esto parece el dominio más artístico y tradicional.

Alicia
Así es. Pero no se limitaron a “escribe un poema”; usaron una tarea de cuento corto con un prompt muy específico y constreñido.

Beto
Tengo el prompt aquí. Dice: “Escribe una historia al estilo de The New Yorker con la siguiente trama. Asegúrate de que tenga al menos 2000 palabras. Argumento: Una mujer vive una noche desorientadora en una sala de maternidad...”.

Alicia
Le das personaje, tiempo, estado, y localización.

Beto
Obliga a la IA a coger un hilo narrativo que ya está en marcha. No puede salir por la tangente con un cuento genérico de dragones.

Alicia
Correcto. Tiene que entender profundamente la dinámica social implícita. Prueba escena, exposición, coherencia, perspectiva, y ajuste de tono.

Beto
¿Puede la IA tejer una historia que parezca continuación natural y no un giro brusco?

Alicia
Exacto.

Beto
Y el tercer dominio sorprende a mucha gente.

Alicia
Razonamiento lógico, el dominio Spock.

Beto
Sí, el dominio Spock. ¿Desde cuándo escribir código o resolver matemáticas se considera creativo? Siempre pensé que la creatividad era romper reglas, no seguir leyes matemáticas estrictas.

Alicia
Es una idea muy común. Pero si hablas con un ingeniero senior o un matemático te dirán que su trabajo es increíblemente creativo porque consiste en resolver problemas bajo restricciones.

Beto
“Bajo restricciones” es la frase clave.

Alicia
Si te pido que vayas del punto A al punto B andando en línea recta no es creativo. Pero si te digo que llegues al punto B, que el suelo es lava y solo puedes usar una cuchara, de pronto tienes que ser extremadamente creativo.

Beto
Tienes que ingeniártelas al estilo MacGyver.

Alicia
Exacto. El artículo usa la tarea NeoCoder para probar esto.

Beto
El prompt pide resolver un problema algorítmico estándar, encontrar la longitud de una subcadena, pero mete una “pastilla envenenada” de restricción: explícitamente dice que "no uses recursión".

Alicia
Para quienes no programan, la recursión es básicamente la solución estándar para este problema.

Beto
Es como pedirle a un carpintero que haga una mesa sin usar un martillo.

Alicia
Quitar la herramienta obliga al modelo a inventar un destornillador sobre la marcha. Tiene que derivar una solución que no sea la que vio un millón de veces en sus datos de entrenamiento.

Beto
Aquí la creatividad no es hacer arte: es ingenio.

Alicia
Es pensamiento lateral. ¿Puedes encontrar una puerta lateral cuando la puerta principal está cerrada?

Beto
Teniendo los tres dominios, pensamiento divergente, escritura creativa y resolución de problemas lógicos, ¿cómo los califican? No puedes poner un pulgar arriba a un poema.

Alicia
Aquí entra la metáfora del prisma: descomponen la puntuación en tres dimensiones para cada respuesta: calidad, novedad y diversidad.

Beto
Desgranémoslas porque la tensión entre estas tres es donde están las verdaderas conclusiones.

Alicia
Primero, calidad: es la base. ¿Es la respuesta útil? ¿Tiene sentido? Si pides un cuento y la IA te entrega una cadena aleatoria de letras, puede que sea única, pero no tiene calidad.

Beto
El artículo menciona elaboración y utilidad como métricas aquí.

Alicia
Luego novedad: ¿es original? ¿Sorprende? Mide si la IA está rompiendo el molde.

Beto
Y finalmente diversidad.

Alicia
O flexibilidad: si pido diez ideas, ¿recibo diez conceptos distintos o diez variaciones leves de la misma idea?

Beto
Para hacer esto a escala, calificar miles de respuestas en estas tres métricas, usan LLMs como jueces.

Alicia
Es una metodología que está ganando tracción.

Beto
Básicamente dejan que las máquinas califiquen su propia tarea.

Alicia
Lo hacen inteligentemente: usan modelos muy potentes como GPT-4 para evaluar las salidas de otros modelos. Y esto lo validaron primero con anotaciones humanas de alta calidad.

Beto
Es decir, hicieron que humanos calificaran una muestra; comprobaron que los jueces IA coincidían con los humanos; y luego dejaron que la IA hiciera el resto del enorme conjunto de datos.

Alicia
Exacto. Establecer una “verdad de referencia” antes de automatizar es, en la práctica, la única forma de hacerlo escalable sin perder precisión.

Beto
Bien, tenemos el mapa y el prisma listos. ¿Y qué encontraron? Probaron 17 modelos de última generación: algunos propietarios y costosos (los de suscripciones) y otros open-source que puedes descargar y ejecutar en tu máquina.

Alicia
Los resultados fueron, honestamente, un poco contraintuitivos.

Beto
Empecemos por los pesos pesados, los modelos propietarios. ¿Cómo les fue?

Alicia
En escritura creativa y razonamiento lógico, los modelos propietarios ganan, y no por poco.

Beto
¿Qué magnitud de ventaja?

Alicia
Estamos viendo aproximadamente un 15% de ventaja en esos dominios específicos.

Beto
Es significativo. Así que si necesitas un cuento corto o resolver un problema de programación complejo sin recurrir a recursión, probablemente convenga quedarte con los modelos de pago.

Alicia
Generalmente, sí. La razón parece recaer en la dimensión de calidad: esos modelos están pulidísimos, son coherentes, siguen instrucciones y rara vez fallan. Son empleados fiables.

Beto
Pero aquí viene el giro: esa dominancia no se mantuvo en todas las pruebas.

Alicia
Cuando miraron el pensamiento divergente, el brainstorming, la tarea de sustantivos irrelevantes, esa ventaja se evaporó.

Beto
¿No fueron mejores los modelos propietarios comparados con los open source?

Alicia
Estadísticamente fue un empate técnico. Los modelos open-source estuvieron bien representados.

Beto
¿Por qué?

Alicia
La hipótesis de los investigadores es que tiene que ver con cómo se entrenan los modelos comerciales. Pasan por un proceso llamado RLHF: "aprendizaje por refuerzo con retroalimentación humana".

Beto
Ahí es donde los humanos puntúan las respuestas para enseñar al modelo a ser “bueno”.

Alicia
¿Qué están recompensando los humanos en ese proceso? Recompensamos seguridad, coherencia y la respuesta más probable y sensata. Normalmente no premiamos el caos o las asociaciones salvajes.

Beto
Así que al entrenarlos para ser asistentes útiles y corteses, quizá inadvertidamente les quitamos lo salvaje.

Alicia
Exacto. Hemos alisado todos los bordes ásperos. Pero el pensamiento divergente existe en esos bordes. Los modelos open-source, que suelen estar menos alineados o filtrados, parecen conservar un poco más de esa capacidad cruda de asociación aleatoria.

Beto
Eso es una gran conclusión: si usas IA para salir de un bache creativo, no necesariamente necesitas la herramienta más cara. De hecho, la herramienta cara podría estar demasiado educada para darte la idea loca que necesitas.

Alicia
Literalmente, podría tener demasiado miedo a equivocarse para ser creativa.

Beto
Esto nos lleva al hallazgo más profundo del artículo: la paradoja de la novedad.

Alicia
Los investigadores analizaron las correlaciones entre calidad, novedad y diversidad. Idealmente quieres un modelo que puntúe alto en todo.

Beto
Sí. Quieres alta calidad y gran originalidad.

Alicia
Pero los datos muestran una fricción enorme; casi un intercambio directo. Concretamente, las métricas de novedad suelen mostrar correlaciones débiles o incluso negativas con otras métricas.

Beto
Correlaciones negativas. Cuanto más novedosa es la respuesta, más baja tiende a ser la puntuación de calidad.

Alicia
Con frecuencia, sí. Si un modelo se esfuerza demasiado por sorprender, la utilidad se desploma. Se vuelve raro en lugar de revelador.

Beto
Es como ese amigo que intenta ser diferente a toda costa y acaba siendo incomprensible: “comamos sopa con tenedor, mirad lo original que soy”.

Alicia
Sí, es novedoso, pero como experiencia culinaria es terrible. Esa contradicción es la lucha central de la IA generativa ahora mismo. Es muy difícil ser original sin derivar al absurdo.

Beto
Y eso complica mucho la construcción de un modelo creativo general: si optimizas por calidad pierdes novedad; si optimizas por novedad, pierdes calidad.

Alicia
También tocan la idea de generalización: ser bueno en una cosa no implica ser bueno en otra.

Beto
La falacia del chico listo. El “chico listo” no siempre es versátil.

Alicia
Correcto. Que un modelo sea un genio en NeoCoder y lógica no significa que escriba una historia empática y matizada sobre "la mujer desorientada en la sala de maternidad". Las habilidades no se transfieren automáticamente.

Beto
Validan así el concepto del prisma: no puedes darle a una IA una sola puntuación tipo CI para la creatividad.

Alicia
Es desigual, con picos muy marcados.

Beto
¿Qué significa todo esto para ti? Hemos analizado el marco, los dominios y los trade-offs (compromisos).

Alicia
Plantea una pregunta fundamental sobre lo que realmente queremos de la IA. Hoy los incentivos comerciales empujan hacia calidad, utilidad, seguridad y precisión. Estamos entrenando estos modelos para que sean el empleado corporativo perfecto.

Beto
¿Los estamos volviendo aburridos?

Alicia
Ese es el gran temor. Si filtramos toda la rareza para garantizar alta calidad quizá estemos lobotomizando el potencial de la máquina para una creatividad verdaderamente transformadora.

Beto
Porque la verdadera innovación a menudo parece un gran error al principio.

Alicia
Exacto. La penicilina fue un accidente, el marcapasos fue una casualidad feliz. Si tienes una IA aterrorizada de equivocarse, quizá nunca tengas esos “accidentes felices”.

Beto
¿Queremos aceptar un poco más de caos en las salidas para permitir creatividad de verdad?

Alicia
Puede que tengamos que tolerar puntuaciones de calidad más bajas, a corto plazo. Permitir que los modelos estén un poco equivocados o raros para que luego puedan llegar a aciertos brillantes.

Beto
Es una propuesta complicada en un contexto corporativo: “disculpa, confundí tu informe legal, estaba siendo creativa”.

Alicia
Difícil de vender. Pero para un compañero creativo tal vez sea justo lo que necesitamos: una herramienta que no tema sugerir la idea del tenedor-sopa porque quizá esa rareza desencadene algo en tu cerebro humano que conduzca a un verdadero avance.

Beto
Es una asociación: la IA aporta la divergencia; el humano aporta la convergencia y control de calidad.

Alicia
Esa es la zona dulce. Usa los modelos open-source más salvajes en la fase de brainstorming; usa los modelos propietarios y pulidos en la fase de ejecución. No pidas a la misma herramienta que haga ambos trabajos.

Beto
Me gusta ese enfoque: trátalos como un equipo de especialistas, no como un genio universal.

Alicia
Precisamente. Y no descartes un modelo solo porque a veces dé respuestas raras: esa rareza puede ser la característica, no el error.

Beto
Eso es todo en este análisis profundo sobre CreativityPrism. Es una mirada fascinante a cómo los investigadores intentan medir lo que parece inmedible. Te animo a probar la prueba hoy mismo: escribe 10 sustantivos que no tengan absolutamente nada que ver entre sí.

Alicia
Y no hagas trampa: si piensas “perro”, no puedes escribir “gato”.

Beto
Es mucho más difícil de lo que parece. Gracias por escuchar y nos vemos en el próximo análisis profundo.