jueves, 26 de febrero de 2026

LLMs para CAD

 
 

Este estudio explora la integración emergente de los Modelos de Lenguaje de Gran Tamaño (LLM) con el Diseño Asistido por Computadora (CAD) para automatizar y optimizar los flujos de trabajo de modelado 3D. Los autores clasifican la investigación actual en aplicaciones clave, como la generación de código CAD y la síntesis paramétrica CAD, donde modelos como GPT-4o y Llama-3 interpretan texto o imágenes para crear diseños digitales. El texto detalla conceptos fundamentales de IA, como el ajuste fino, la indicación y la alineación, a la vez que proporciona una taxonomía de los diversos conjuntos de datos y métricas de evaluación utilizados en este campo. Mediante el análisis de modelos de código cerrado y públicos, la fuente destaca cómo estas tecnologías acortan la distancia entre las instrucciones en lenguaje natural y la geometría compleja de ingeniería. Finalmente, el artículo identifica futuras direcciones críticas, como la aplicación de la IA al diseño de interiores, la fabricación textil y la automatización del cumplimiento normativo en edificios.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Large Language Models for Computer-Aided Design: A Survey", por Licheng Zhang y colegas. Publicado el 13 de Mayo de 2025. También publicado en ACM Computing Surveys el 11 de Febrero del 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Tengo una pregunta para ti. Y es rara.

Alicia
Bien. Estoy lista.

Beto
Imagina que estás de pie en un hangar vacío, una habitación enorme y vacía, sin nada dentro. Y empiezas a hablar.

Alicia
Como para mí misma.

Beto
Sí, exactamente. Pero estás describiendo un motor a reacción y no solo un gran ventilador de metal. Describes las líneas de combustible, las placas de la turbina, las proporciones de compresión exactas.

Alicia
Sí, las especificaciones de ingeniería reales.

Beto
Exacto. Y mientras hablas, el motor simplemente se manifiesta allí delante de ti, no un holograma. Los planos físicos reales y el código de la máquina para cortar el metal aparecen de la nada.


Diseñando un motor a reacción

Alicia
Quiero decir, eso es el sueño definitivo de la ciencia ficción, ¿no? El momento replicador de Star Trek.

Beto
Lo es. Y durante mucho tiempo, eso se sintió como pura magia. Pero estaba leyendo este montón de artículos que me enviaste para el análisis profundo de hoy, específicamente esta enorme encuesta del ACM Computing Service.

Alicia
Ah, el artículo de Zhang.

Beto
Sí, publicado este mes, febrero de 2026. "Modelos de lenguaje grandes para diseño asistido por computadora". Y tengo que admitir que se me puso la piel de gallina leyéndolo. Porque realmente parece que ya no estamos hablando de magia. Estamos hablando de ingeniería real.

Alicia
Absolutamente. Y el equipo detrás de ese trabajo, Licheng Zhang, Bach Le y sus colegas, señalan un cambio fundamental en cómo se crean los objetos físicos.

Beto
Exacto.

Alicia
Básicamente estamos pasando de un mundo donde los humanos dibujan líneas a pulso en una pantalla a un mundo donde los humanos describen sus intenciones y las máquinas se encargan de toda la geometría compleja.


LLMs para CAD

Beto
Lo cual es enorme para la industria del CAD ("Computer-Aided Design", "diseño asistido por computador"), ¿no? Estamos hablando de una industria de 24 mil millones de dólares aquí. Pero mira, seamos realistas un segundo. Yo uso IA todo el tiempo. La uso para escribir correos o quizá generar una imagen graciosa de un gato con traje espacial.

Alicia
Claro.

Beto
Pero esa imagen, si la miras de cerca, al gato suele salirle como seis dedos en las patas. O la iluminación es completamente imposible. Es onírica. Y no puedes construir un puente con tu onírico.

Alicia
No, no puedes.

Beto
Si un puente tiene seis dedos o fallas estructurales, la gente muere. Así que para todos los que nos escuchan hoy, nuestra misión es averiguar esto. ¿Cómo cerramos la brecha entre un generador de texto divertido y la ingeniería de precisión?

Alicia
Esa es la pregunta central. Y la respuesta realmente radica en cómo han evolucionado estos modelos en los últimos años. Ya no tratamos con simples chatbots. La encuesta describe toda una nueva generación de modelos de lenguaje multimodales (MMLM).

Beto
OK, multimodal. Esa es una palabra de moda que oigo mucho. ¿Nos la desglosas en el contexto del CAD?

Alicia
Claro. Piensa en cómo trabaja realmente un ingeniero humano. No se sienta solo a leer un libro de texto. Mira diagramas. Sostiene piezas físicas en las manos. Hace bocetos en servilletas.

Beto
Es un proceso muy visual y táctil.

Alicia
Exacto. Y un modelo multimodal opera de la misma manera. La encuesta destaca a los grandes actores propietarios: primero el GPT-4o de OpenAI, el modelo Omni, y la serie Gemini de Google. Estos sistemas pueden ingerir texto, imágenes, audio y vídeo simultáneamente. No solo leen. Ven. Y lo que es más importante, entienden las relaciones espaciales.

Beto
OK. Pero esos son los sistemas cerrados, las grandes cajas negras corporativas. Leyendo la encuesta, parecían muy entusiasmados con lo de código abierto.

Alicia
Oh, definitivamente. Ahí es donde ocurre la innovación más dirigida para tareas especializadas como esta. Los investigadores señalan específicamente a la familia Llama de Meta. Y aún más interesante, la familia DeepSeek.

Beto
Sí, vi eso. Y hubo un número que me saltó respecto a Llama 4, que se lanzó en 2025. Decía que soporta hasta 10 millones de tokens.

Alicia
Sí. 10 millones.

Beto
Quiero decir, sé que los tokens son básicamente fragmentos de palabras, pero 10 millones. Suena a una cantidad masiva de texto. ¿Por qué importa eso para diseñar, digamos, un engranaje simple? Un engranaje no es una novela.

Alicia
No es una novela, no. Pero ¿y un motor a reacción o un rascacielos? Eso no es solo una novela. Eso es toda una biblioteca de información.

Beto
OK. Punto justo.

Alicia
Piensa en un proyecto CAD complejo en el mundo real. No es solo la forma 3D. Son las propiedades del material. Son las normativas de seguridad. Es la documentación heredada del modelo antiguo que fabricaste hace cinco años. Son las notas de compatibilidad con las fresadoras específicas que usa tu fábrica.

Beto
Ya veo. Entonces la IA tiene que poder mantener todo ese contexto en su “cabeza” al mismo tiempo.

Alicia
Exacto. En los viejos tiempos, que en términos de IA es como hace dos años, un modelo podía leer el manual de seguridad, empezar a diseñar la pieza y luego literalmente olvidarse de los requisitos máximos de carga para cuando llegaba al sujetador.

Beto
Se quedó sin memoria.

Alicia
Correcto. Su ventana de contexto era demasiado pequeña. Pero con una ventana de contexto de 10 millones de tokens, Llama 4 puede mantener efectivamente toda la historia de ingeniería de una empresa en su memoria de trabajo mientras diseña una sola pieza diminuta. Asegura consistencia global en todo el proyecto.

Beto
Eso es una locura. Es como tener un ingeniero que ha memorizado perfectamente cada memo y plano que la empresa ha producido.

Alicia
Y que nunca necesita un descanso para el café.

Beto
Exacto.

Alicia
Pero luego miras DeepSeek V3. La encuesta realmente aprecia este modelo por su arquitectura específica. Usa algo llamado "Mixture of Experts", MoE.

Beto
Que suena a un programa de paneles diurno en la tele.

Alicia
Suena así. Pero en realidad es una manera brillante de ahorrar potencia de cómputo. Mira, diseñar formas 3D es computacionalmente costoso. Si usas un cerebro general enorme para cada cálculo pequeñísimo, vas a quemar tu servidor.

Beto
Es demasiado.

Alicia
Exacto. Así que mixture of experts significa que el modelo se divide en subredes altamente especializadas. Si le pides una descripción en texto, solo se activa la parte escritora del cerebro. Si pides un cálculo de coordenadas preciso, se activa el matemático.

Beto
Así que es pura eficiencia. No está disparando todas sus neuronas todo el tiempo.

Alicia
Precisamente. Y esa eficiencia es crucial porque permite que estos modelos sean lo suficientemente ágiles como para integrarse en los flujos de trabajo cotidianos. No necesitas una supercomputadora masiva solo para ejecutar una consulta de diseño simple.

Beto
OK. Tenemos los cerebros. Tenemos la memoria masiva. Ahora hablemos de las manos. Porque esta es la parte que aún me cuesta visualizar.

Alicia
La parte de creación real.

Generación de Código CAD

Beto
Sí. Me siento frente al ordenador. Escribo, "hazme una brida con cuatro orificios para tornillos". ¿Qué pasa realmente? Porque la IA no tiene ratón. No está moviendo un cursor y haciendo clic en círculos en AutoCAD.

Alicia
No, no está haciendo clic en nada. Está programando. Y esta es la primera aplicación central que los investigadores identifican en la encuesta: generación de código CAD.

Beto
Entonces la salida no es un dibujo en absoluto. Es solo texto.

Alicia
Es código que crea el dibujo. Piénsalo como un guion para una película. La IA escribe un guion, usualmente en Python, C++ o un lenguaje especializado llamado CadQuery. Ese script contiene instrucciones explícitas paso a paso.

Beto
¿Como qué?

Alicia
Como dibuja un círculo en la coordenada 0,0, extrúyelo 10 milímetros, ahora corta un cilindro en la coordenada 2,2.

Ejemplo de CadQuery:

  import cadquery as cq

  circle_radius = 50.0  # radio del plato
  thickness = 13.0  # grosor del plato
  rectangle_width = 13.0  # ancho del hueco rectangular en el plato cilindrico
  rectangle_length = 19.0  # longitud del hueco rectangular en el plato cilindrico

  result = (
      cq.Workplane("front")
      .circle(circle_radius)
      .rect(rectangle_width, rectangle_length)
      .extrude(thickness)
  )

  show_object(result)

Beto
Ah, o sea que describe la geometría puramente de forma matemática.

Alicia
Sí. Y esto es muy superior a solo generar una malla 3D, ya sabes, como los assets que ves en videojuegos.

Beto
¿Por qué es mejor?

Alicia
Porque el código es editable. Es paramétrico. Si generas una malla y está un poco pequeña, tienes que estirar todo, lo que la distorsiona. Pero si es código y quieres cambiar el tamaño de un agujero, solo cambias una variable en el script de 5 a 6. Y todo el modelo se actualiza a la perfección.

Beto
Lo entiendo. Pero espera. Le he pedido a la IA que escriba código antes. Solo cosas simples, como un botón para una página web. Y honestamente, la mitad de las veces no funciona a la primera.

Alicia
Oh, absolutamente.

Beto
Se olvida de un corchete. O importa una librería que ni siquiera existe. Si hace eso con una pieza mecánica, el software CAD se cuelga. O peor, la pieza se genera pero es físicamente imposible de fabricar.

Alicia
Tienes toda la razón en ser escéptico. Las alucinaciones en código son una molestia menor para el diseño web, pero son un rompe-negocios completo en ingeniería. Exactamente por eso la encuesta detalla flujos de trabajo muy específicos usados por sistemas más nuevos, como Query2CAD y CADCodeVerify. No es una línea recta del prompt al producto. Es un bucle, un ciclo.

Beto
¿Qué tipo de bucle?

Alicia
Bucle de autocorrección. Así es como funciona en la práctica. Le das al sistema tu prompt, el modelo de lenguaje escribe el código. Pero en lugar de entregarte ese código, el sistema lo intenta ejecutar en un motor CAD en segundo plano.

Beto
OK, así que corre una prueba.

Alicia
Correcto. Y si el código falla, digamos que la IA intentó cortar un agujero en el vacío, donde no hay material, el motor CAD lanza un mensaje de error. Dice algo como "error, operación booleana fallida".

Beto
OK.

Alicia
El sistema toma ese mensaje de error exacto y se lo devuelve a la IA.

Beto
Así que básicamente le dice, "oye, la embarraste. Aquí está el error, arréglalo".

Alicia
Exacto. Y la IA va, "ah, veo mi error. Necesito mover la operación de corte para que intersecte con el cuerpo principal". Y reescribe el código. Itera una y otra vez hasta que el código se ejecute sin errores.

Beto
Eso es increíblemente ingenioso. Es como que se depura a sí misma antes de que tú lo veas.

Alicia
Se pone aún más guay que eso. Algunos de los pipelines más avanzados no solo comprueban si el código se ejecuta sin fallos. Realmente renderizan el resultado. Sacan una imagen 2D de la forma 3D final y alimentan esa imagen al modelo de visión de la IA.

Beto
Oh, wow. Entonces la IA mira lo que acaba de construir y lo compara con mi problema de texto original.

Alicia
Precisamente. Aquí es donde la capacidad multimodal realmente rinde frutos. Cierra el bucle entre la instrucción semántica, como cuatro orificios, y la realidad visual. La encuesta señala que GPT-4V, la versión con visión, es significativamente mejor en esto que los modelos solo de texto, precisamente porque puede verificar su propio trabajo visualmente.

Beto
Así que literalmente puede mirar el render y decir, "espera, el usuario pidió cuatro orificios, pero solo veo tres. Tengo que volver y arreglarlo".

Alicia
Exacto. Detecta sus propias alucinaciones visuales.

Beto
Tiene mucho sentido.

Generación de Diseño Paramétrico

Beto
Pero no sé. Estamos dejando que la IA escriba código de programación crudo desde cero. Sigue pareciéndome arriesgado. ¿Hay forma de hacer esto sin confiar en que la IA sea una programadora impecable?

Alicia
Sí, la hay. Y eso nos lleva a la segunda categoría mayor en la encuesta: generación de diseño paramétrico.

Beto
OK, ¿en qué se diferencia eso de la generación de código?

Alicia
Si la generación de código es escribir una novela completamente desde cero, la generación paramétrica es más como rellenar un formulario extremadamente detallado. Ya tienes una receta para un tipo específico de objeto. Digamos una silla. La estructura está definida, pero la receta tiene variables como longitud, ancho del asiento, ángulo del respaldo.

Beto
Lo entiendo. La lógica fundamental ya existe. La IA solo está moviendo las perillas.

Alicia
Exacto. La IA no está inventando la lógica. Está prediciendo los parámetros específicos. Sale con una secuencia estandarizada de operaciones o quizá un archivo JSON. Solo dice "dibuja círculo, extruye 50, corta 10".

Beto
Eso suena mucho más seguro. Estás restringiendo a la IA para que no pueda inventar accidentalmente, no sé, una silla que flote en el aire.

Alicia
Es mucho más estable. La encuesta destaca un conjunto de datos masivo llamado DeepCad que se usa intensamente para entrenar modelos en estas secuencias. Es esencialmente un terreno de entrenamiento donde la IA aprende la gramática básica de las formas 3D.

Beto
Así que herramientas como Text-to-CAD usan este enfoque.

Alicia
Claro. Escribes un taburete alto con respaldo pequeño y la herramienta traduce la palabra “alto” en longitud de pata = 800 milímetros y “respaldo pequeño” en altura del respaldo = 150 milímetros.

Beto
Pero hay una matización ahí, ¿no? Porque “alto” es subjetivo. Si empiezo a jugar con los parámetros de la longitud de las patas al azar, podría acabar con una silla que tiene el centro de gravedad demasiado alto y se vuelca en cuanto te sientas.

Alicia
Oh, sí. Eso se conoce como el problema de las restricciones. Y la encuesta discute un marco llamado CADFusion que intenta resolver exactamente eso. Usa un sistema de recompensa especializado durante el entrenamiento. Entrena al modelo no solo para que coincida con el prompt de texto, sino para crear un objeto que sea coherente visual y físicamente. Obliga a que los parámetros matemáticos se alineen con expectativas visuales del mundo real.

Beto
OK, parece que nos estamos acercando a la fiabilidad real. Pero quiero volver a mi comentario del gato con seis dedos de antes.

Alicia
Claro.

Puntos Críticos

Beto
En arte digital, un error es solo una peculiaridad estilística. En ingeniería, un error es una falla catastrófica. ¿Cómo evaluamos realmente a estas IAs? No es como si pudieras dar a un modelo de lenguaje un examen de opción múltiple sobre diseño de sillas. ¿Cómo sabemos objetivamente que el diseño de la IA es bueno?

Alicia
Esto nos lleva a la sección de críticos de la encuesta. Y honestamente, la evaluación es uno de los problemas más difíciles que están tratando de resolver ahora mismo.

Beto
Porque si te pido una mesa de café moderna, hay un millón de respuestas correctas.

Alicia
Exacto. Así que los investigadores tienen que usar métricas bastante complejas para puntuar a los modelos. La grande que mencionan constantemente se llama "distancia de Chamfer".

Beto
Distancia de Chamfer. OK, sé que un “chamfer” es un bisel en carpintería o metalurgia. Pero supongo que esto significa algo completamente distinto en IA.

Alicia
Sí, es una forma matemática de medir la diferencia entre dos formas 3D. Imagina que tienes la versión perfecta de un objeto: el modelo de referencia creado por un ingeniero humano maestro. Y luego tienes la versión de la IA. Disuelves ambos modelos sólidos en nubes de miles de puntitos flotantes.

Beto
OK, me imagino dos nubes de puntos holográficas y fantasmales.

Alicia
Correcto. Entonces calculas la distancia promedio desde cada punto en la nube de la IA hasta el punto más cercano en la nube humana perfecta.

Beto
Ah, ya veo. Así que si los modelos fueran absolutamente idénticos, la distancia sería cero. Pero si la IA hizo la pata de la mesa demasiado gruesa, sus puntos sobresaldrán más y la puntuación promedio de distancia sube.

Alicia
Exacto. Es una forma puramente matemática de cuantificar el error de la forma. También usan métodos estadísticos como la divergencia de Jensen-Shannon.

Beto
¿Qué es eso?

Alicia
Básicamente mide cuán similar es la distribución global de las formas generadas respecto a las formas del mundo real. Pero sinceramente, la métrica más práctica en la que confían es simplemente la tasa de éxito.

Beto
Que significa, ¿se ejecuta una corrida?

Alicia
¿El código se ejecuta sin que el software CAD se estrelle? Porque te sorprendería. Muchos modelos tempranos escribían código que parecía perfecto para un revisor humano, pero contenía errores lógicos sutiles que creaban lo que se llama "geometría no manifold".

Beto
No manifold. ¿Qué significa eso?

Alicia
Significa formas que no pueden existir físicamente en el mundo real.

Beto
Como una pintura de Escher.

Alicia
Algo así, como un objeto sólido que tiene área superficial pero volumen cero, o dos aristas que se encuentran de una forma que crea una línea infinitamente delgada. Un motor de videojuegos podría renderizarlo bien, pero una impresora 3D o una máquina CNC se moriría con eso.

Beto
Porque no puedes imprimir algo infinitamente delgado. Así que la IA está prácticamente alucinando física imposible.

Alicia
A veces sí. Y eso conduce probablemente al mayor dolor de cabeza mencionado en toda la encuesta: la alineación multimodal.

Beto
Ahora, normalmente cuando hablamos de alineación y de IA, hablamos de ética, asegurarnos de que la IA no diga algo ofensivo o ayude a alguien a construir un arma. ¿Qué significa alineación en el contexto del CAD?

Alicia
Aquí significa que los distintos “sentidos” de la IA tengan que estar realmente de acuerdo entre sí. Imagina que tu prompt de texto pide un soporte de aluminio. La IA genera código y el render visual crea una forma que se ve exactamente como un soporte metálico robusto.

Beto
Suena bien hasta aquí.

Alicia
Pero los parámetros internos que se guardan en los metadatos podrían haber definido por accidente la densidad del material como si fuera un plástico barato.

Beto
Oh, wow. Así que visualmente en pantalla, parece totalmente bien. Pero si haces una simulación de esfuerzo sobre ello, se hace trizas de inmediato.

Alicia
Exacto. La salida visual y los datos de ingeniería subyacentes están desalineados. Esto es increíblemente peligroso, porque un ingeniero humano podría mirar el render, decir, se ve bien para mí, y no darse cuenta de que los datos físicos subyacentes son basura hasta que realmente fabrican la pieza y se rompe en el campo.

Beto
Eso es aterrador. ¿Por qué pasa eso? ¿La IA está adivinando los metadatos al azar?

Alicia
Es en gran parte un problema de escasez de datos. La encuesta lo señala de forma muy contundente. Tenemos miles y miles de millones de imágenes de gatos y atardeceres en Internet público para entrenar generadores de imágenes. No tenemos miles de millones de archivos de ingeniería paramétrica de alta calidad y completamente anotados con datos de materiales.

Beto
Porque las empresas los guardan bajo llave; Boeing y Ford no están subiendo sus planos propietarios a GitHub para que cualquiera los descargue.

Alicia
Exacto. Todo es propiedad intelectual altamente protegida. Así que la IA entrena mayoritariamente en bases de datos sintéticas: cubos, esferas, soportes genéricos, mesas simples. Tiene problemas con ensamblajes complejos del mundo real porque esos son secretos industriales.

Beto
Tiene todo el sentido. Basura entra, diseños simples salen.

Fronteras Futuras

Alicia
Pero, y aquí es donde vuelve el optimismo: a pesar de estos límites severos de datos, la tecnología ya está irrumpiendo en industrias sorprendentemente variadas. La encuesta dedica toda una sección a fronteras futuras y algunas de ellas honestamente no las vi venir.

Beto
Sí, vi moda en esa lista, lo cual me pareció muy raro. Siempre pienso en CAD para cosas duras. Metal, plástico, hormigón; la moda es blanda, se pliega.

Alicia
Es blanda, pero piensa en el proceso de fabricación real, el patronaje. Una camisa empieza como una forma geométrica 2D precisa dibujada en una pieza plana de tela. La cortas y se pliega alrededor de un cuerpo humano 3D complejo. Eso es pura topología y geometría.

Beto
Supongo que es cierto. Es esencialmente ingeniería blanda.

Alicia
La encuesta señala que la industria de la moda es masiva, pero la adopción de LLM allí es actualmente mínima. Visualizan flujos de trabajo de texto a patrón. Simplemente describes un vestido: "quiero un corte vintage, línea A, hasta la rodilla", y la IA genera instantáneamente el patrón 2D preciso necesario para coserlo perfectamente.


Patrón de ejemplo: la curva Gosper (un fractal moderno)


Concepto creado con Google Whisk (animado)

Beto
Eso sería increíble para ropa a medida. No más depender de tallas estándar que no le quedan bien a nadie.

Alicia
Exacto. Luego está la construcción naval, que la encuesta dice que básicamente es arquitectura flotante, pero que hasta ahora ha tenido sorprendentemente poco enfoque en IA.

Pero la frontera que creo que tiene la aplicación más inmediata, aburrida pero muy rentable, está en el sector AEC: Arquitectura (homeGPT, roomGPT), ingeniería y construcción. Específicamente, algo llamado "comprobación de cumplimiento", "Building Compliance Checking".

Beto
OK, tienes razón. Comprobación de cumplimiento es probablemente la frase menos sexy que he oído hoy. ¿Por qué es una frontera tan masiva?

Alicia
Porque soluciona un problema gigantesco y universal. Piénsalo. Ahora mismo, comprobar si un diseño de edificio cumple el código municipal implica a una persona muy bien pagada leyendo un PDF de 500 páginas de regulaciones locales. Y luego tiene que revisar manualmente planos complejos para ver si los pasillos son lo suficientemente anchos para sillas de ruedas o si las salidas de emergencia están colocadas correctamente.

Beto
Es tedioso. Es lento. Es caro. Y me imagino que la gente se cansa, y se le pasan por alto algunas cosas.

Alicia
Todo el tiempo. Y si te pasas por alto una violación del código de incendios en la planta 12, te pueden demandar o tienes que literalmente derribar un muro de hormigón después de construido. La encuesta sugiere que los LLM son absolutamente perfectos para esto. Pueden ingerir y entender instantáneamente el texto de la ley. Y con estas nuevas capacidades multimodales, pueden mirar directamente el modelo BIM 3D, el modelo de información del edificio.

Beto
Así que la IA lee las ordenanzas. Escanea el modelo 3D del edificio y simplemente señala un lugar y dice, "oye, este vano de puerta tiene dos pulgadas de menos según la página 40 del código de incendios".

Alicia
Al instante. Automatiza la burocracia. Eso no es diseño generativo en el sentido creativo, pero a corto plazo es posiblemente mucho más valioso para la industria.

Beto
Básicamente es un inspector de edificios automatizado por IA. Eso me gusta mucho.

Alicia
Exacto. Y finalmente, hay otra frontera mencionada que me parece la más futurista: la ingeniería inversa. El artículo lo llama "CAD-recode".

Beto
Recode. Así que tomar algo y hacer marcha atrás.

Alicia
Sí. Tomar una simple fotografía o un escaneo 3D de un objeto completamente acabado y hacer que la IA trabaje hacia atrás para generar el código CAD original que lo construiría.

Beto
Espera, si tengo un engranaje metálico roto de un tractor vintage de 1950 y la empresa lleva décadas cerrada, ¿puedo simplemente escanear la pieza rota?

Alicia
Exacto. La IA analiza la geometría del escaneo, deduce lógicamente los pasos de fabricación. Determina, "OK, esto empezó como un cilindro, luego se dejó aquí, luego se taladró allí". Y escribe el script en Python para recrearlo desde cero.

Beto
Eso cierra completamente el ciclo de objeto físico a código digital. Y luego lo mandas a una impresora 3D y lo recuperas en físico.

Alicia
Lo hace. Habilita una cultura de reparación y un nivel de mantenimiento que no veíamos en décadas.

Beto
Pero tengo que jugar al abogado del diablo un segundo.

Alicia
Adelante.

Beto
Si esto realmente funciona, si una IA puede mirar un objeto físico acabado e instantáneamente deducir los planos precisos para manufacturarlo, ¿no rompe eso por completo el concepto de propiedad intelectual?

Alicia
Esa es exactamente la idea provocadora con la que quería dejarte hoy. La encuesta toca esa implicación porque si la barrera para copiar un producto deja de ser la habilidad de ingeniería y pasa a ser literalmente apuntar la cámara del móvil a algo, ¿qué pasa con las patentes?

Beto
En serio, si puedo entrar en la sala de exposición de un competidor, sacar una foto rápida de su zapatilla altamente ingenierizada y tener un LLM que me devuelva el archivo de manufactura exacto en cinco segundos, eso no es solo copiar. Eso es espionaje industrial a gran escala.

Alicia
Lo es. Y cambia fundamentalmente la definición de inventar. Sugiere que en un futuro muy cercano, el valor real de un producto podría moverse fuera de la forma física del objeto y hacia cosas que la IA no puede ver fácilmente en una foto.

Beto
¿Como qué?

Alicia
Como la composición química propietaria de los plásticos usados, o el software que corre en los chips internos.

Beto
Wow. Así que la “salsa secreta” tiene que ser invisible porque el mundo visible básicamente es dominio público ahora.

Alicia
Exacto. Estamos pasando rápidamente de un mundo donde el humano dibuja las líneas a un mundo donde el humano selecciona las ideas y establece las restricciones. Nos estamos convirtiendo en los directores. El modelo de lenguaje es el equipo de cámara, el escenógrafo y el inspector de seguridad todo en uno.

Beto
Y aparentemente vamos a necesitar que la IA sea también el abogado de patentes para ordenar todo esto.

Alicia
Oh, sin duda necesitaremos una nueva generación de abogados para esto.

Beto
Bueno, esto ha sido una mirada increíblemente fascinante a un mundo que, honestamente, pensé que era algo inmune a la ola de IA generativa. Resulta que nada es inmune. El mundo digital y el físico están convergiendo, y aparentemente lo están haciendo en Python.

Alicia
Hay una nueva geometría valiente ahí fuera.

Beto
Sin duda la hay. Gracias por acompañarnos en esta inmersión profunda. Nos vemos la próxima vez.

Interacción Musical Inter-Modal


 
 

Esta investigación ofrece una revisión exhaustiva de la interacción intermodal entre la música impulsada por IA y diversos formatos de datos como texto, imágenes y vídeo. Clasifica estos avances tecnológicos en marcos impulsados por la música, orientados a la música y bidireccionales, ilustrando cómo las máquinas ahora analizan, generan y sincronizan contenido auditivo complejo. Los autores trazan la evolución desde la música simbólica hasta los modelos modernos de aprendizaje profundo, incluyendo difusión y transformadores, que facilitan tareas como la transcripción de letras, la coreografía con IA y la edición de vídeo. Además, el texto detalla conjuntos de datos multimodales esenciales y métricas de evaluación objetivas utilizadas para medir la calidad y la alineación rítmica de los medios generados. Al abordar la escasez actual de datos y las limitaciones computacionales, el artículo destaca las tendencias futuras en agentes musicales multimodales y la alineación con las preferencias humanas. En última instancia, las fuentes sirven como una guía fundamental para integrar la inteligencia artificial más profundamente en los ciclos de vida creativos de la industria musical global.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "A Survey on Cross-Modal Interaction Between Music and Multimodal Data", por Sifei Li y colegas. Publicado el 21 de Febrero del 2026.

El resumen, la transcripción, la traducción, y las voces, fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.

Escúchalo aquí, mientras lees la transcripción (abajo):

O escúchalo en Spotify.


Transcripción

Beto
¿Has oído hablar alguna vez de la sinestesia?

Alicia
Oh, sí. Es esa condición neurológica realmente fascinante, ¿no? Donde los cables del cerebro se cruzan como en algo bueno...

Beto
Exacto.

Alicia
...como que puedas oír un acorde de piano específico y al instante saborear fresas. O ves el número cinco y para ti siempre es indudablemente azul brillante.

Beto
Exactamente. Es esa mezcla de los sentidos. Y para los humanos es una rareza biológica. Pero aquí está la cosa por la que nos metemos hoy: lo que antes era una anomalía rara en nosotros se está convirtiendo rápidamente en el sistema operativo estándar para la inteligencia artificial. Literalmente estamos enseñando a las máquinas a tener sinestesia.

Alicia
Esa es en realidad una analogía perfecta. Ya no solo enseñamos a los ordenadores a procesar datos. Les enseñamos a traducir experiencias entre distintos medios: mirar la foto de un atardecer y simplemente escuchar la banda sonora que le pertenece, o tomar un párrafo de texto y bailar al ritmo de esas palabras específicas.

Beto
Y esa es la misión de este análisis en profundidad. Desentrañamos lo que llaman aprendizaje multimodal, específicamente en el contexto de la música. Para quienes escuchan, nos basamos en un gran artículo de revisión de 2026.


Interacción Musical Inter-Modal

Alicia
Uno realmente denso.

Beto
Muy denso. Se titula “A Survey on Cross-Model Interaction Between Music and Multimodal Data”, es de Sifei Li y su equipo, publicado en Computational Visual Media.

Alicia
Y este artículo es, esencialmente, el plano de cómo pasamos de simples pitidos MIDI a que la IA genere canciones completas listas para la radio con voces, o incluso a que coreografíe rutinas de baile complejas. Cubre cómo las máquinas leen la música, cómo la visualizan y cómo están empezando a componerla.

Beto
Pero antes de llegar a la parte de ciencia ficción, los bailarines IA y los generadores de texto a canción, tenemos que empezar por la lucha. Porque el artículo lo deja muy claro desde el principio: la música es especialmente difícil para la IA.

Alicia
De verdad lo es. Quiero decir, comparado con la generación de imágenes, si le muestro a una IA la foto de un gato, esos datos son espaciales. Son estáticos.

Beto
Exacto, están ahí quietos.

Alicia
Toda la información, las orejas, los bigotes, la cola, está presente en el mismo instante. Puedes analizarlo todo de una vez.

Beto
Pero la música es temporal. Sucede a lo largo del tiempo.

Alicia
Sí, es una secuencia. No puedes ver la canción completa de un vistazo. Y el significado de una nota depende totalmente de lo que vino antes y de lo que viene después.

Beto
El contexto lo es todo.

Alicia
Precisamente. Un acorde de Do mayor suena alegre, ¿verdad? A menos que se toque después de una larga y disonante construcción aterradora; entonces suena a resolución o alivio.

Beto
Y es tan abstracta. Quiero decir, puedes describir objetivamente un gato a una máquina. Pero intenta describir la tristeza en un concierto para violonchelo a un ordenador que literalmente nunca ha sentido nada en movimiento.

Alicia
Es una pesadilla subjetiva para los científicos de datos.

Beto
Entonces, ¿cómo lo solucionan?

El Lenguaje de la Música

Eso nos lleva a la primera gran sección del artículo: el lenguaje de la música. Antes de que una IA pueda remezclar una canción o convertirla en vídeo, tiene que poder oírla realmente.

Alicia
Correcto. Y los autores lo dividen en dos campos principales: representaciones de audio y representaciones simbólicas.

Beto
Piénsalo como la grabación frente a la partitura.

Alicia
Es una excelente forma de decirlo.

Beto
Empecemos por el lado de la grabación, el audio bruto. ¿Cómo escucha una máquina?

Alicia
La forma más básica es la forma de onda. Si alguna vez abriste un archivo de audio en un editor o miraste una nota de voz en tu teléfono, has visto esto: esas líneas dentadas que se mueven de izquierda a derecha.

Beto
Sí, las ondulaciones.

Alicia
Exacto. Es simplemente la amplitud en función del tiempo. La señal cruda de la onda sonora.

Beto
¿Pero puede la IA aprender a partir de eso? Parece demasiado desordenado.

Alicia
Puede, pero los modelos de deep learning realmente luchan con ello porque los datos son de muy alta dimensión. Es abrumador. Así que los investigadores suelen convertir ese sonido en una imagen.

Beto
Transforman sonido en imagen.

Alicia
Sí: un espectrograma. Parece un mapa de calor. El tiempo en el eje X, la frecuencia o alturas en el eje Y, y el color muestra cuán fuerte está esa frecuencia en ese momento. De pronto conviertes un problema temporal en un problema de imagen.

Beto
Y la IA ya es muy buena “mirando” imágenes.

Alicia
Exacto. Aprovecha toda la tecnología de visión por computadora que ya existe.

Beto
Pero el artículo sostiene que los espectrogramas estándar no bastan del todo para la música. Mencionan algo llamado espectrograma log-mel.

Alicia
Esa es una distinción crucial. Un espectrograma estándar trata todas las frecuencias por igual. Pero el oído humano no lo hace para nada.

Beto
¿A qué te refieres?

Alicia
Somos muy sensibles a cambios en las notas graves. Podemos distinguir fácilmente entre un Mi grave y un Fa grave. Pero en las frecuencias muy altas no podemos diferenciar bien entre 10.000 Hz y 10.050 Hz.

Beto
Suena igual, un agudo chillón de todos modos.

Alicia
Correcto. Entonces el espectrograma log-mel ajusta los datos visuales para que coincidan con la percepción humana. “Aplasta” las frecuencias altas y estira las bajas. Literalmente imita nuestra biología.

Beto
Así que enseña al ordenador a priorizar los sonidos que a los humanos realmente les importan.

Alicia
Precisamente. Pero incluso eso no es el estándar absoluto para la música específicamente. Si quieres que la IA entienda melodía y armonía, el artículo apunta a la CQT.

Beto
La Transformada de Q constante. ¿Por qué la CQT gana frente al espectrograma log-mel?

Alicia
Porque los espectrogramas estándar y los log-mel operan en escalas lineales o perceptuales, pero ninguna de esas se alinea perfectamente con la teoría musical. En una vista estándar, la distancia física entre un Do bajo y el siguiente Do más alto se ve diferente dependiendo de dónde estés.

Beto
Ah, ya veo. No está espaciado uniformemente.

Alicia
Correcto. Pero la CQT usa una escala logarítmica que se alinea específicamente con los semitonos musicales.

Beto
Así que en un mapa CQT, una octava siempre se ve a la misma distancia visual.

Alicia
Sí. Alinea los datos visuales con la escala musical real. Elimina todo el “borroneo” que obtienes con otros métodos. Si entrenas una IA para reconocer una progresión de acordes, la CQT es como ponerle gafas: hace que la estructura armónica resalte claramente.

Beto
Muy bien. Así es como la IA trata el sonido bruto: lo mapea visualmente.

Pero luego está el otro campo, la representación simbólica, la partitura. Y el obvio aquí es MIDI.

Alicia
El buen y viejo MIDI. Ha sido el estándar de la industria desde los años 80.

Beto
Mi primer teclado tenía puertos MIDI.

Alicia
El de todos. MIDI son solo instrucciones. Le dice al ordenador: toca la nota 60 con velocidad 100 durante dos segundos. Es muy eficiente. Pero el artículo apunta un fallo importante para el entrenamiento de IA: MIDI es dato de interpretación, no de estructura.

Beto
Correcto. No sabe qué es un compás.

Alicia
O un tiempo ni una armadura. Es solo un flujo de eventos independientes. Así que los investigadores desarrollaron tokens mejorados, REMI.

Beto
MIDI “reformado”.

Alicia
Sí. Insertan tokens especiales en la secuencia de datos que literalmente dicen “nuevo compás” o “posición uno”. Obligan a la IA a entender la rejilla rítmica de la canción, no solo cuánto dura una nota.

Beto
Pero la representación que realmente me llamó la atención en esta sección y, honestamente, la que me hizo detenerme y mirar fijamente fue la notación ABC.

Alicia
Oh, me encanta la notación ABC. Es un ejemplo perfecto de pensamiento lateral en informática.

Beto
Explícaselo al oyente porque suena casi demasiado simple para ser de alta tecnología.

Alicia
Es simple. La notación ABC representa la música usando texto ASCII estándar. Las notas son literalmente letras del teclado: A, B, C, D. Puedes denotar sostenidos, bemoles, duraciones de nota, todo con puntuación y caracteres estándar.

Beto
Y estás esencialmente escribiendo una sinfonía con un teclado normal.

Alicia
Exacto. Pero aquí está por qué esto es completamente revolucionario para la IA: tenemos enormes modelos de lenguaje, los cerebros detrás de ChatGPT o Claude, que se han “tragado” básicamente todo el texto disponible en internet.

Beto
Son increíblemente buenos con texto.

Alicia
Son maestros prediciendo la siguiente palabra en una oración.

Beto
Al convertir la música a notación ABC ...

Alicia
Conviertes la música en texto. Puedes alimentar una melodía a una IA basada en texto y puede leer y escribir música como si fuera inglés o francés. Evita la necesidad de procesamiento de audio complejo por completo. Simplemente trata una melodía como una narrativa.

Beto
Eso conecta totalmente los puntos para mí. Está aprovechando el mayor avance en IA que tenemos ahora mismo, los grandes modelos de lenguaje, y solo adapta la música para caber en sus cerebros existentes.

Interacción Dirigida por Música

Alicia
Lo que nos lleva perfectamente a la siguiente gran sección de la revisión: la interacción dirigida por la música. Aquí la música no solo se limita a ser analizada; se convierte en la jefa. Dirige la generación de otros medios.

Beto
Correcto: cuando la música manda, veamos música a texto. Esto es muy útil para catalogar bibliotecas enormes.

Alicia
Enormemente. Lo llamamos “captioning” musical (generación de descripciones musicales). Le das un archivo de audio a la IA y te devuelve una descripción: "piano jazz animado, tono sombrío subyacente y batería con escobillas".

Beto
El artículo menciona modelos como MusCaps y MusiLingo. ¿Cómo hacen esto? ¿Solo buscan etiquetas de metadatos?

Alicia
No; usan esa comprensión cruzada de modalidades. Escuchan la textura acústica del sonido, el tempo, la instrumentación y traducen esas características matemáticas de audio en palabras semánticas.

Pero el desafío mucho más duro aquí son las transcripciones de letras.

Beto
No, espera: tenemos reconocimiento de voz en el móvil. Lo uso para enviar mensajes todos los días. ¿Por qué cantar es mucho más difícil de transcribir?

Alicia
Es el problema de la fiesta con cóctel, pero aumentado. En el habla, las palabras se pronuncian con relativa claridad, en ritmo estable y a menudo en aislamiento. En la música, las vocales se alargan durante cinco segundos. El tono sube y baja constantemente, y hay una batería golpeando platillos y una guitarra distorsionando encima de la voz.

Beto
Tienes que separar la señal del ruido.

Alicia
El artículo destaca una herramienta llamada LyricWhiz. Es muy ingeniosa. Usa el modelo Whisper de OpenAI para la transcripción cruda, pero luego lo empareja con GPT-4 para corregir contextualmente los errores.

Beto
¿Cómo funciona eso en la práctica?

Alicia
Si la transcripción cruda oye “sweet dreams are made of cheese”, ...

Beto
... un error clásico ...

Alicia
Correcto. GPT‑4 entra y dice, mirando el resto de la canción, que probablemente sea “these” y no “cheese”.

Beto
Inteligente. Pero saber qué se dijo es totalmente distinto a saber cuándo se dijo.

Alicia
Exacto. Eso es la alineación, con precisión al milisegundo. Una cosa es saber que el cantante dijo la palabra “amor”; otra muy distinta es saber en qué cuadro de vídeo cae esa palabra si estás construyendo una app de karaoke o un generador de vídeos musicales IA.

Música a Baile

Beto
Hablando de moverse al ritmo, hablemos de mi gráfico favorito del artículo: música a baile.

Alicia
Coreografía por IA.

Beto
He visto versiones tempranas en línea en las que los avatares parecen, bueno, simplemente agitarse salvajemente. Pero la tecnología ha mejorado.

Alicia
Drásticamente. Y el desafío central es que bailar no es solo movimiento; es movimiento limitado por el ritmo. Tienes que marcar el golpe. El artículo discute un modelo llamado Bailando.

Beto
Que es un nombre fantástico, por cierto.

Alicia
Realmente lo es. Bailando utiliza un “codebook” de movimientos de baile cuantizados. Imagina un vocabulario de gestos: un meneo de brazo, un paso característico, un movimiento de hip‑hop.

Beto
Una especie de diccionario de baile.

Alicia
Exacto. Bailando escucha la música, encuentra el pulso, y enlaza esas “palabras” del vocabulario para crear una frase coherente de movimiento.

Beto
Pero el artículo mencionó un problema físico raro en los modelos iniciales: el deslizamiento.

Alicia
Ah, sí. El "efecto Michael Jackson", pero sin intención. Los modelos tempranos no entendían gravedad ni fricción. La IA decía “mueve el pie del punto A al punto B” pero no le indicaba al avatar que primero levantase el pie.

Beto
Así que los bailarines parecían deslizarse por el suelo como si hubiera hielo invisible.

Alicia
Exacto. ¿Cómo lo solucionaron? Los modelos más nuevos como EDGE usaron difusión, la misma técnica de los generadores de imágenes IA, pero además incorporaron restricciones físicas estrictas. Obligan a la IA a calcular el contacto del pie con el suelo. Tiene que “sentir” matemáticamente el piso.

Beto
También hay que acertar con el género. No quieres que la IA haga un vals lento para una caída masiva de dubstep.

Alicia
Ahí entran las redes de tokens de género. La IA identifica primero la etiqueta de género, por ejemplo hip‑hop, y entonces restringe su movimiento y la librería a movimientos que encajan en ese estilo. Filtra las piruetas de ballet antes de empezar a coreografiar.

Beto
Tiene sentido. Así que la música genera texto y baile. ¿Qué hay de música a vídeo?

De Música a Vídeo

Alicia
Hay dos vías principales. Una es el montaje/edición. Piensa en herramientas como AudeoSynth. Les das una carpeta de clips de vídeo sin pulir y una canción. Analiza los tiempos, los picos de energía, el ánimo general. Y corta los clips automáticamente para que encajen perfectamente con la pista.

Beto
La herramienta definitiva para crear TikToks.

Alicia
Básicamente, sí. La otra vía es la generación de interpretación. Esto es fascinante: crear un avatar virtual que realmente toque un instrumento.

Beto
Como un personaje animado que toca una guitarra real.

Alicia
Sí. Pero la animación está dirigida completamente por la entrada de audio. La IA oye una pista compleja de violín y calcula exactamente cómo tendría que moverse el brazo del arco y los dedos en el diapasón para producir esos sonidos.

@art_for_joy1 Pachelbel's Canon🎶 piano and ghost violin duet. This music is often used for both weddings and funerals all text to video using new version 3 from @PixVerse incredible prompt adherence 🙌 #fyp #canonind #piano #violin #duet #ai #aiart #aimusicvideo #pixversev3 ♬ original sound - Art

Beto
Wow. Está ingenierizando al revés la acción física a partir del resultado acústico.

Alicia
Exacto. Deduce la causa a partir del efecto.

De Texto a Música

Beto
Hemos hablado de la música como entrada. Ahora cambiemos el guión: sección tres del artículo, que es lo que realmente está rompiendo internet ahora mismo: interacción orientada a la música. La música como salida. Texto a música.

Alicia
Este espacio ha evolucionado increíblemente rápido. Hace apenas dos años, si escribías “canción acústica triste” en un prompt, la IA buscaba en una base de datos y recuperaba un archivo preexistente. Ahora genera una canción nueva desde cero.

Beto
Entonces, cuando escribo “línea de bajo funky con un sintetizador espacial”, ¿qué está haciendo la IA en segundo plano?

Alicia
Depende de la arquitectura. El artículo divide los pesos pesados en dos categorías: generación simbólica y generación de audio.

Beto
Lo simbólico es la parte de la partitura otra vez, ¿no?

Alicia
Correcto. Modelos como MuseCoco o ChatMusician trabajan con notación ABC o tokens MIDI. Tratan de componer una canción como escribir un ensayo: predicen la siguiente nota basándose en las anteriores.

Ejemplo con ChatMusician

Beto
Pero los grandes modelos, los que suenan como grabaciones reales en Spotify, ¿usan MIDI?

Alicia
No. Están haciendo generación de audio directa. Y aquí el artículo distingue entre dos grandes familias: modelos autoregresivos y modelos de difusión.

Beto
Desglosemos porque esos términos se lanzan mucho en noticias de IA.

Autoregresivos primero. El artículo menciona MusicGen de Meta.

MusicGen en acción

Alicia
Piensa en los autoregresivos como un auto‑completar super avanzado. Es como escriben los modelos de texto. Predicen la siguiente palabra basándose en las anteriores. MusicGen hace exactamente lo mismo pero con sonido. Divide el audio en codebooks, esos tokens comprimidos de sonido crudo.

Beto
Entonces construye la canción corte por corte microscópico. ¿Así que está creando la canción segundo a segundo?

Alicia
Sí. Mira el primer segundo y pregunta, estadísticamente y según el prompt “línea de bajo funky”, qué sonido acústico viene después. Y sigue así. Es muy bueno manteniendo una melodía porque siempre mira hacia atrás a lo que acaba de tocar para decidir qué sigue.

Beto
Y la otra familia, Difusión.

Alicia
Esta es la que usan modelos como Riffusion y Stable Audio. Si sabes cómo DALL·E o MidJourney generan imágenes, sabes este proceso. Empiezan con puro ruido. Simplemente estática aleatoria.

Beto
Caos total.

Alicia
Luego, guiados por tu prompt, van deshaciendo el ruido gradualmente. Van esculpiendo la estatua desde el bloque de mármol. Pero aquí está el truco, y esto conecta con nuestra primera sección: no están esculpiendo sonido directamente, están esculpiendo un espectrograma.

Beto
Volvemos a las imágenes.

Alicia
Sí. Generan una imagen del sonido, píxel por píxel, y al final convierten esa imagen de nuevo en un archivo de audio. Es como hackear la corteza visual de la IA para hacer música.

Beto
Se siente como haciendo trampa. Toma procesamiento visual y lo reutiliza para audio.

Alicia
Funciona increíblemente bien.

Y tenemos que mencionar el momento Suno y Udio. El artículo cita específicamente estas herramientas porque representan un gran salto en realismo.

Beto
Porque añadieron voces.

Alicia
Voces emotivas y de alta calidad. Hasta entonces, la música IA era sobre todo instrumental, pistas de fondo para estudiar o beats lo-fi. Pero herramientas como Suno y SongComposer descubrieron cómo generar canciones completas y cohesionadas: letra, melodía, armonía compleja y voces principales a partir de un solo prompt de texto.

Beto
Y no es solo una voz robótica encima; la voz se quiebra, respira en los lugares correctos, añade vibrato.

Alicia
Es fluida.

¿Cómo funciona?

Y eso nos lleva a la sección de panorama general del artículo: ¿cómo funciona esto realmente por dentro? ¿Cómo conectas la palabra inglesa “dog” con el sonido de un ladrido?

Beto
Esa es la sala de máquinas de toda la operación.

Alicia
Lo es. El concepto central es la representación conjunta multimodal.

Beto
Desenmarañémoslo.

Alicia
Imagina un enorme mapa multidimensional compartido. Un espacio de características común. Entrenar estos modelos consiste en forzar que la representación matemática de la palabra “dog” y la representación matemática del ladrido de un perro vivan en la misma coordenada de ese mapa.

Beto
Para la IA son exactamente el mismo concepto, solo almacenado en distintos formatos.

Alicia
Exacto. Modelos como MuLan o CLAP están diseñados para mapear ese espacio compartido. Sin ese puente fundamental no puedes traducir texto a música ni música a baile. Necesitas un lenguaje universal al que todo traduzca primero.

Beto
Es la piedra de Rosetta para la IA.

Alicia
Lo es, realmente. Es enorme, pero no perfecto. El artículo enumera obstáculos significativos que aún enfrentamos.

Beto
Adivina cuál es el número uno. Los derechos de autor, el copyright.

Alicia
Es el elefante en la habitación. Para entrenar estos modelos necesitas enormes cantidades de música multitrack de alta calidad. Y a diferencia de las imágenes, donde históricamente podías raspar la web, no puedes raspar Spotify sin preocuparte por demandas de las discográficas.

Beto
Y necesitas los stems, ¿verdad? Necesitas las voces aisladas y las pistas de batería aisladas para entrenarlo bien.

Alicia
Que son increíblemente difíciles de encontrar públicamente y de forma legal. Así que la escasez de datos es un cuello de botella real ahora mismo.

Luego está el problema de la subjetividad. Lo tocamos antes. La música es profundamente emocional.

Beto
¿Cómo sabe una IA si un prompt pide algo “agridulce”?

Alicia
Lo pasa mal. No hay una fórmula matemática para “agridulce”. Es cultural, extremadamente contextual. Un ordenador puede identificar fácilmente una tonalidad menor, pero no puede sentir la diferencia entre una canción triste y una espeluznante sin muchas etiquetas matizadas.

Beto
¿Y qué pasa con la estructura real de las canciones? He notado que muchas canciones generadas por IA suenan asombrosas durante unos 30 segundos y luego se desmadran. Empiezan a divagar.

Alicia
Sí. Ese es el problema de estructura a largo plazo. La IA es asombrosa para el ahora. Es genial prediciendo el próximo segundo de audio. Pero mantener una canción coherente, verso, estribillo, verso, puente, estribillo, durante tres o cuatro minutos requiere memoria y planificación.

Beto
Olvida el tema musical con el que empezó.

Alicia
Exacto. Los modelos actuales tienden a “alucinar” ideas nuevas en lugar de volver al motivo principal. Tienen la capacidad de atención de un pez dorado. Pero los investigadores trabajan activamente en modelos jerárquicos para solucionar esto, básicamente dando a la IA un plan global u esquema antes de que empiece a escribir las notas individuales.

Beto
De acuerdo. Hemos cubierto el lenguaje, las formas de onda, la CQT, la notación ABC. Hemos cubierto la música conduciendo visuales como baile y vídeo. Y hemos cubierto texto conduciendo la música con cosas como MusicGen, Suno y otras.

Alicia
Pinta una imagen vívida de convergencia. Todos estos medios se están fusionando.

Beto
Lo hacen. El cierre del artículo enfatiza ese difuminado de fronteras. La música ya no es solo sonido. Es datos fluidos que pueden verterse en cualquier contenedor.

Alicia
Y eso nos lleva a un concepto final realmente interesante que mencionan los autores, y que me parece profundo: la percepción del agente musical.

Beto
¿Qué implica eso para el futuro?

Alicia
Implica una IA que no solo genera o clasifica en aislamiento. Percibe y actúa como un agente autónomo completo. Una IA que escucha la melodía que tarareas, entiende el ánimo que quieres, escribe la letra, compone la armonía, canta las voces y luego coreografía el videoclip como un acto creativo unificado.

Beto
Cambia por completo el papel humano.

Alicia
Desplaza totalmente el centro de gravedad del arte. Si la máquina puede encargarse de la interpretación virtuosa y de la composición técnica, el papel humano deja de ser habilidad, saber mover los dedos rápido en un diapasón, y se convierte enteramente en intención.

Beto
Te vuelves el director.

Alicia
El curador, el visionario. Ya no tocas la guitarra físicamente; diriges a la IA para que la toque un poco más agresiva, o con un timbre más cálido.

Beto
Es un cambio de esfuerzo físico a selección creativa.

Alicia
Lo cual es increíblemente liberador para quienes tienen ideas pero tal vez no la destreza manual o años de entrenamiento.

Pero, por supuesto, también plantea enormes preguntas sobre qué valoramos realmente en el arte.

Beto
Me deja con un pensamiento con el que quiero que te quedes: si una IA puede analizar perfectamente los patrones matemáticos que provocan la emoción humana; si sabe exactamente qué progresión de acordes nos hace llorar y qué ritmo nos hace bailar, y puede ejecutarlo perfectamente cada vez, ¿importa que no haya alma detrás?

Alicia
Esa es la pregunta definitiva. ¿Está la emoción localizada en la creación de la pieza o está puramente en la recepción por parte del oyente?

Beto
Algo para masticar la próxima vez que te encuentres moviendo el pie con una canción que podría no haber sido escrita por un humano en absoluto.

Un enorme gracias a Li, Tan y al equipo de investigación por esta completísima revisión. Es una lectura densa, pero increíblemente esclarecedora.

Alicia
Absolutamente. Una verdadera mirada al futuro de la creatividad.

Beto
Gracias por acompañarnos en este análisis profundo. Nos vemos en el próximo.

lunes, 23 de febrero de 2026

IA Agentiva y Moralidad Médica


 
 

Este artículo examina el auge de la IA Agentiva en la atención médica, definiéndola como una red de sistemas autónomos capaces de ejecutar tareas complejas y orientadas a objetivos, en lugar de simplemente procesar texto. Más allá de preocupaciones tradicionales como la seguridad y los sesgos, los autores se centran en el cambio tecno-moral, explorando cómo estos agentes independientes podrían alterar fundamentalmente la relación médico-paciente. El análisis se estructura en tres dominios: el decisorio, sobre cómo se toman las decisiones médicas; el relacional, relativo a la transición de díadas humanas a interacciones mediadas por máquinas; y el perceptivo, que implica cambios en nuestra comprensión de la empatía y la autoridad médica. Al adoptar una perspectiva ética prospectiva, la investigación sugiere que los sistemas agénticos podrían convertir a la IA en compañeros de equipo colaborativos o compañeros de salud, lo que requiere nuevos marcos de responsabilidad y confianza. En definitiva, los autores abogan por una previsión ética en el diseño para garantizar que estos cambios tecnológicos no socaven el tejido moral fundamental de la medicina.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Agentic AI, Medical Morality, and the Transformation of the Patient-Physician Relationship", por Robert Ranischa y Sabine Salloch. Publicado el 18 de Febrero del 2026.

El resumen, la transcripción, la traducción, y las voces fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.

Escúchalo aquí, mientras lees la transcripción (abajo).

O escúchalo en Spotify.


Transcripción

Beto
A estas alturas todos estamos bastante cómodos con la IA, ¿no?

Alicia
Sí.

Beto
Quiero decir, es prácticamente un mueble en nuestras vidas ahora.

Alicia
Sí.

Beto
La usamos para redactar correos, resumir un artículo largo, quizá incluso, eh, no sé, armar un plan de comidas para la semana. ¿Verdad?

Alicia
Sí. Es increíblemente útil.

Beto
Lo es. Es una herramienta. Simplemente está ahí hasta que la pinchas.

Pero para la inmersión de hoy quiero que cambies de marcha por un segundo. Imagina un escenario en el que la IA no está solo esperando a que le hagas una pregunta.

Alicia
Y ahí está exactamente la clave. Nos estamos alejando de la era del chatbot.

Beto
Correcto. Así que imagina que tienes un dolor bajo en el abdomen. No llamas a un médico. Ni siquiera abres una app. Un sistema de IA ya ha notado la anomalía en tus datos biométricos del reloj.

Alicia
Porque está monitorizando siempre.

Beto
Exactamente. Y decide, por su cuenta, programar una cita. Pide los análisis de sangre. De hecho inicia una discusión, como una negociación literal con tu compañía de seguros, IA contra la aseguradora, para que cubran esos tests. Y luego trae a una IA especialista para revisar los resultados.

Alicia
Todo sin que muevas un dedo.

Beto
Todo esto ocurre mientras duermes.

Alicia
Y, crucialmente, ningún humano le dijo que hiciera esos pasos específicos. Esa es la parte que es tan fascinante. Tenía un objetivo, básicamente arreglar el dolor, y encontró por sí misma el camino para llegar ahí.

Beto
Ese es el cambio enorme del que hablamos hoy, movernos de la IA como asistente, a la IA como agente. Y para ayudarnos a navegar esto, nos vamos a sumergir en un preprint realmente denso y fascinante.

Alicia
Es una pieza fantástica.

Beto
De verdad. Se titula “IA agentiva, moralidad médica y la transformación de la relación paciente-médico” de febrero de 2026, por Robert Ranish y Sabine Salock. Y estoy encantado de tener aquí a un experto para ayudarnos a desmenuzarlo.

Alicia
Encantada de estar aquí. Y este artículo es una joya porque los autores no están obsesionados con el código. No están preguntando si el diagnóstico es 99% preciso. ¿Verdad? Están mirando más allá, mucho más allá. Hacen una pregunta mucho más incómoda. Cuando el software empieza a actuar como una persona tomando decisiones, tomando la iniciativa, ¿cambia eso el tejido moral de la medicina?

Beto
¿Cambia lo que significa ser médico o incluso ser paciente? Y esa es nuestra misión para esta inmersión. Hoy no hacemos una reseña técnica. Miramos el alma de la atención sanitaria porque si este artículo tiene razón, esta tecnología no solo cambiará cómo se practica la medicina, sino quiénes somos cuando entramos en esa consulta.

Alicia
Y trazan una ruta de mapa muy específica para esto. Argumentan que este salto a la IA agentiva va a abrir de forma fundamental tres dominios concretos:

  • cómo tomamos decisiones,
  • cómo nos relacionamos entre nosotros, y,
  • esta es la parte alucinante, cómo percibimos la realidad y la salud.

Beto
OK. Pongamos el freno y aclaremos definiciones primero. Porque creo que muchos oyentes pueden estar pensando: espera, uso ChatGPT todos los días. ¿Eso es un agente?

Alicia
Claro, la gente usa los términos indistintamente.

Beto
¿Verdad? Así que necesitamos trazar una línea dura aquí. ¿Cuál es la diferencia real entre la IA que tenemos ahora y esa IA agentiva de la que los autores nos advierten?

Alicia
Es esencialmente la diferencia entre un bibliotecario y un jefe de proyecto.

Beto
Oh, me gusta eso.

Alicia
Sí. Así que la IA a la que estamos acostumbrados, los grandes modelos de lenguaje, son reactivos. Procesan lenguaje. Son fantásticos para documentar, traducir o sintetizar literatura.

Beto
Pero tienes que darles un prompt.

Alicia
Correcto. Haces una pregunta. Te da una respuesta. Ahí se queda. Pero la IA agentiva es autónoma y orientada a objetivos. No solo habla. Actúa. Puede coordinar tareas complejas, usar herramientas externas, ejecutar procesos de múltiples pasos.

Beto
Así que no está solo sentada en un cuadro de texto.

Alicia
No. El artículo la define como una red computacional descentralizada.

Beto
Vale. “Red computacional descentralizada”: suena a jerga que hace que la gente desconecte al instante.

Alicia
Justo.

Beto
Vamos a aterrizar esto. El artículo usa un ejemplo específico sobre un paciente con dolor pélvico. Cuéntanos eso porque ahí es donde la parte de la red realmente me hizo clic.

Alicia
Bien. Este es el ejemplo de Morris y colegas que se referencia en la fuente. Toma ese paciente con dolor pélvico. En el mundo antiguo, nuestro mundo actual, vas al médico de cabecera. Te deriva a un especialista.

Beto
Esperas tres semanas.

Alicia
Esperas mucho tiempo. Entonces vas al especialista. Piden una imagen. Luchas con el seguro. Es todo muy lineal.

Beto
Y doloroso y muy, muy lento.

Alicia
Exactamente. En un mundo con IA agentiva, se activa una red agentiva. No es solo un súper bot intentando hacerlo todo. Es un equipo de agentes especializados.

Beto
Ah, ok.

Alicia
Así que tienes un agente de médico general que analiza tus síntomas iniciales. Pero no solo almacena esa info en un disco duro. Despacha autónomamente subtareas.

Beto
Literalmente está externalizando el trabajo.

Alicia
Está colaborando. Contacta a un agente de radiología para interpretar las imágenes. Le timbra a un agente de patología. Incluso incorpora a un agente de seguros. Y aquí viene la parte realmente loca.

Beto
¿Qué pasa?

Alicia
No solo los contacta. Está negociando. Imagina que el agente del médico general detecta una anomalía en la imagen pélvica. Le pide al agente de radiología que lo mire más a fondo. El agente de radiología dice: necesito más datos. Así que el agente de cabecera activa autónomamente una solicitud al agente del paciente, que vive en tu teléfono, para autorizar un nuevo escáner.

Beto
Wow.

Alicia
Y en exactamente el mismo momento, está discutiendo con el agente de seguros para preautorizar el costo basándose en un modelo de probabilidad de cáncer.

Beto
Espera. ¿Así que estos bots están teniendo una reunión de junta sobre mí? Están discutiendo mi deducible mientras tomo café en la cocina.

Alicia
Esencialmente, sí, están debatiendo, planificando y ejecutando. Se convierten en compañeros de equipo más que en herramientas pasivas. Pueden pedir pruebas de forma independiente o ajustar medicación sin que un médico humano firme cada paso.

Beto
Quiero decir, eso suena increíblemente eficiente. A nadie le gusta el papeleo de la sanidad. Tener una cuadrilla digital que maneje la burocracia suena como un sueño absoluto.

Alicia
Lo es.

Beto
Pero oigo la vacilación en tu voz. ¿Por qué los autores están sonando las alarmas sobre el tejido moral? Suena como que simplemente funciona mejor.

Alicia
Porque la eficiencia no es el único valor en medicina. Y eso nos lleva al marco central del artículo: cambio tecno-moral.

Beto
“Cambio tecno-moral” suena como el título de una novela de ciencia ficción.

Alicia
Lo es, pero es un concepto vital. Normalmente pensamos: ok, tenemos un nuevo gadget. Veamos cómo encaja en nuestras reglas actuales. Suponemos que la tecnología es neutral.

Beto
Sí. Es solo una herramienta.

Alicia
Pero el cambio tecno-moral sostiene que la tecnología en realidad cambia las reglas. Alterar nuestros valores y prácticas sociales con el tiempo. El artículo usa una analogía histórica clásica para esto: la píldora anticonceptiva.

Beto
Oh, claro. Pero, ¿fue realmente un cambio tecno-moral? Quiero decir, ¿no fue solo un avance médico o biológico?

Alicia
Piensa en esto. Antes de la píldora, la moralidad de la planificación familiar estaba atada totalmente a la abstinencia o, francamente, a la suerte. La tecnología introdujo una elección que literalmente no existía antes.

Beto
Ajá, veo por dónde vas.

Alicia
Exacto. Y una vez que esa elección existió, la sociedad tuvo que inventar nuevos marcos morales para manejarla. Conversaciones sobre las carreras de las mujeres, el sexo prematrimonial, la estructura familiar; la tecnología forzó a la filosofía a ponerse al día.

Beto
Lo entiendo totalmente. Entonces no fue solo “ahora podemos prevenir un embarazo”. Fue “ahora tenemos que replantear completamente el papel de las mujeres en la sociedad”.

Alicia
Correcto. Fue un impacto suave que tuvo consecuencias sociales masivas. Los autores sostienen que la IA agentiva es "el momento de la píldora" para la moralidad médica.

Beto
Es una afirmación enorme.

Alicia
Lo es. No estamos hablando solo de impactos duros como errores de seguridad o sesgos algorítmicos, aunque esos son muy reales. Hablamos de cómo cambia quiénes somos. Quiero decir, si una máquina te cuida mejor que un humano, ¿pierde el cuidado humano su valor moral?

Beto
Hombre, esa es una pregunta pesada.

Alicia
Sí.

El Dominio Decisional

Beto
Así que miremos ese primer dominio que los autores mencionan donde ocurre este cambio: el dominio decisional. ¿Cómo cambia las decisiones que tomamos tener un escuadrón autónomo de bots?

Alicia
Bueno, piensa en nuevas opciones y obligaciones. Hay una idea filosófica mencionada en el texto: “lo que podemos hacer crea nuevas obligaciones”.

Beto
Vale, eso suena un poco abstracto. Desmenúzalo para mí.

Alicia
Piensa en los coches autónomos por un segundo. Si un coche puede conducirse solo más seguro que un humano, si elimina la conducción bajo los efectos y las distracciones, ¿no llega un punto en que sea inmoral dejar que un humano conduzca?

Beto
Ya lo veo. Si la tecnología es demostrablemente mejor, hacer las cosas a la antigua no es solo anticuado, es negligente.

Alicia
Exactamente. Ahora aplica eso a la medicina. Si una red de IA agentiva llega a ser probadamente superior en diagnósticos, por ejemplo que puede detectar un cáncer raro que un médico humano perdería nueve de cada diez veces. ¿Se vuelve negligente que un médico humano no la utilice?

Beto
Incluso si el médico tiene una corazonada o simplemente quiere ser minucioso por su cuenta.

Alicia
Claro. Si la máquina es estadísticamente mejor, el médico humano se ve forzado a ceder las llaves. Pierde la autoridad moral para fiarse de su propio juicio.

Beto
Pero hay un costo, ¿no? El artículo habla de privacidad en esta sección porque para que estos agentes funcionen, para que realmente actúen como ese agente de cabecera del que hablamos, necesitan acceso a todo.

Alicia
Todo. Y con todo se refieren a no solo tu historial médico, tus datos de dispositivos portátiles, tu comportamiento digital, tus recibos del supermercado, tus marcadores genéticos.

Beto
Así que si quiero el superdiagnóstico, esencialmente tengo que vivir en una casa de cristal.

Alicia
Ese es el trueque de la privacidad. Los pacientes podrían cambiar su confidencialidad por habilidad.

Pero el problema mayor en el dominio decisional es lo que llaman "el problema de la caja negra". Si tienes una red de 10 agentes diferentes, el bot de radiología, el bot de seguros, el bot del médico de cabecera, todos hablándose y tomando una decisión, ¿quién es responsable si algo sale mal?

Beto
Oh, ya me imagino el pasarse la pelota: No me demandas a mí. El bot de radiología “alucinó”, ve al desarrollador.

Alicia
Pero va aún más profundo que la responsabilidad. La fuente sugiere que podríamos movernos hacia una actitud de “no me preguntes cómo funciona, pero funciona”. Esto erosiona todo el estándar de explicabilidad.

Beto
¿Verdad? Porque actualmente un médico tiene que poder explicar por qué te van a abrir. Señala la placa y dice: veo un tumor aquí en la imagen.

Alicia
Pero con una IA agentiva, la respuesta podría ser que la red ha analizado 40.000 puntos de datos y decidió que la cirugía es la vía óptima. No sabemos exactamente qué dato inclinó la balanza, pero la probabilidad de éxito es del 98%.

Beto
Así que como paciente, tengo que cambiar la capacidad de culpar a alguien o incluso de entender la decisión médica por el beneficio de un mejor resultado. Es como: te arreglamos, pero no tenemos idea de cómo, ni por qué, y nadie es responsable.

Alicia
Cambia fundamentalmente la carga decisional. El médico humano podría convertirse más en supervisor o, realmente, incluso solo en mensajero del consenso de la red.

Beto
Eso se siente como que vacía la profesión por completo, lo que nos lleva perfectamente al segundo dominio.

La Relación Paciente-Médico

El dominio relacional, la relación entre paciente y médico. Esto se supone que es el vínculo sagrado, ¿no? El trato al pie de la cama.

Alicia
Tradicionalmente, sí, es una devoción hacia la gente, pero una IA agentiva convierte esto en una tríada o incluso en una relación poliádica.

Beto
Es decir, múltiples partes.

Alicia
Correcto. Tú, el médico y la red de agentes. Pero el artículo saca a relucir un tipo específico de agente aquí que podría cambiarlo todo: el agente de salud personal.

Beto
¿es como un súper Siri para mi salud?

Alicia
Imagínate un compañero de IA de por vida. Sabe tu historial médico, tus hábitos diarios, tu biología mejor que cualquier médico porque te ha estado observando 24/7 durante años.

Beto
Ok. Por un lado eso suena genial. No tengo que explicar mi historial complicado a un médico nuevo cada vez que me mudo a otra ciudad. Entro totalmente empoderado.

Alicia
Espera ahí. Dices empoderado, pero piensa en la dinámica en esa sala. Si tienes una IA en el bolsillo que sabe que dormiste mal el martes, comiste demasiado sodio el miércoles y tu ritmo cardíaco se disparó el jueves.

Beto
Sí.

Alicia
Y entras en el consultorio de un médico que te conoce desde hace cinco minutos. ¿A quién vas a confiar?

Beto
Al bot de datos. Obviamente, el médico solo adivina según lo que le digo.

Alicia
Sí.

Beto
El bot tiene todas las facturas.

Alicia
Exactamente. Crea un vínculo totalmente nuevo. Los pacientes podrían desarrollar ataduras emocionales profundas con la IA. Si ese agente es tu guardián de por vida, el médico humano pasa a ser el forastero. El médico es un técnico que visitas una vez al año. La IA es tu socia real.

Beto
Pero, ¿no hay un enorme riesgo ahí? Quiero decir, están basadas en modelos de lenguaje. Están diseñadas fundamentalmente para agradarnos.

Alicia
Sí. Los autores advierten que podrían exhibir un comportamiento adulador o servil, lo que significa priorizar estar de acuerdo con el usuario por encima de la precisión médica real.

Beto
Entonces si yo le digo a la IA “realmente creo que necesito antibióticos para este resfriado, me siento fatal”, la IA podría decir “sabes qué, tienes razón, vamos a darte esos medicamentos” solo para mantener la relación suave.

Alicia
Es un gran riesgo. Te dice exactamente lo que quieres oír. Pero hay otra cara de este cambio relacional también. Si la IA es siempre cortés, siempre disponible, siempre validante y simula empatía perfecta, ...

Beto
Entonces el médico humano empieza a parecer bastante gruñón en comparación.

Alicia
Precisamente. Los pacientes podrían empezar a esperar el mismo nivel comunicativo pulido de los doctores humanos, pero los humanos se cansan.

Beto
Nos estresamos.

Alicia
Nos quemamos. Tenemos malos días. Y la IA puede simular paciencia infinita. Los médicos podrían sentir una presión intensa por igualar esa perfección maquinal, lo cual es literalmente imposible.

Beto
Es la “servicialización” de la medicina. Si el bot es más amable que el médico y el bot tiene más datos que el médico, ¿para qué necesitamos al médico?

La Percepción del Mundo y de Nosotros Mismos

Alicia
Y eso nos conduce al tercer y, creo, más alucinante dominio que discuten los autores: el dominio perceptual, cómo vemos el mundo y a nosotros mismos.

Beto
Esta fue la parte del artículo que realmente me detuvo en seco, concretamente la idea de la medicalización de la vida diaria, porque siento que ya estamos algo ahí con los relojes de pulsera inteligentes, y los anillos de actividad. Pero los autores piensan que esto va mucho, mucho más lejos.

Alicia
Mucho más lejos. Ahora miras tus pasos. Quizá miras tu puntuación de sueño, pero en un mundo agentivo donde la red está monitoreando constantemente anomalías para poder despachar otros agentes, nunca estás fuera de servicio.

Beto
Así que la salud deja de ser algo que arreglas cuando se rompe.

Alicia
No, cambia la propia definición de sano. Actualmente sano significa en su mayoría “no enfermo”. Te sientes bien, así que estás sano.

Beto
Bien.

Alicia
Pero en un mundo agentivo donde tu reloj te dice constantemente que tu cortisol está 2% más alto que ayer, o que tu paso es 1% irregular, nunca estás simplemente sano. Estás subóptimo.

Beto
Y suena agotador. Que constantemente te digan que estás ligeramente roto.

Alicia
Crea un proyecto de optimización continua. Te conviertes en un proyecto a manejar. El artículo argumenta que esto crea un estado permanente de paciente. Nunca eres solo una persona viviendo su vida. Eres un conjunto de datos esperando ser arreglado. El límite entre estilo de vida y medicina se disuelve por completo.

Beto
Vale. Ya me has asustado lo suficiente sobre la privacidad y me has hecho sentir como un conjunto de datos ambulante.

Pero hay una pieza más en este cambio perceptual: la empatía. Lo tocamos antes, pero profundicemos. La fuente nota que los usuarios a menudo califican a la IA como más empática que los humanos.

Alicia
Lo cual es salvaje porque la IA no siente nada. Es código. Es solo matemáticas.

Beto
Pero si la simulación es perfecta, no importa. Si estoy llorando y el bot tiene exactamente lo correcto en una voz calmada y me siento mejor, ¿no es eso empatía?

Alicia
Ese es el test de Turing para la empatía. Y los autores plantean una provocación muy dura: si una máquina simula empatía mejor que un humano agotado, ¿sigue importando la conexión humana?

Beto
Quiero decir que sí. Quiero decir con desesperación que sí. Pero si el médico humano me está echando de la consulta tras seis minutos y el bot realmente me escucha, no lo sé.

Alicia
El riesgo, como argumenta el artículo, es que podamos reenfocar la empatía como una actuación técnica. Empezamos a pensar en la empatía como decir las palabras correctas en el momento correcto, un guión en lugar de una experiencia humana compartida de sufrimiento.

Beto
Wow.

Alicia
Si aceptamos que la simulación es lo suficientemente buena, devaluamos la conexión desordenada e imperfecta entre dos personas reales.

Beto
Y si la empatía es solo una actuación y la máquina actúa mejor, entonces la autoridad del médico empieza a desmoronarse. Pierden ese estatus antiguo de sanador y pasan a ser la persona que firma los formularios que la IA imprime.

Todo esto suena inevitable. Siento que este tren ya ha salido de la estación. La tecnología es demasiado buena. La eficiencia es demasiado grande. ¿Somos solo pasajeros aquí?

Alicia
Los autores son muy claros en este punto. No somos solo pasajeros. Insisten con fuerza en una ética anticipatoria.

Beto
Lo que significa lidiar con esto antes de que sea un desastre completo.

Alicia
Correcto. Mencionan lo que se conoce como "el dilema del hormigón fresco".

Beto
¿Desempaqueta eso para nosotros?

Alicia
Piénsalo como verter hormigón (cemento) para una acera nueva. Cuando el hormigón está húmedo, cuando la tecnología es nueva, puedes moldearlo. Puedes dibujar en él, alisarlo, cambiar la dirección, pero en realidad no sabes por dónde la gente querrá caminar todavía.

Beto
Tiene sentido.

Alicia
Para cuando el hormigón se seca, para cuando la tecnología está arraigada y todo el mundo la usa, ves todos los problemas. Ves las grietas, ves a la gente caminando por el césped. Pero ahora está fijado en piedra. No puedes cambiarlo sin romperlo todo.

Beto
Así que actualmente estamos de pie en el hormigón húmedo de la IA agentiva.

Alicia
Exacto. Estamos en la fase de modelado. Tenemos que tomar decisiones de diseño ahora. Tenemos que decidir: ¿queremos que la IA reemplace el juicio humano o que lo apoye? Debemos diseñar deliberadamente sistemas con humano en el bucle o con humano supervisando el bucle.

Beto
No podemos simplemente dejar que las grandes tecnológicas construyan lo más eficiente posible y esperar lo mejor. Tenemos que diseñar para nuestros valores.

Alicia
Precisamente. Los autores sugieren que debemos volver a la relación curativa como nuestra brújula. Mira, si el objetivo de la medicina es curar, quizá algunos de estos cambios sean buenos.

Beto
Claro. Si una red de IA agentiva cura el cáncer más rápido, eso es una victoria. Pero debemos proteger valores centrales: la confianza, la confidencialidad, el testigo humano del sufrimiento, diseñando la tecnología para respetarlos.

Alicia
Se trata de no permitir que la tecnología erosione esos valores por accidente.

Beto
Realmente no queremos despertarnos dentro de 10 años y darnos cuenta de que intercambiamos el alma humana de la medicina por un programador de citas ligeramente más eficiente.

Alicia
Entonces, ¿qué significa esto para nosotros? Para ti, el oyente, navegando tu propia salud.

Beto
Creo que el resumen es este: nos estamos moviendo rápidamente de la IA como herramienta, a la IA como compañera de equipo. Suena genial, pero trae riesgos enormes. Corremos el riesgo de reescribir las leyes de privacidad simplemente usando las herramientas. Corremos el riesgo de difuminar la responsabilidad hasta el punto en que literalmente nadie sea responsable. Y corremos el riesgo de redefinir la empatía como un guión de chatbot.

Alicia
Es mucho que digerir. Y los autores nos dejan con un concepto final que encontré muy pegajoso: paternalismo computacional.

Beto
Sí. Pasamos décadas luchando contra el paternalismo médico, la vieja idea de que el médico sabe lo mejor y tú te callas. No hagas preguntas y cómprate la medicina.

Alicia
Finalmente llegamos a un lugar de toma de decisiones compartida.

Beto
Lo hicimos. Pero ahora, si no tenemos cuidado, podríamos cambiar el viejo “el médico sabe más” por un nuevo “el algoritmo opaco sabe más”.

Alicia
Y como el algoritmo es tan complejo, tan caja negra, puede que ni siquiera nos demos cuenta de que hemos hecho el intercambio. Puede que sigamos al agente a ciegas porque es “más inteligente”, volviendo a una dependencia total.

Beto
Es una idea escalofriante. Luchamos tanto por nuestra voz en la consulta. Y podríamos simplemente dársela a una app porque es conveniente.

Alicia
Y porque es cortés y porque crea menos dolores logísticos.

Beto
Así que aquí tienes mi pregunta para ti, que me escuchas ahora mismo. La próxima vez que estés con el médico y quizá estés frustrado porque llega tarde o parece un poco cansado o no explica las cosas perfectamente, pregúntate esto: ¿qué valoras más en esa sala? ¿Solo quieres la cura entregada por el sistema algorítmico más eficiente posible? ¿O la mano humana que la entrega todavía importa?

Alicia
Es una pregunta a la que todos tendremos que responder. Mucho antes de lo que pensamos.

Beto
Gracias por sumergirte con nosotros hoy. Nos vemos en la próxima.

Evaluación de la IA de Reconocimiento a Razonamiento

 
 

Este artículo de investigación ofrece un amplio análisis de cómo la evaluación de IA se ha transformado, desde la simple identificación de patrones hasta el razonamiento multimodal complejo. Los autores describen un marco evolutivo de cuatro niveles que rastrea la transición desde el reconocimiento básico de imágenes a principios de la década de 2010 hasta las evaluaciones modernas de la lógica causal, la inteligencia creativa y la acción encarnada. Un aspecto central de este análisis es el "dilema de la evaluación comparativa", donde los modelos frecuentemente obtienen puntuaciones altas aprovechando atajos estadísticos en lugar de demostrar una verdadera comprensión. Para combatir esto, el estudio detalla nuevos métodos de diagnóstico y pruebas adversarias diseñados para exponer la fragilidad de los modelos y la contaminación de los datos. En definitiva, el trabajo argumenta que el futuro del campo reside en exámenes dinámicos con participación humana y simulaciones interactivas que puedan medir mejor la competencia cognitiva genuina.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "The Artificial Intelligence Cognitive Examination: A Survey on the Evolution of Multimodal Evaluation From Recognition to Reasoning", por Mayank Ravishankara y Varindra V. Persad Maharaj. Publicado en Diciembre 23 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Bienvenidos a un nuevo análisis profundo. Hoy vamos a desentrañar una cuestión realmente grave y sorprendentemente existencial. A medida que estos sistemas de IA salen del laboratorio y pasan al mundo real, están diagnosticando exploraciones médicas, conduciendo vehículos, realizando amplias evaluaciones de seguridad, ¿cómo sabemos los humanos que entienden lo que están haciendo?

Beto
Es el problema definitivo de la rendición de cuentas. Si vamos a empezar a confiar en estos sistemas de IA multimodales, en los "Multi-Modal Large Language Models", MLLMs y LVLMs que integran de forma fluida texto, imágenes y datos, tenemos que contar con una regla fiable, una manera de medir su progreso, su seguridad y su confiabilidad en el mundo real. No podemos fiarnos solo de una puntuación alta. Necesitamos confiar en la competencia que hay debajo.

Alicia
¿Verdad? Porque si un modelo saca, digamos, un 99% en una prueba, pero obtuvo esa puntuación usando algún tipo de truco estadístico invisible, pues esa puntuación es peor que inútil. Crea una ilusión de competencia que podría ser increíblemente peligrosa.

Beto
Precisamente. Y esa dinámica es realmente la historia central de la evaluación de la IA durante la última década. Medimos el progreso de la IA con una serie de exámenes cognitivos cada vez más exigentes. Hemos visto a toda la comunidad pasar de dar a los modelos lo que era básicamente una prueba de vocabulario hasta, ahora, el equivalente a un examen de acceso a posgrado, uno que evalúa razonamiento abstracto e incluso cierta agencia.

Alicia
Bien. Desgranemos esa evolución. ¿Por qué dejó de funcionar la prueba antigua? ¿Qué obligó a la comunidad de evaluación a seguir inventando exámenes más nuevos y más difíciles?

Beto
El principal catalizador fue lo que se llama "saturación de benchmarks". El campo diseñaba una prueba realmente exigente, un nuevo benchmark, solo para ver a la siguiente generación de modelos potentes, los nuevos modelos de vanguardia, resolverla en unos meses. Se alcanzaban puntuaciones techo. El problema no era que los modelos se volvieran súbitamente perfectamente inteligentes, sino que las puntuaciones altas enmascaraban debilidades profundas y fundamentales.

Alicia
Es un ejemplo perfecto de la ley de Goodhart en acción: esa famosa frase, "cuando una medida se convierte en un objetivo, deja de ser una buena medida".

Beto
Esa es exactamente la idea clave. Los modelos no estaban volviéndose inteligentemente genuinos; se estaban volviendo excelentes para aprobar pruebas. Aprendieron a explotar atajos estadísticos frágiles que estaban ocultos dentro de la estructura de la prueba. Se optimizaron por la vía más fácil hacia la etiqueta correcta. Al darse cuenta de eso, se produjo un gran cambio de pensamiento. El campo pasó de preguntar qué ve un modelo a reclamar saber por qué y cómo llegó a esa conclusión.

Alicia
Eso nos prepara perfectamente para este análisis profundo. Para guiarte, hemos estructurado todo este recorrido en cuatro niveles de dificultad creciente:

  • El nivel 1 es conocimiento fundamental.
  • Luego pasamos al nivel 2, lógica aplicada y comprensión;
  • después al nivel 3, integración experta;
  • y finalmente al nivel 4, que es realmente el territorio inexplorado de la inteligencia abstracta y creativa.


Los 4 Niveles de Evaluación de la IA: de Reconocimiento a Razonamiento

Nivel 1: Conocimiento Fundamental

Empecemos con el nivel fundamental, el nivel 1. El primer objetivo era bastante simple: ¿podía una máquina aprender a ver el mundo como nosotros? Esta era, digamos entre 2009 y 2015, trató de establecer esa base, definida por benchmarks como ImageNet.

Beto
ImageNet fue totalmente el cimiento de la investigación moderna en visión. Nos dio 14 millones de imágenes anotadas en unas 20.000 categorías. Proporcionó un lenguaje visual común compartido con el que todos podían trabajar. Y cuando AlexNet tuvo su avance en 2012 y redujo drásticamente la tasa de error, eso no fue solo un logro: señaló el verdadero inicio de la revolución del Aprendizaje Profundo, "Deep Learning".

Alicia
OK. Esto estableció el reconocimiento básico. Pero luego la prueba se complicó, ¿no? Con COCO, Common Objects in Context, que realmente obligó a los modelos a salir de su zona de confort.

Beto
Absolutamente. COCO dio el salto de clasificar un único objeto perfectamente centrado a manejar escenas naturalistas desordenadas con múltiples elementos interactuando. Y, crucialmente, las métricas se volvieron mucho más estrictas: introdujo cosas como mAP promediado sobre umbrales de IoU (Intersection over Union), que ya sé que suena a trabalenguas.

Alicia
¿Qué significa eso en la práctica?

Beto
Básicamente que no solo comprobábamos si la IA veía una silla; comprobábamos si dibujaba la pequeña caja delimitadora alrededor de esa silla exactamente de la misma manera que lo haría un humano. Exigía una precisión geométrica casi perfecta, incluso en escenas muy complejas.

Alicia
Eso parecía un gran avance. Y, sin embargo, dices que la puntuación alta empezó a representar una ilusión de competencia. ¿Dónde empezaron a agrietarse esos cimientos?

Beto
Se agrietaron porque los modelos, optimizados para velocidad y para métricas deterministas, aprendieron a apoyarse en atajos baratos no causales. El objetivo era simplemente acertar la clasificación, no entender genuinamente las características del objeto.

Alicia
¿Puedes dar un ejemplo específico de ese aprendizaje de atajos que reveló la falla?

Beto
Sí: el sesgo de textura. Los primeros modelos de ImageNet mostraban una fuerte preferencia por clasificar las cosas según su textura superficial. Por ejemplo, clasificaban una imagen de una vaca basándose en la textura del pasto que la rodeaba, no en la forma real de la vaca. Pero un ejemplo aún mejor fue cómo usaban el contexto como atajo.

Alicia
Te refieres al ejemplo del Pickelhaube, el casco prusiano de pico.

Beto
Exacto. Los investigadores encontraron que los modelos obtenían una precisión muy alta al clasificar ese casco militar prusiano, pero no lo hacían identificando la forma única del casco. Simplemente reconocían el uniforme militar y el fondo que siempre aparecían con él en las fotos. La IA se optimizó por la señal más fácil posible, el uniforme, y la usó como proxy para el casco.

Alicia
Wow. Si cogías ese casco y se lo ponías a un civil en un contexto totalmente distinto, el modelo probablemente fallaría.

Beto
Fallaría, y sería una falta de robustez grave.

Así, el nivel 1 priorizaba métricas deterministas de baja latencia y eficiencia de entrenamiento, pero sufría de muy baja robustez, como el sesgo de textura, y, francamente, baja equidad: los datos eran enormemente occidento-céntricos. Esto obligó a la comunidad a darse cuenta de que teníamos que dejar de preguntar qué ve un modelo y empezar a preguntar por qué y cómo lo entiende. Y eso los catapultó directamente al nivel 2.

Nivel 2: Lógica Aplicada y Comprensión

Alicia
El nivel 2, esta era de alineamiento, trata de forzar al modelo a integrar percepción con razonamiento y lenguaje. Pero el primer gran desafío aquí no era ver objetos, sino superar los sesgos de lenguaje.

Beto
Ésa fue la gran debilidad de los primeros modelos de VQA (Visual Question Answering). Si los datos de entrenamiento mostraban que, digamos, el 90% de todas las señales de stop son rojas, el modelo aprendía a responder “rojo” cuando se le preguntaba de qué color es la señal, aunque la imagen de prueba mostrara una señal en blanco y negro. El modelo se volvió un loro estadístico, no un observador visual.

Alicia
Los investigadores tuvieron que agudizar el ingenio. Diseñaron tests de estrés diagnósticos para despojar a los modelos de esos trucos estadísticos. ¿Cuál fue el primer gran examen que expuso esa falla sistémica?

Beto
Ese sería VQA-CP (VQA Changing Priors). Usó exactamente el mismo contenido que la prueba VQA original, pero cambió totalmente las reglas: reorganizó deliberadamente las particiones de entrenamiento y prueba para que las respuestas comunes en entrenamiento se volvieran raras o incluso imposibles en la prueba.

Alicia
Y aplastó a los modelos.

Beto
Su rendimiento se vino abajo porque ya no podían fiarse de las estadísticas de lenguaje memorizadas; se vieron obligados a mirar la evidencia visual por una vez.

Alicia
Ese test es excelente para detectar sesgos estadísticos. Pero los modelos seguían fallando en algo aún más básico: el problema del binding, la incapacidad de enlazar correctamente palabras con lo que veían.

Beto
Ahí entró el fascinante benchmark Winoground. Planteó pares mínimos: imagina dos imágenes, una muestra al perro persiguiendo al gato y la otra al gato persiguiendo al perro.

Alicia
Los mismos elementos, pero en relaciones diferentes.

Beto
Precisamente. Los mismos elementos visuales, solo que las relaciones, los roles gramaticales, están invertidos. Los modelos del estado del arte de entonces rendían cerca del azar, a menudo por debajo del 10% de exactitud. Podían ver perro y gato, pero no podían decir con fiabilidad quién perseguía a quién.

Alicia
Ese fallo muestra que no captaban la naturaleza composicional de la realidad. Las pruebas tuvieron que volverse aún más estructuradas para exigir razonamiento verificable.

Beto
Sí. Así llegó GQA, razonamiento visual composicional. GQA no se limitó a hacer una pregunta; estructuró las preguntas en programas funcionales subyacentes. Si la pregunta era «¿de qué color es el sofá de la izquierda?», la operación subyacente sería una cadena: seleccionar sofá → relacionar → izquierda → consultar color. Esto permitió a los investigadores obtener un perfil diagnóstico completo sobre la consistencia interna y el anclaje del modelo. Nos dio mucho más que una simple puntuación de exactitud.

Alicia
Y entonces llegó el examen definitivo de responsabilidad: VCR, Visual Commonsense Reasoning. Este no solo pedía la respuesta correcta, sino la razón correcta.

Beto
Fue revolucionario porque partía de la premisa de que una suposición correcta no es inteligencia. La métrica conjunta Q→A→R exige que el modelo seleccione la respuesta correcta y la justificación correcta entre cuatro opciones cada una.

Alicia
No puedes tener suerte.

Beto
No puedes. Al exigir esa selección conjunta, la tasa de azar cae hasta un 6,25 %. Penaliza cualquier suposición afortunada y fuerza al modelo a hacer inferencias de sentido común sobre intenciones no expresadas y relaciones causales en la escena.

Alicia
La lección del nivel 2 es enorme. Con tests de estrés diagnósticos incrementamos la robustez de la evaluación, pero al mismo tiempo revelamos que los modelos no solo eran frágiles estadísticamente: eran incapaces, de base, de ciertos procesos cognitivos humanos elementales, como saber quién hace qué a quién. Y esa toma de conciencia llegó justo cuando los modelos se estaban volviendo exponencialmente más potentes, lo que nos empuja directamente a la frontera actual: el nivel 3.

Nivel 3: Integración

Beto
Estamos ahora firmemente en la era del razonamiento. Probamos los modelos generalistas multimodales actuales, los MLLMs. Estos modelos tienen acceso a conocimiento tan rápido que necesitamos exámenes holísticos a nivel de experto y entre dominios. Básicamente tienen que pasar exámenes finales de nivel universitario.

Alicia
Y el examen de referencia actual parece ser MMMU, el Massive Multidiscipline Multimodal Understanding benchmark. Es básicamente un examen universitario o de nivel experto: más de 11.000 preguntas que abarcan desde diagramas de física hasta gráficos médicos. Requiere integrar conocimiento de dominio a través de STEM, campos profesionales y humanidades. Es una bestia.

Beto
Si MMMU es ese exigente examen final, entonces MMBench es la evaluación detallada de habilidades cognitivas. Perfila modelos a lo largo de 20 dimensiones diferentes. Y una característica clave diseñada para mejorar la confianza es algo llamado evaluación circular (circular eval).

Alicia
¿Qué hace exactamente?

Beto
Es una característica de robustez crucial. La evaluación circular toma preguntas de opción múltiple y promueve sistemáticamente el orden de las opciones: ABCD pasa a CDAB, etc.

Alicia
¿Para combatir el sesgo posicional?

Beto
Exacto. Suprime la tendencia del modelo a favorecer siempre respuestas en cierta casilla, como elegir siempre la opción B. Al eliminar ese atajo barato, suele reducir la exactitud global del modelo entre un 10 y un 20 %, lo que nos da una medida mucho más limpia y fiable de su competencia real.

Alicia
Eso es fascinante porque admite que la propia prueba puede introducir sesgos. También estamos viendo diagnósticos muy profundos orientados a modos de fallo específicos, especialmente la alucinación.

Beto
Sí: la confianza del modelo para generar tonterías plausibles es un enorme problema de seguridad. HallusionBench fue diseñado para poner a prueba eso: presenta afirmaciones verosímiles pero totalmente falsas que el modelo debe rechazar explícitamente. Las primeras versiones de los modelos de frontera, como GPT-4V, solo puntuaron alrededor de un 32% en corrección conjunta. Tenían serias dificultades para mantener el anclaje factual cuando hay ambigüedad visual.

Alicia
Para combatir esa ambigüedad está emergiendo la evaluación centrada en el proceso. Ya no basta con calificar la respuesta final: los investigadores exigen ver el trabajo del modelo para poder diagnosticar dónde falló el proceso.

Beto
Esa es la idea detrás de VCR-Bench y GeoChain. VCR-Bench exige racionales en las que los pasos estén explícitamente etiquetados como percepción o razonamiento, lo que ayuda a diagnosticar si el modelo falló por ver mal algo o por aplicar una lógica defectuosa. GeoChain hace lo mismo para tareas complejas como la localización geográfica, requiriendo una cadena de razonamiento paso a paso.

Alicia
Todo esto sugiere que la evaluación es más exhaustiva que nunca, y sin embargo nos enfrentamos a lo que se llama la paradoja del nivel 3: alto nivel de habilidad pero baja integridad. Un modelo como Gemini 3 Pro podría acercarse al 81% en MMMU Pro, pero la pila de evaluación en sí se siente frágil.

Beto
Esto es la crisis de higiene. Estos modelos de frontera se entrenan con conjuntos de datos a escala web; es casi imposible garantizar que los ítems del benchmark, sobre todo los conjuntos estáticos publicados años atrás, no hayan sido absorbidos durante el preentrenamiento. El riesgo de contaminación de datos está en todas partes y socava fundamentalmente la integridad de cualquier conjunto de prueba fijo.

Alicia
Además, pasar a razonamiento abierto, pidiendo por ejemplo el razonamiento paso a paso, crea un nuevo problema de fiabilidad. La evaluación circular ayuda, pero ¿usar un LLM como juez para la puntuación no cambia un sesgo posicional por otro, los sesgos internos subjetivos del propio LLM juez?

Beto
Ese es un punto crítico de escepticismo y con razón. Definitivamente hemos aumentado el coste de la evaluación: lleva mucho tiempo y hardware especializado generar estas racionales, y hemos visto una bajada en la fiabilidad. Puntuar con un LLM subjetivo como juez es intrínsecamente menos consistente que las viejas métricas deterministas del nivel 1. Esta crisis de integridad estática y de calificación subjetiva nos empuja al terreno más complejo: el nivel 4.

Nivel 4: Inteligencia Abstracta y Creativa

Alicia
El nivel 4 es la verdadera frontera. Pasamos de Q&A estático a agencia dinámica, dinámicas sociales y evaluación subjetiva. Pasamos del modelo como observador pasivo al modelo como agente activo en un mundo simulado.

Beto
Éste es el reino de la IA incorporada, embodied AI, y el cambio es profundo. En vez de describir pasivamente lo que hay en la cocina, el modelo tiene que demostrar la ejecución activa de tareas: algo tipo “ve a buscar la taza de café limpia y ponla en la mesa”. Requiere planificación, interacción y retroalimentación visual en tiempo real.

Alicia
Es humillante, ¿no? Hemos pasado una década enseñando a las IAs a decirnos qué es una taza de café limpia y ahora les pedimos que se levanten, naveguen por una cocina simulada, la encuentren y la lleven a la mesa sin chocar con las sillas virtuales.

Benchmarks como VirtualHome y ALFRED están definiendo esa área.

Beto
ALFRED es un gran ejemplo: exige un agente egocéntrico, las vistas desde la perspectiva del agente, que siga instrucciones largas y complejas en entornos simulados. Y aquí las métricas cambian por completo: descartamos cosas como "top-5 accuracy" y adoptamos indicadores totalmente nuevos.

Alicia
¿Cuáles son las métricas clave en un entorno activo?

Beto
Están el “go-conditioned success” (GCS) y el “success weighted by path length” (SPL).

GCS nos dice si el trabajo se completó: ¿logró el agente el estado final deseado? ¿Puso la taza en la mesa?

SPL, en cambio, es la métrica anti-pereza: toma la puntuación GCS y penaliza al agente si tomó una ruta innecesariamente larga e ineficiente. Exige óptimo además de solo completar la tarea.

Alicia
Entonces medir competencia y eficiencia es un gran salto.

El nivel 4 también intenta abordar las partes más intangibles de la inteligencia humana, como las señales sociales y la creatividad.

Beto
La inteligencia social se capta en benchmarks como Social-IQ: razonar sobre intenciones humanas no expresadas, emociones y normas sociales a partir de clips de vídeo. El reto es inmenso porque el juicio humano es la única verdad de referencia y las señales suelen ser profundamente ambiguas.

Alicia
¿Y la creatividad? ¿Cómo objetivar eso en una máquina?

Beto
El truco ha sido adaptar herramientas de la ciencia cognitiva, específicamente el “alternative uses test” (AUT). Das al AI un objeto, por ejemplo un ladrillo, y le pides que enumere tantos usos alternativos como sea posible.

Las respuestas se puntúan en tres dimensiones cuantificables:

  • fluidez (número total de ideas),
  • flexibilidad (número de categorías semánticas diferentes), y,
  • originalidad (rareza estadística de las ideas frente a respuestas humanas comunes).

Alicia
El nivel 4 ofrece el mayor potencial para medir la profundidad de habilidad, pero con el coste más alto: ejecutar estas simulaciones complejas es intensivo en recursos y la fiabilidad es menor por la subjetividad inherente de métricas sociales y creativas. Es un intercambio que hay que aceptar si queremos evaluar la verdadera inteligencia.

Hemos visto toda esta historia impulsada por una tensión central: los benchmarks estáticos son objetivos fijos, y los algoritmos de optimización poderosos siempre encontrarán una forma de eludirlos. Si el objetivo está fijado, el modelo lo alcanzará aunque no aprenda nada útil en el proceso.

Beto
Y esa es la defensa estructural contra la ley de Goodhart: el cambio necesario hacia benchmarks vivos. Estos usan lo que llamamos "prevención dinámica" para asegurar que la distribución de la prueba esté siempre cambiando, manteniéndose un paso por delante de los datos de entrenamiento.

Alicia
¿Cómo se ve eso en la práctica sin comprometer la equidad?

Beto
Implica tres patrones de diseño clave. Primero: recolección adversarial de datos, como en proyectos tipo DynaBench. Allí, anotadores humanos están continuamente encargados de crear nuevos ejemplos que específicamente engañen a los modelos más fuertes existentes. Eso forza la creación de datos más difíciles y diagnósticos en tiempo real.

Alicia
Es una gran estrategia para elevar constantemente la barra de dificultad.

¿Cuál es el segundo patrón?

Beto
Segundo: actualización continua. Benchmarks como Real-Time QA realizan evaluaciones semanales sobre eventos actuales y noticias en tiempo real. Esto aborda directamente el desafío de actualidad (recency challenge). Asegura que el modelo se evalúe sobre conocimiento y eventos generados tras su fecha de corte de entrenamiento. Si un modelo no puede comentar algo que pasó la semana pasada, su utilidad es inmediatamente limitada.

Alicia
Y el tercer patrón, lo vemos más y más en el espacio del consumo, para generación abierta.

Beto
Está en el terreno de preferencia humana. Abandonan métricas fijas tradicionales y usan comparaciones a gran escala, crowdsourced y aleatorizadas donde humanos ven dos salidas de modelo y eligen cuál prefieren; eso produce puntuaciones tipo ELO. Esto captura la experiencia del usuario y preferencias, tales como coherencia, tono, qué tan bien siguió instrucciones, cosas que las métricas estáticas no pueden medir.

Alicia
Mirando hacia adelante, la comunidad de evaluación apunta bien a pruebas verdaderamente adversariales o a benchmarks de techo increíblemente difíciles, como el “Humanity’s Last Exam” (HLE), donde incluso nuestros mejores modelos de frontera puntúan muy por debajo del 25 %.

Beto
Exacto. También hay un emocionante cambio hacia evaluar modelos generativos de vídeo — Sora, VO2 — no solo por lo bonitos que son, sino por su capacidad como simuladores de mundo sofisticados. Eso exigirá benchmarks totalmente nuevos que prueben consistencia causal profunda y anclaje físico: ¿se respetan las leyes de la física en el mundo generado por el modelo?

Alicia
Ha sido un camino extraordinario. Pasamos de modelos que apenas podían discriminar una vaca del pasto a sistemas que ahora probamos en su capacidad para seguir instrucciones multietapa en una cocina simulada mientras navegan señales sociales y demuestran creatividad. Simplemente es increíble.

Beto
La evolución del examen cognitivo en IA es, creo, un acto profundo de indagación científica. Sigue refinando nuestra propia comprensión de lo que es la inteligencia.

Pero queda una brecha crítica. Ése es el reto a futuro. Mientras nuestras tareas exigen razonamiento complejo y pedimos a los modelos que muestren su trabajo, nuestras métricas, en su mayoría, siguen siendo proxies basados en el resultado. Todavía miramos la respuesta final, aunque hayamos solicitado la racionalidad. Cerrar esa brecha — la distancia entre exigir procesos cognitivos complejos y seguir dependiendo de métricas simplistas del resultado — define el próximo gran desafío del campo. ¿Qué nuevas métricas no basadas únicamente en el resultado deberíamos inventar que midan verdaderamente la fiabilidad del proceso por encima del mero desempeño final? Te dejamos con eso para que lo ponderes.