martes, 17 de marzo de 2026

¿Percibe la IA el arte como los historiadores?

 
 

En este estudio interdisciplinario, los investigadores analizan cómo los modelos de lenguaje visual (MLV) identifican estilos artísticos comparando sus procesos internos con la experiencia de los historiadores del arte. Mediante un método de descomposición conceptual que analiza fragmentos de imagen localizados, los autores extrajeron con éxito características visuales que impulsan las predicciones del modelo en diversos conjuntos de datos de pinturas y arquitectura. Sus hallazgos revelan que estos modelos suelen basarse en conceptos semánticos coherentes relacionados con la forma y el contenido, y los historiadores del arte confirman que el 90 % de las características identificadas son relevantes para el análisis estilístico. Si bien los modelos demuestran una precisión impresionante, el estudio también pone de manifiesto discrepancias, como la dependencia del modelo de texturas específicas o contrastes de iluminación que los expertos podrían percibir de forma diferente. En definitiva, la investigación confirma que los MLV de alto rendimiento, como Qwen3, han desarrollado mecanismos internos que reflejan en gran medida el razonamiento de los expertos humanos, a la vez que identifican patrones únicos fuera de las categorías tradicionales de la historia del arte.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style", por Marvin Limpijankit y colegas. Publicado el 11 de Marzo de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Imagínate por un segundo poner a un extraterrestre justo en medio del experimento.

Alicia
Oh, wow. Vale.

Beto
Y solo le pides a ese extraterrestre que categorice todas las obras maestras del Renacimiento. Y lo loco es que podría agruparlas a la perfección. Podría darte exactamente las mismas respuestas que un historiador del arte de primer nivel.

Alicia
¿Verdad? Lo cual suena impresionante en la superficie.

Beto
Exacto. Pero entonces te tienes que preguntar: ¿cómo lo está haciendo realmente? ¿Está mirando el alma del arte, la emoción, el contexto histórico, o simplemente está contando matemáticamente el número de píxeles azules?


IA extraterrestre clasificando obras de arte

Alicia
Esa es la pregunta del millón.

Beto
Cierto. Bienvenidos al análisis de hoy. Vamos a abrir la caja negra de los modelos visión‑lenguaje (VLM) para ver si la inteligencia artificial realmente percibe el mundo como lo hacemos los expertos humanos, o si tiene una visión totalmente, completamente alienígena.

Alicia
Y este es un tema crucial porque, quiero decir, dependemos de estos modelos todo el tiempo para cosas objetivas, ¿no? Como la detección de objetos.

Beto
Como encontrar una señal de stop.

Alicia
Exacto. El coche autónomo mira una calle, ve el octágono rojo y, ¡boom!, “señal de stop”. Eso es fácil. Pero el estilo artístico, eso es un lío.

Beto
Totalmente subjetivo.

Alicia
Correcto. Es una mezcla compleja de rasgos locales como la textura, las pinceladas, las paletas de color, y luego la composición global: ¿de qué trata realmente la pintura?

Beto
Eso es increíblemente difícil de cuantificar.

Alicia
Lo es. Y entender cómo la IA navega ese desorden es vital para el pensamiento crítico en un mundo impulsado por IA.


IA vs Historiadores de Arte

Beto
Bueno, desenmarañemos esto.

Para ayudarnos a resolverlo, estamos mirando un artículo fascinante. Es de investigadores de la Universidad de Columbia, UT Austin y UNC Chapel Hill.

Alicia
Sí, es un gran estudio.

Beto
Se titula "¿Puede la IA ver como los historiadores del arte? Interpretando cómo los modelos visión‑lenguaje reconocen el estilo artístico".

Alicia
Es una pieza de investigación fantástica.

Beto
Entonces, para entender esa mente alienígena primero tenemos que ver cómo se desempeña en una prueba diseñada para humanos reales.

Alicia
Claro. Los investigadores realmente quisieron poner un campo de juego exigente, así que probaron estos modelos en conjuntos de datos masivos.

Beto
¿De qué tipo de datos hablamos?

Alicia
Usaron WikiArt, centrándose específicamente en estilos de la temprana modernidad y modernos. Así que son unas 2.500 imágenes para cada una de esas categorías. Y luego, para hacerlo aún más difícil, añadieron un conjunto de datos de arquitectura con otras 1.500 imágenes.

Beto
Wow. Así que realmente lo hicieron pasar por toda la prueba.

Alicia
Lo hicieron. Y los resultados estuvieron muy polarizados. Tuvimos modelos como Qwen3 y GPT‑5 que rindieron de forma notable.

Beto
Lo cual es salvaje.

Alicia
Lo es. Pero luego algunos modelos de código abierto como Llava-1.5 y Molmo2 tuvieron grandes dificultades.

Beto
Sin embargo, al mirar el material fuente, noté que Llava 1.5 básicamente adivinaba "Barroco" o "Romanticismo" para casi todo.

Alicia
Demasiado. Sí.

Beto
Es tan gracioso. Es exactamente como ese tipo que te encuentras en una cena elegante que solo conoce dos palabras de arte sofisticadas.

Alicia
Totalmente.

Beto
Y las usa para cada pintura para parecer listo.

Alicia
En realidad es una analogía perfecta porque resalta un gran fallo en cómo funcionan estos modelos.

Beto
¿Cómo es eso?

Alicia
Bueno, cuando se enfrentan a información visual compleja, a menudo no generalizan. En lugar de razonar sobre la imagen que tienen delante, se vuelven perezosos.

Beto
Solo adivinan.

Alicia
Vuelven a patrones de sus datos de pre-entrenamiento. Enmascaran su confusión con las conjeturas de alta probabilidad que funcionaron en el pasado.

Beto
Así que ni siquiera están mirando la pintura.

Alicia
No de una manera significativa, no.

Pero eso nos lleva a los modelos que sí tuvieron éxito, como Qwen 3.

Beto
Porque si están acertando, tenemos que saber cómo.

Alicia
Exacto. Pero no puedes simplemente preguntarle a la IA porque podría inventarte una respuesta convincente.

Beto
Por supuesto. Te va a mentir.

Alicia
Así que tienes que mirar las matemáticas subyacentes. Los investigadores usan un método llamado descomposición de conceptos mediante factorización no-negativa de matrices (semi-NMF).

Beto
Sí, semi‑NMF. Es un trabalenguas de jerga.

Alicia
Mucho. Pero, en pocas palabras, obligaron a la IA a descomponer sus “pensamientos” en partes matemáticas positivas y aditivas. Y lo hicieron dividiendo cada imagen en una cuadrícula de parches de 4 por 4.

Beto
Me encanta este enfoque. Es como tomar una enorme pintura renacentista y mirarla a través de un tubo de papel de cocina.

Alicia
Sí, exactamente.

Beto
No ves toda la escena de la natividad ni la gran composición. Solo ves este pequeño parche de sombreado suavemente difuminado o tal vez un fragmento de alguna tela drapeada.

Alicia
Exacto. La IA está descomponiendo la imagen en estos pequeños bloques aislados. Y los investigadores querían saber si la IA realmente depende de esos parches específicos para tomar sus decisiones.

Beto
Porque notar un parche de sombreado es distinto de usarlo para juzgar el estilo.

Alicia
Correcto. Así que hicieron lo que llaman intervenciones. Tenían que probar la causalidad.

Beto
¿Cómo funcionó eso?

Alicia
Veamos el concepto 9. Ese era un clúster matemático en la IA que correspondía a parches que mostraban figuras humanas, drapeados y claroscuro.

Beto
Ese dramatismo clásico de luces y sombras.

Alicia
Exacto, alto contraste. El modelo asociaba fuertemente el concepto 9 con el estilo barroco. Entonces los investigadores entraron y suprimieron matemáticamente ese concepto específico.

Beto
Espera. ¿En serio? Simplemente lo apagaron.

Alicia
Literalmente borraron ese bloque matemático mientras la IA procesaba la imagen.

Beto
¿Y qué pasó?

Alicia
La probabilidad de que el modelo predijera Barroco se desplomó por completo.

Beto
Sí, probó de manera inequívoca que la IA construye su predicción final a partir de estos bloques matemáticos locales.

Alicia
¿Pero cambiar las matemáticas de un pequeño parche realmente altera todo el sentido de la pintura para la IA?

Beto
Sí, lo hace. Si eliminas el bloque que representa el drapeado y el juego de luces, la IA básicamente pierde la vía hacia la palabra “Barroco”.

Alicia
Es tan extraño, eso. Así que la IA usa esos conceptos parcheados para hacer el cálculo. Pero, ¿esos conceptos matemáticos realmente significan algo para un humano?

Beto
Esa es la gran pregunta.

Alicia
Sí, porque podría ser ruido aleatorio para nosotros.

Beto
Exacto. Para probarlo, los investigadores convocaron a un equipo de seis historiadores del arte.

Alicia
Para básicamente juzgar la tarea de la IA.

Beto
Básicamente, sí. Mostraron a esos expertos humanos 128 de los conceptos visuales de la IA. Lo fascinante es que los historiadores validaron gran parte de ello.

Alicia
¿En serio? Entendieron las matemáticas de la IA.

Beto
Lo hicieron. Encontraron que el 73% de los conceptos de la IA eran coherentes y significativos.

Alicia
Wow.

Beto
Obtuvieron una puntuación de 3 o más sobre 5. Y aún mejor: en el 90% de esos casos, los historiadores coincidieron en que los conceptos eran altamente relevantes para predecir el estilo. Eso es increíble.

Alicia
Sí.

Beto
Quiero decir, la IA básicamente aprendió a ver como un estudiante de arte sin haber tomado ni una sola clase de historia del arte.

Alicia
Realmente lo hizo. Pero categorizó con éxito los conceptos en forma,como color y textura, contenido, como los objetos y lo representado, y estilo general.

Beto
Lo cual es enorme.

Alicia
Es gigantesco, especialmente porque el estilo es tan discutido en la historia del arte. Es esa mezcla complicada de cualidades intrínsecas: contornos, escala, tono y lo que la obra realmente representa.

Beto
Sí, forma frente a contenido.

Alicia
El hecho de que la IA captara este plan matizado de forma orgánica, es un gran salto adelante.

Beto
Ahora bien, si los historiadores coincidieron con la IA el 73% del tiempo, ¿qué demonios pasaba en ese 27% restante?

Porque ahí es donde se pone realmente interesante. Ahí es donde esa cosmovisión alienígena queda totalmente expuesta.

Alicia
Sí. Los desajustes son la parte más reveladora del estudio. Miremos el concepto 64. La IA agrupó un montón de parches que, cuando los historiadores los vieron, eran solo árboles y bosques.

Beto
Solo corteza y hojas.

Alicia
Bien. Pero el problema es cómo la IA lo usó. Asociaba fuertemente ese concepto de árboles con el Romanticismo.

Alicia
Lo cual tiene sentido hasta cierto punto; la naturaleza es importante en el arte romántico.

Beto
Sí, hasta cierto punto tiene sentido.

Alicia
Pero la IA desarrolló lo que llaman un sesgo de detalle. Empezó a sobreindexar en los árboles.

Beto
Ah, entonces si veía un árbol, simplemente adivinaba Romanticismo.

Alicia
Básicamente. Incluso cuando miraba pinturas claramente realistas, si había hojas se disparaba la probabilidad de Romanticismo.

Beto
Actúa como un escáner glorificado de texturas en vez de ver el panorama completo.

Alicia
Exacto. Le falta la jerarquía semántica para entender el contexto.

Beto
Bien. Pero luego está el concepto 67. Y ese fue el auténtico momento “ajá” para mí.

Alicia
Sí. La pintura de John Singer Sargent.

Beto
Correcto. Sargent es prácticamente el libro de texto del realismo. La IA la mira y acierta: realismo.

Alicia
Sí. Obtuvo la respuesta correcta.

Beto
Pero se apoyó fuertemente en el concepto 67 para llegar allí. Y al principio los historiadores juzgaron el concepto 67 como totalmente irrelevante.

Alicia
Lo hicieron. Pensaron que no tenía sentido, ...

Beto
... porque los parches no coincidían con el tema en absoluto.

¿Entonces qué significa todo esto? ¿Cómo la IA obtiene la respuesta correcta usando datos completamente irrelevantes?

Alicia
Pues, tras inspeccionarlo más a fondo, los expertos se dieron cuenta de qué estaba mirando realmente la IA. El concepto 67 no iba sobre el contenido; se trataba enteramente de contrastes formales de luz y oscuridad.

Beto
Oh, wow.

Alicia
Sí. Los expertos humanos estaban mirando el contenido, gente cotidiana, escenas no idealizadas, para definir el realismo, ...

Beto
... porque así nos enseñan a entender el arte.

Alicia
Correcto. Pero la IA miraba la forma, el contraste físico literal de la pintura en el lienzo.

Beto
Así que no estaba equivocada.

Alicia
No, no lo estaba. Simplemente tenía una manera no humana, y fundamentalmente distinta, de definir el estilo. Encontró una regularidad matemática que correlacionaba con el realismo y la usó.

Beto
Es profundamente extraño pero también bastante brillante.

Alicia
Es una lógica totalmente alienígena, pero funciona.

Beto
Y aquí llegas tú, escuchando esto ahora mismo, y te puedes preguntar: ¿por qué debería importarte cómo un ordenador clasifica una pintura barroca o realista del siglo XIX?

Alicia
Bueno, si conectamos esto con el panorama general, las apuestas son en realidad increíblemente altas.

Beto
Porque no se trata solo de arte.

Alicia
Exacto. Dependemos de los VLM para tareas cada vez más críticas en nuestra vida diaria: piensa en analizar radiografías médicas o en los sistemas de visión de los coches autónomos.

Beto
Situaciones de vida o muerte.

Alicia
Este análisis demuestra que una IA puede llegar a la respuesta exacta, como identificar una imagen quirúrgica o detectar un tumor en una exploración, pero podría estar usando una lógica completamente alienígena para hacerlo.

Beto
Como basarse en contrastes de luz y oscuridad en vez del tejido humano real.

Alicia
Exacto. ¿Y si la IA del hospital identifica tumores basándose en una marca de agua específica dejada por la máquina de rayos X en lugar de analizar el tejido humano?

Beto
Uf. Terrible pensamiento.

Alicia
Si no entendemos el porqué detrás del qué de la IA, estamos confiando ciegamente en un sistema que literalmente no comprendemos.

Beto
Lo que significa que el pensamiento crítico es más importante que nunca. No podemos aceptar la salida de la IA tal cual solo porque haya acertado antes.

Alicia
Absolutamente no. Tenemos que construir y usar herramientas interpretables.

Beto
Como esa lupa a nivel de parches que usaron en el estudio.

Alicia
Exactamente así. Tenemos que auditar el razonamiento de la máquina y forzar a la caja negra a abrirse.

Beto
Hay que hacer que muestre su trabajo.

Alicia
Precisamente.

Beto
Bueno, eso es todo el tiempo que tenemos por hoy. Muchísimas gracias por explorar con nosotros esta extraña intersección entre arte e inteligencia artificial.

Alicia
Ha sido una gran discusión. Y, antes de irnos, quiero dejar a todos con una cosa más para reflexionar.

Hemos hablado de cómo la IA aprende de los historiadores del arte. Pero si los modelos de visión son capaces de encontrar estas regularidades y patrones visuales altamente predictivos que quedan completamente fuera de las categorías humanas convencionales, ...

Beto
... por ejemplo, midiendo la física literal de la pintura.

Alicia
Correcto. ¿y si algún día la IA no solo aprende de los historiadores del arte, sino que en realidad les enseña nuevas maneras de mirar el arte humano? ¿Y si el próximo gran movimiento artístico no se define por la emoción humana, sino por un patrón que solo una máquina puede ver?

Beto
Es una idea salvaje. La IA no solo está categorizando nuestro arte, sino redefiniéndolo fundamentalmente. Algo en qué pensar, sin duda.

Sigan cuestionando el mundo que los rodea, todos, y nos vemos en el próximo análisis.