jueves, 25 de junio de 2026

Composición Profunda de Imágenes

 
 

Este exhaustivo estudio explora el campo de la composición profunda de imágenes, un proceso que integra un objeto en primer plano con un nuevo fondo para crear una composición perfecta. Los autores clasifican los principales desafíos de esta tarea en inconsistencias visuales, geométricas y semánticas, que a menudo dan lugar a artefactos visuales poco realistas. Para abordar estos problemas, el texto divide el proceso en subtareas específicas: colocación de objetos para el posicionamiento, fusión de imágenes para el refinamiento de los bordes, armonización de imágenes para la alineación de la iluminación y generación de sombras o reflejos. La investigación evalúa diversas metodologías de aprendizaje profundo, desde los tradicionales pipelines secuenciales hasta los modernos modelos de difusión generativa. Además, los autores presentan libcom, una caja de herramientas de código abierto diseñada para unificar estas funciones y proporcionar conjuntos de datos y métricas estandarizados para futuras investigaciones. Esta visión general sirve como hoja de ruta fundamental para lograr una edición de imágenes realista y de alta calidad mediante técnicas computacionales automatizadas.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Making Images Real Again: A Comprehensive Survey on Deep Image Composition", por Li Niu y colegas, del laboratorio de Inteligencia Artificial de la Universidad de Shanghai Jiao Tong. Publicado el 15 de Junio de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Sabes esa reacción inmediata, la reacción que tienes cuando estás en una videollamada. Como si alguien estuviera usando un fondo virtual, pero los bordes de su cabello simplemente están fallando y entrando y saliendo de una playa tropical.

Alicia
Sí, es súper discordante. Quiero decir, tu cerebro lo detecta instantáneamente.

Beto
Correcto. Básicamente grita que la imagen es falsa. Y ni siquiera tienes que pensarlo.

Alicia
Bueno, el sistema visual humano está increíblemente afinado para detectar anomalías, ¿sabes?, cosas como la iluminación, la geometría, las relaciones espaciales. Puede que no podamos articular la matemática exacta detrás de ello, pero intuitivamente sabemos cuándo los píxeles simplemente no pertenecen juntos.

Beto
Exacto. O piensa en cuando ves un trabajo terrible de Photoshop en un cartel. No necesitas ser un experto en fotografía para saber que algo está fundamentalmente mal. Tus ojos simplemente lo rechazan.

Alicia
Sí, completamente.

Beto
Y durante mucho tiempo, yo asumí que eso era solo un instinto humano innato, algo que las computadoras nunca entenderían ni replicarían realmente.

Pero hoy vamos a sumergirnos en un análisis profundo de un artículo de encuesta masivo y exhaustivo de Li Niu y sus colegas. Se llama "Making Images Real Again" ("Volviendo a hacer las imágenes reales"). Y esto cambia por completo la forma en que miras esto.

Alicia
Realmente lo hace. El artículo mapea esta ciencia increíblemente compleja de lo que la industria llama "composición profunda de imágenes" ("deep image composition"), que es esencialmente una exploración de cómo podemos engañar algorítmicamente a ese detector humano de falsificaciones.

Deep_Image_Composition_Blueprint_1024
Composición profunda de imágenes: El modelo para imágenes realistas

Beto
De acuerdo, vamos a desglosar esto porque todos los que están escuchando esta inmersión profunda han visto esos trabajos terribles de Photoshop, o has intentado hacer un meme y terminaste con algo que parece una pegatina barata pegada a una foto. Así que hoy, nuestra misión es descifrar exactamente por qué nuestros cerebros rechazan esas imágenes. Y bueno, cómo se está enseñando a la IA a corregir sistemáticamente nuestros errores humanos.

Alicia
Lo fascinante aquí es cómo los investigadores abordan esa vaga sensación de falsedad. Quiero decir, no la tratan como un problema de arte. La tratan como un problema de datos estrictamente calculable.

Beto
Un problema de datos.

Alicia
Sí. Así que cada vez que tomas un objeto en primer plano, digamos una persona o un coche y lo combinas con un nuevo fondo, inevitablemente creas lo que el artículo llama "inconsistencias". Y las categorizan en tres grandes categorías: apariencia, geométrica y semántica.

Beto
OK. Tres maneras distintas en que la ilusión puede romperse.

Alicia
Correcto. Y hay una jerarquía estricta para corregirlas antes de que una IA pueda siquiera comenzar a calcular la iluminación o las sombras, que es la categoría de apariencia. Tiene que averiguar el espacio físico y lógico. Tiene que resolver primero la geometría y la semántica.

Beto
Sí, tiene sentido.

Alicia
Sí. Esa es la primera subtarea de la composición de imágenes. La llaman "colocación de objetos" ("object placement").

Beto
Correcto. Es como un director de cine colocando actores en un escenario. Quiero decir, no puedes empezar a montar los focos y calcular las sombras hasta que sepas que tu actor principal no está accidentalmente parado sobre la mesa de café. Tienes que saber dónde va realmente la cosa.

Alicia
Exacto. Esa lógica física es lo que evita la inconsistencia geométrica. La IA tiene que asegurarse de que las reglas físicas del universo no se rompan. Así que si compones una maleta en una habitación, pero las coordenadas la colocan flotando a tres pies en el aire, ...

Beto
Sí. O colocar un perro gigante junto a un coche diminuto.

Alicia
Sí, exactamente. La escala y la gravedad son simplemente matemáticamente incorrectas. Las líneas de perspectiva del objeto en primer plano no convergen con el punto de fuga del fondo.

Beto
Así que eso es geometría. Pero luego tienes la inconsistencia semántica, que me parece un poco más abstracta. Si la geometría se trata de la física, la semántica se trata del significado, ¿correcto?

Alicia
Se trata enteramente de contexto y probabilidad. Así que digamos que quieres colocar un cebra en una sala de estar suburbana típica o, una lancha rápida en medio de una carretera concurrida.

Beto
Correcto. Definitivamente es raro.

Alicia
Geométricamente, esos objetos pueden encajar perfectamente. Puedes escalar un cebra para que sus pezuñas descansen justo en la alfombra. Pero semánticamente, la narrativa visual no tiene sentido.

Beto
Lo que trae a colación este debate filosófico súper interesante en el artículo con respecto al juicio subjetivo. Hay este ejemplo específico que usan de un coche colocado en un lago, hundiéndose visiblemente en el agua.

Alicia
Oh, correcto. Ese.

Beto
Sí. Y técnicamente, un coche y un lago es geométricamente posible. Con una gravedad base, la escala es correcta. El desplazamiento del agua se puede modelar, pero la IA lo categoriza como una inconsistencia semántica. Y yo luché con eso al principio. ¿Cómo es que es un fallo si es físicamente posible?

Alicia
Bueno, es porque la IA está tomando decisiones basadas en conocimiento común estadístico. Mientras que un coche hundiéndose en un lago ciertamente sucede en el mundo real, ya sabes, quizás después de un accidente, es una desviación estadística masiva.

Beto
Ah, okay.

Alicia
Estos modelos de IA se entrenan con miles de millones de imágenes de la vida cotidiana normal. Los coches están en carreteras, los barcos están en lagos. Así que cuando analiza la matriz de probabilidad de un coche existiendo en una masa de agua, la puntuación es increíblemente baja. Lo ve como una violación semántica solo porque está jugando con las probabilidades de sus datos de entrenamiento.

Beto
Espera, si estrictamente juega con las probabilidades, ¿cómo sabe la IA la diferencia entre una pieza de arte surrealista que intencionalmente quiere un cebra en una sala de estar y una foto realista? Quiero decir, ¿no está esto estrangulando la creatividad?

Alicia
Sí lo hace. Es una limitación significativa de los modelos actuales. Ahora mismo, los algoritmos estándar de colocación de objetos están entrenados estrictamente para imitar la realidad mundana. Si quieres surrealismo, generalmente tienes que anular el sistema manualmente.

Beto
Vaya. Okay.

Alicia
Pero para lograr la realidad, los investigadores generalmente usan dos enfoques. El método más antiguo se basa en enfoques generativos donde la IA esencialmente lanza los dados. Adivina algunas cajas delimitadoras aleatorias e intenta evaluar si se ven bien.

Beto
Lo que suena increíblemente ineficiente. Quiero decir, si estoy lanzando los dados en una imagen de resolución 4K, hay millones de lugares equivocados para poner un objeto.

Alicia
Oh, es salvajemente ineficiente. Por eso el campo ha cambiado en gran medida a enfoques discriminativos. El texto detalla este método altamente eficiente que llaman FOPPA, "Evaluación de Colocación Rápida de Objetos" ("Fast Object Placement Assessment", FOPA).

Beto
Bien. ¿Cómo funciona eso?

Alicia
En lugar de adivinar coordenadas al azar, la IA analiza toda la imagen de fondo de una vez y genera un mapa de puntuación de racionalidad.

Beto
Así como un mapa de calor superpuesto sobre la imagen.

Alicia
Piensa en ello exactamente como un mapa de calor térmico. El algoritmo analiza el contexto semántico del fondo, identificando mesas, pisos, cielos, carreteras y puntúa matemáticamente cada píxel basándose en cuán racional sería anclar tu objeto específico allí.

Beto
Oh, ya veo.

Alicia
Sí. Así que un peatón obtiene una puntuación roja brillante y caliente en una acera, pero una puntuación azul fría si está flotando en el cielo.

Beto
Okay. Así que digamos que el mapa de calor funciona a la perfección. Hemos sacado nuestro cebra de la sala de estar suburbana. Encontramos las coordenadas matemáticas perfectas y hemos colocado al cebra en una sabana africana realista. La física tiene sentido. El contexto tiene sentido. Pero si miro esa composición, todavía se ve como una pegatina. Simplemente parece pegada.

Alicia
Porque todavía tienes inconsistencias de apariencia. Encontrar las coordenadas correctas no arregla los bordes irregulares o la iluminación desparejada para resolver ese efecto de pegatina. El proceso tiene que pasar por dos ajustes microscópicos distintos: "mezcla de imágenes" ("image blending") y "armonización de imágenes" ("image harmonization").

Beto
Así que la mezcla es esencialmente lijar los bordes ásperos de una pieza de rompecabezas mientras que la armonización es pintar esa pieza. Así que coincide perfectamente con la iluminación del resto del rompecabezas.

Alicia
Eso captura el objetivo perfectamente. Pero la mecánica real de lijar los bordes es increíblemente difícil para las computadoras.

Veamos la mezcla primero. Cuando un objeto es recortado digitalmente de una imagen, los píxeles de los bordes, el borde mismo del objeto, casi nunca son perfectos.

Beto
Correcto. Siempre son un poco cuadrados.

Alicia
Sí. El software tradicional utiliza "mezcla alfa" ("alpha blending"), que simplemente aplica un ligero desenfoque a los píxeles del borde para suavizar la transición. Pero eso a menudo crea un efecto halo. Se ve fantasmal.

Beto
Oh, como esas primeras películas de pantalla verde donde todos tienen ese extraño contorno brillante.

Alicia
Exacto. Porque un simple desenfoque no entiende el material físico del objeto. Los modelos de aprendizaje profundo intentan corregir esto suavizando la transición de manera inteligente, analizando de qué está hecho realmente el objeto.

Pero el artículo señala un caso de fallo masivo con un método más antiguo de aprendizaje profundo llamado "MLF". Usan el ejemplo de una piña.

Beto
Oh, lo recuerdo. El algoritmo de suavizado básicamente destruyó la piña.

Alicia
Lo hizo por completo. El modelo fue tan agresivamente entrenado para eliminar los bordes irregulares y ruidosos que cuando se encontró con las pequeñas y intrincadas hojas espinosas en la corona de la piña, asumió que esos picos eran errores irregulares. Básicamente lijó las hojas por completo, dejando un tallo borroso y redondeado.

Beto
Eso es cómico y un poco trágico.

Alicia
Y el artículo también destaca cómo estos modelos de mezcla fallan por completo con objetos transparentes.

Beto
Como una bolsa de plástico sostenida en la mano de alguien.

Alicia
O una botella de vidrio. Para mezclar sin problemas una botella de vidrio en un nuevo fondo. La IA tiene que deducir matemáticamente qué píxeles pertenecen a la superficie del vidrio en sí, los reflejos y el deslumbramiento, y qué píxeles son el fondo original brillando a través del vidrio.

Beto
Espera, ¿en serio?

Alicia
Sí. Luego tiene que borrar los píxeles del fondo antiguo y refractar los píxeles del nuevo fondo a través de la curvatura del vidrio.

Beto
Eso es una cantidad de cálculo insana solo por una botella descartada.

Okay. Suavizar los bordes requiere una comprensión de los materiales y la refracción de la luz. Pero digamos que logramos que los bordes sean perfectos de alguna manera. Ahora tenemos que igualar la pintura: armonización de la imagen.

Alicia
La armonización es, posiblemente, donde ocurren los errores visuales más flagrantes. Imagina capturar un objeto en primer plano como una persona al mediodía con luz solar dura y brillante proyectando sombras nítidas en su rostro. Luego la pegas en un fondo capturado al atardecer donde la luz es suave, difusa y anaranjada.

Beto
Oh, los choques visuales son instantáneos.

Alicia
Tu cerebro detecta la iluminación desparejada en milisegundos. La armonización busca corregir eso ajustando matemáticamente las estadísticas de iluminación. La IA analiza el brillo, el contraste y la temperatura del color del entorno de fondo y forza a los píxeles de los objetos en primer plano a adoptar esos valores estadísticos exactos.

Beto
Y hay una variante salvaje de esto mencionada en el artículo: "armonización pictórica" ("painterly image harmonization").

Alicia
Sí. Esa es fascinante. La armonización estándar importa una fotografía a otra. La armonización pictórica introduce una brecha estilística masiva. Es cuando tomas una foto realista de alta resolución de un objeto, digamos un golden retriever, y lo insertas en una pintura famosa de un artista, como Van Gogh o Monet.

Beto
Así que la IA tiene que convertir una foto de un perro realista en una pintura al óleo impresionista del siglo XIX solo basándose en el contexto del fondo.

Alicia
Sí. Y va mucho más allá de simplemente ajustar la temperatura del color. La IA tiene que extraer las características texturales de alto nivel del fondo. Mapea las pinceladas específicas, la textura del lienzo, el grosor de la pintura "impasto" y los patrones geométricos abstractos del artista original.

Beto
Vaya.

Alicia
Luego deforma los píxeles del golden retriever para imitar esas características físicas de pintura exactas. Así que el perro parece pintado nativamente en la escena por Van Gogh mismo.

Beto
Okay, hagamos un balance. Nuestro pedazo de rompecabezas ha sido lijado para que los bordes no brillen. Ha sido pintado para coincidir con la iluminación circundante. El cebra está en la sabana. La iluminación es hora dorada para coincidir con el atardecer. La geometría es perfecta. Pero lo estoy mirando y mi cerebro todavía está susurrando "Photoshop". ¿Por qué?

Alicia
Debido a lo que llamamos "anclas invisibles" ("unseen anchors"). Hasta este punto, el entorno ha afectado al objeto. La iluminación del fondo ha cambiado los colores del cebra. La geometría del fondo dictó su escala. Pero crucialmente, el objeto no está afectando al entorno de vuelta.

Beto
No tiene peso físico. Es un vampiro. No proyecta una sombra.

Alicia
Exacto. Y esto nos lleva a la generación de sombras y reflejos. ¿Por qué es tan increíblemente difícil para las computadoras? Porque una imagen es plana. Es 2D.

Para proyectar una sombra precisa, la IA tiene que hacer ingeniería inversa matemática de la geometría 3D de toda la escena.

Beto
Eso suena imposible.

Alicia
Tiene que deducir la forma del suelo, calcular el ángulo y la intensidad exactos de las fuentes de luz invisibles fuera del marco y proyectar un mapa de sombra 3D de vuelta a los píxeles 2D. Es un problema inverso increíblemente difícil.

Beto
Para darte una idea de lo difícil que es esto, los investigadores literalmente tuvieron que crear un conjunto de datos solo para enseñarle a la IA qué son las sombras. Porque no puedes simplemente tomar una foto de una escena real con una sombra y luego tomar exactamente la misma foto sin la sombra. Quiero decir, el sol se mueve, la iluminación cambia.

Alicia
Correcto.

Beto
Así que los investigadores tuvieron que tomar miles de fotos reales y borrar minuciosamente las sombras reales, píxel por píxel, a mano. Lo llamaron el conjunto de datos "DESOBA".

Alicia
Es un proceso agotador de recopilación de datos. Pero necesitaban una verdad fundamental ("ground truth"). Tuvieron que alimentar a la IA con una imagen que carece de sombra y otra con una sombra real. Así que la red neuronal podría aprender la diferencia matemática entre las dos, y eventualmente aprender a sintetizar esa diferencia desde cero.

Beto
Entonces, ¿qué significa todo esto? Si es tan complicado, ¿por qué no programamos a la IA para que dibuje como un óvalo oscuro, semi-transparente y borroso debajo del objeto? Eso es lo que hacían los primeros videojuegos en los 90s. Y comunicaba la sombra lo suficientemente bien.

Alicia
Lo aceptamos en los 90s porque los gráficos circundantes eran igualmente primitivos. Pero en una imagen fotorrealista 4K, tu cerebro moderno no aceptará un óvalo. El truco del óvalo gris hace añicos la ilusión en el momento en que introduces formas complejas o terreno irregular. Usemos una bicicleta como ejemplo.

Beto
Oh, sombras de bicicleta en pesadilla. Tiene radios, cadenas, tubos metálicos delgados, pedales.

Alicia
Correcto. Una bicicleta proyecta una red de luz y oscuridad muy intrincada. Ahora imagina que esa bicicleta está estacionada en un sendero de montaña rocoso e irregular. La sombra no puede simplemente caer plana. Tiene que deformarse, doblarse y caer sobre cada roca individual, cada depresión y grieta en el suelo.

Beto
Sí, un óvalo no va a servir allí.

Alicia
Para nada. Las primeras redes de IA como SGRNet intentaron resolver esto adivinando la forma de la sombra. Pero el artículo señala que a menudo fallaban catastróficamente. Generaban sombras con formas extrañas y blobudas que no coincidían en absoluto con la silueta del objeto.

Beto
Así que si las redes antiguas solo escupen masas, ¿cómo está arreglando la industria esto ahora?

Alicia
Están abandonando por completo esas redes neuronales estrechas antiguas. El campo ahora depende de modelos de difusión de base masivos, modelos como SGDiffusion o RGDiffusion para reflejos. Estos son las IA gigantes entrenadas con miles de millones de imágenes. Debido a que han visto tanta información, entienden intrínsecamente la profundidad 3D y la iluminación a un nivel fundamental.

Beto
Tiene sentido.

Alicia
Los modelos específicamente ajustados para sombras o reflejos usan este vasto conocimiento previo de la estructura del mundo para calcular exactamente cómo debería doblarse la luz alrededor de un neumático de bicicleta y caer sobre una roca.

Beto
Okay. Así que hagamos una pausa. Tenemos que calcular la geometría, evaluar la lógica semántica con un mapa de calor, colocar el objeto, analizar los materiales para lijar los bordes, extraer las estadísticas de iluminación para armonizar los colores, y luego hacer ingeniería inversa del espacio 3D para proyectar sombras. Haciendo todos estos ajustes microscópicos secuencialmente. Quiero decir, suena frágil. Si el algoritmo de mezcla de bordes falla en el segundo paso, tu cálculo final de sombra en el quinto paso es completamente inútil.

Alicia
Es computacionalmente pesado. Y sí, la acumulación de errores es un problema masivo. Si un paso inicial falla, toda la composición queda arruinada.

Beto
Espera, ¿hay algún atajo? ¿Alguna forma de evitar la secuencia?

Alicia
La hay. El artículo introduce lo que llaman "tuberías paralelas" ("parallel pipelines"), lo que nos lleva al reino de la composición generativa de imágenes. En lugar de arreglar la imagen paso a paso en una cadena rígida, usas uno de esos modelos de difusión masivos, como ObjectStitch o ControlCom.

Beto
Okay.

Alicia
Proporcionas un fondo, dibujas una caja delimitadora aproximada donde quieres el objeto y proporcionas una foto de referencia del objeto. La IA luego elimina el fondo dentro de esa caja y regenera el objeto por completo desde cero.

Beto
Aquí es donde se pone realmente interesante. Déjame intentar visualizar esto. Es como hornear. El método secuencial es hornear la masa, esperar, glasearla y luego decorarla. Este nuevo método generativo es simplemente tirar harina cruda, azúcar y colorante alimentario en un horno y esperar que salga un pastel de bodas perfectamente decorado.

Alicia
Esa es una forma muy precisa de describir la "alucinación de difusión" ("diffusion hallucination"). Los modelos construidos para esto realizan colocación, mezcla, armonización y sombreado simultáneamente. El objeto no se pega. Se teje literalmente en la tela de píxeles del fondo durante el proceso de generación.

Beto
Pero, ¿no altera esto fundamentalmente el objeto original? Si lo estás horneando de gradientes incorrectos, ¿no hay riesgo de que la IA simplemente dibuje la cosa equivocada?

Alicia
Has tocado el fallo exacto del atajo mágico. El texto fuente entra en gran detalle sobre las limitaciones incluso de los modelos generativos comerciales más potentes, como Banana Pro y SeeDream 5.0. Si bien pueden crear imágenes impresionantes y perfectamente iluminadas, alucinan salvajemente. A veces escalan el objeto incorrectamente, permitiendo que se desborde por completo fuera de la caja delimitadora que el usuario solicitó.

Beto
O cambia los detalles. Si quiero componer mi coche específico, no quiero que la IA dibuje un coche parecido. Quiero mi coche.

Alicia
Exacto. Y peor aún, en el proceso de calcular la iluminación para esculpir el nuevo objeto, la IA a menudo altera accidentalmente la iluminación o el tono de color del fondo original. Recalcula toda la escena.

Beto
Eso es malo.

Alicia
Sí. Si eres un diseñador de interiores profesional tratando de componer una lámpara en una foto de una habitación, y la IA cambia sutilmente el color de las paredes para que la lámpara se vea mejor, la herramienta es de repente inútil para tu trabajo.

Beto
Okay. Así que este método secuencial paso a paso es tedioso y frágil. Y el método generativo de una sola vez es propenso a alucinar los detalles equivocados y arruinar el fondo. ¿Hay otra manera, en lugar de forzar a un pedazo de rompecabezas a encajar, por qué no simplemente encontrar un pedazo que ya pertenezca?

Alicia
Ahora estamos llegando a la búsqueda de objetos en primer plano ("foreground object search"). Esto es esencialmente el "código trampa" de la composición de imágenes.

Beto
Explícame, cómo funciona el código trampa.

Alicia
Si estás construyendo una escena digital, en lugar de agonizar por cómo arreglar matemáticamente la iluminación, la mezcla de bordes y la trayectoria de desgarre de un objeto violentamente desparejado, evitas el problema por completo. Usas IA para buscar en una base de datos preexistente masiva de millones de objetos aislados. El algoritmo analiza tu fondo y recupera un objeto que ya posea exactamente la iluminación, perspectiva y contexto semántico requeridos.

Beto
Así que no tienes que alterar la iluminación, ni proyectar sombras falsas. Simplemente lo dejas caer y la física ya coincide.

Alicia
Precisamente. Pero encontrar esa coincidencia perfecta en una base de datos de millones de artículos es una carga computacional pesada. Así que los investigadores usan algo llamado una "red maestro-estudiante" ("teacher-student network") para acelerarlo. Métodos como DiscoFOS.

Beto
He oído este término en el desarrollo de IA, pero ¿cómo funciona realmente aquí?

Alicia
Piénsalo como un tasador maestro y un aprendiz ansioso. El maestro es una red neuronal masiva, lenta, compleja, que entiende profundamente la física, el espacio 3D y la iluminación. Pasa semanas analizando la base de datos, aprendiendo las correlaciones profundas entre objetos y entornos.

Beto
Okay. Y el estudiante.

Alicia
Luego tienes al estudiante, un modelo mucho más pequeño, ligero y ultrarrápido. El estudiante no aprende la física. Simplemente estudia las respuestas del maestro. Aprende los atajos. Una vez que el estudiante está entrenado, puede mirar instantáneamente tu fondo y recuperar un objeto estructural y semánticamente compatible, en milisegundos.

Beto
Si estás escuchando esto, podrías estar pensando: "genial, la IA puede ayudarme a hacer un meme mejor o arreglar una foto familiar".

Pero ¿por qué importa esto para el oyente promedio? Las aplicaciones reales del mundo deben ir mucho más allá de la edición de fotos para consumidores.

Alicia
Si conectamos esto con la imagen más grande, las aplicaciones industriales son asombrosas. Piensa en el comercio electrónico global. Los trajes virtuales para ropa son notoriamente difíciles porque los cuerpos son formas 3D complejas.

Beto
Correcto.

Alicia
Si una IA puede insertar sin problemas una chaqueta nueva en una foto tuya, teniendo en cuenta dinámicamente cómo cae la tela sobre tu geometría corporal específica y reaccionando a la iluminación ambiental de tu dormitorio, eso revoluciona las compras en línea.

O la previsualización de decoración de hogar virtual, probando un sofá nuevo en tu sala de estar con precisión fotorrealista.

Beto
Pero eso sigue siendo solo herramientas de visualización. ¿Hay alguna aplicación que afecte, digamos, a la seguridad?

Alicia
Absolutamente. Argumentablemente, la aplicación más crítica ahora es la "aumentación de datos" ("data augmentation") para entrenar otras inteligencias artificiales.

Toma el desarrollo de coches autónomos. Para entrenar un coche autónomo para no chocar contra un ciervo por la noche, la IA necesita ver miles de ejemplos de ciervos en carreteras por la noche. Pero capturar esos datos en el mundo real es peligroso, raro y caro. No puedes simplemente conducir esperando que un ciervo salte.

Beto
Ya veo hacia dónde va esto. Sintetiza los datos.

Alicia
Exacto. Usando composición profunda de imágenes, los ingenieros pueden tomar una foto vacía de una calle aburrida capturada por un vehículo e insertar sin problemas un modelo 3D de un ciervo. Pueden armonizar la iluminación, proyectar las sombras adecuadas de las farolas de la calle y mezclar las pezuñas con el asfalto perfectamente.

Beto
Vaya.

Alicia
Generan miles de estos escenarios de casos extremos sintéticos, peatones corriendo, bicicletas desviándose, escombros cayendo y condiciones de iluminación infinitas, y alimentan esos datos compuestos al sistema de detección de colisiones del coche.

Beto
Están haciendo imágenes falsas para hacer que la IA del mundo real sea más segura. Eso es brillante.

Alicia
Y la barrera de entrada está cayendo a cero. Para hacer que todo este ecosistema sea accesible, los investigadores detrás del artículo de encuesta crearon una caja de herramientas de Python de código abierto. Simplemente se llama "libcom".

Beto
Oh, genial.

Alicia
Su objetivo final era comprimir todos estos pasos matemáticos increíblemente complejos, los mapas de calor de racionalidad, la mezcla de bordes, la armonización estadística, la generación de sombras inversas en un simple comando de importación libcom. Una sola línea de código da a los desarrolladores acceso a toda esta tubería.

Beto
Eso es salvaje. Comprimir la física de la luz y el espacio en una sola línea de comando.

Así que para recapitular el viaje que hemos mapeado hoy, comenzamos con este dolor de cabeza solo de averiguar dónde puede existir un objeto sin romper la gravedad o la lógica semántica. Luego exploramos la mecánica de lijar los bordes ásperos, extrayendo matemáticamente estadísticas de iluminación para pintar el objeto, haciendo ingeniería inversa del espacio 3D para proyectar sombras invisibles.

Alicia
Correcto. Y finalmente enseñándole a los modelos de difusión masivos a hornear objetos desde gradientes incorrectos a la vez.

Beto
Exacto. O simplemente usando una IA de tasador maestro para buscar en una biblioteca la pieza perfecta que ya encaja.

Alicia
Representa un salto monumental en cómo las computadoras entienden la realidad visual.

Beto
Realmente lo hace. Pero antes de terminar, quiero dejar a todos con un detalle final, ligeramente alucinante, que encontré enterrado cerca del final del artículo. Es un concepto llamado "edición de apariencia semántica" ("semantic appearance editing").

Alicia
Oh, sí. Esta es verdaderamente la frontera de la tecnología.

Beto
El artículo señala que la IA más nueva ya no solo está igualando la luz o proyectando sombras. En realidad, está comenzando a cambiar el estado físico fundamental del objeto basándose enteramente en el entorno de fondo.

Alicia
Correcto.

Beto
Por ejemplo, si tomas una foto de un coche limpio y seco y usas IA para insertarlo en una escena de fondo invernal nevada, la IA sabe que el coche no debería tener solo una iluminación más fría y azul. Calcula que el coche debería estar cubierto con una capa de escarcha y nieve. Altera el estado físico.

Alicia
O, usando un ejemplo humano: Si tomas una foto de un niño vistiendo una camiseta simple y lo insertas digitalmente en una foto de grupo de estudiantes en una escuela privada estricta, la IA analiza el contexto semántico de la multitud y genera y viste automáticamente al niño insertado con el uniforme escolar exacto.

Beto
La cual es una increíble demostración de razonamiento contextual, pero me trae de vuelta a donde empezamos, esa reacción visual de nuestros cerebros rechazando una falsificación.

Si un algoritmo puede cambiar automáticamente el estado físico de un objeto, reescribir la ropa que una persona está usando y alterar todo el contexto de un sujeto solo basándose en los píxeles de fondo que se insertan, ¿qué significa la verdad fotográfica?

Alicia
Es una pregunta profunda. Desestabiliza por completo nuestra dependencia de las imágenes como evidencia de la realidad.

Beto
¿Tienen los objetos en nuestras fotos una forma verdadera? ¿O su realidad está dictada enteramente por el fondo digital al que elegimos insertarlos?

Es algo para masticar la próxima vez que veas el cabello de alguien fallando en una videollamada o un cartel que se ve un poco demasiado perfecto.

Gracias por acompañarnos en este análisis profundo, y nos vemos la próxima vez.