viernes, 26 de diciembre de 2025

Artes Computacionales

 
 

Este artículo científico me llamó la atención porque hace referencia a lo que la gente creativa hace con el arte digital. Sin embargo, hay que tener en cuenta que fue publicado en el 2021, y desde entonces han salido tecnologías mucho más avanzadas, que discutiremos en otros artículos en un futuro próximo.

Las artes computacionales modernas han evolucionado desde la simple digitalización hasta un ecosistema colaborativo donde la inteligencia artificial y la realidad extendida impulsan activamente el proceso creativo. Este cambio es fundamental para el metaverso emergente, un vasto panorama virtual donde los tokens no fungibles (NFT) proporcionan un marco descentralizado para establecer la propiedad digital y comercializar activos virtuales. Innovaciones como la IA generativa para poesía y caligrafía, los artistas robóticos y las simulaciones cinematográficas están redefiniendo los límites artísticos tradicionales. Además, la realidad virtual y los motores de juegos democratizan la creación de contenido, permitiendo a las personas diseñar experiencias inmersivas y participar en conciertos virtuales globales. A pesar de estos avances, el campo enfrenta obstáculos significativos con respecto a la privacidad digital, el impacto ambiental de la tecnología blockchain y la necesidad de retroalimentación háptica para simular sensaciones artísticas físicas. En última instancia, la integración de estas tecnologías sugiere un futuro donde cada participante puede convertirse en un creador digital dentro de un mundo compartido e interactivo.

Enlace al artículo, para aquellos interesados en profundizar en el tema: "When Creators Meet the Metaverse: A Survey on Computational Arts", por Lik-Hang Lee y colegas. Publicado en Noviembre 26 del 2021.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Bienvenidos a un nuevo análisis profundo. Hoy nos ponemos el sombrero de arquitectos digitales. Vamos a explorar uno de los lienzos más emocionantes — y supongo que caóticos — que el mundo moderno haya visto: las artes computacionales dentro del metaverso en explosión.

Alicia
Realmente es un lienzo definido por su escala. Y el metaverso, tal como lo vemos, no es solo un mundo virtual. Es este enorme ciberespacio en constante evolución donde la creatividad digital y nuestro mundo físico real empiezan a fusionarse.

Beto
Creando un espacio masivo de oportunidades para los creadores.

Alicia
Enorme.

Beto
Y lo que realmente marca este momento es la velocidad, la aceleración. Siento que la vida digital dio un salto de cinco, quizá diez años.

Alicia
Y gran parte de eso fue impulsado por la pandemia, que medio normalizó vivir, trabajar y, muy importante para este tema, el ocio en estas plataformas virtuales.

Beto
Así que la audiencia ya estaba ahí.

Alicia
La audiencia ya se estaba moviendo en línea y en números enormes. Quiero decir, mira algunas de las cifras de nuestro material fuente. Los ingresos de Nintendo en 2021 subieron algo así como un 46% respecto a 2019. Y toda la industria del videojuego alcanzó, ¿qué? 155.000 millones de dólares en 2020. Esto no fue un crecimiento lento. Fue un cambio masivo, casi de la noche a la mañana, hacia los espacios virtuales.

Beto
Así que los artistas no están entrando a un teatro vacío. Están entrando a un estadio lleno. La gente ya se siente cómoda pasando tiempo allí, gastando dinero.

Alicia
Exacto.

Beto
Así que nuestro análisis profundo de hoy trata de desempacar eso. Queremos entender cómo esta tecnología está cambiando fundamentalmente: ¿quién puede ser artista? ¿qué es siquiera el arte? Y quizá lo más importante para ti, ¿cómo se posee y valora en este extraño mundo nuevo?

Bien, empecemos por el motor que realmente le dio valor al arte digital, el motor económico. O sea, antes de todo esto, los artistas digitales tenían un enorme problema.

Alicia
Un problema de duplicación.

Beto
Correcto. ¿Cómo vendes una pieza única cuando cualquiera puede hacer clic derecho, guardar y tener una copia perfecta? El arte digital simplemente no tenía escasez.

Alicia
Y la respuesta de la industria a ese rompecabezas fue el "token no fungible", el NFT. Porque estos tokens funcionan sobre tecnología blockchain y crean, bueno, un registro públicamente reconocible de propiedad.

Beto
Se registra por todas las direcciones, ¿verdad? Así que todo el mundo puede verlo.

Alicia
Es transparente. Es descentralizado.

Beto
Así que, para que quede muy claro para quienes escuchan, el NFT es como un certificado de propiedad. Es una licencia sobre algo virtual. Pero en realidad no impide que yo, por ejemplo, haga una captura de pantalla de la imagen, ¿verdad?

Alicia
Para nada. Asegura el historial de propiedad, no el archivo en sí. Pero lo fascinante es la rapidez con la que la gente lo adoptó. Ese mecanismo, aún con sus fallos, fue suficiente para desatar este torrente de capital.

Beto
¿De cuánto estamos hablando?

Alicia
Las ventas de NFT llegaron a dos mil quinientos millones de dólares. Eso en apenas dos trimestres de 2021.

Beto
Se ve en los datos: el interés de búsqueda de “NFT” en Google y YouTube simplemente explotó en 2021. Pasó de prácticamente cero a un fenómeno global.

[NOTA: En el año 2025, los NFT han caído en desuso y han perdido su valor.]

Alicia
Sí. Y los ejemplos están por todas partes. Tuvimos proyectos tempranos como CryptoKitties: un gato digital raro se vendió por 600 ETH.

Beto
Solo para demostrar que la gente pagaría por la escasez digital.

Alicia
Exacto. Y ahora va mucho más allá de las imágenes estáticas. Los NFT se usan como coleccionables inteligentes en juegos como F1 Delta Time, donde tu token para un coche virtual tiene especificaciones únicas. Incluso medios tradicionales como "The Economist" vendieron una portada como un NFT.

[NOTA: En Marzo del 2022, el juego "F1 Delta Time" cerró operaciones]

Beto
De acuerdo, pero tenemos que equilibrar el entusiasmo. ¿Es esta explosión un cambio fundamental real de poder hacia los artistas? ¿O es solo otra burbuja de activos?

Alicia
Esa es la pregunta del millón. Y plantea enormes problemas de confianza y fraude. Quiero decir, más allá de simplemente tomar una captura de pantalla, existen estafas increíblemente sofisticadas. Mencionaste antes el “sleepminting”.

Beto
¿Cómo funciona eso? Creo que todo el punto del blockchain era su seguridad. Su inmutabilidad.

Alicia
Pues bien, explota el proceso. Un actor malintencionado puede acuñar una pieza falsificada directamente en la cartera de un coleccionista famoso sin que él lo sepa.

Beto
¿Qué?

Alicia
Sí. Luego puede vender esa copia “original”. Y el libro público parece mostrar que el coleccionista famoso fue el propietario primero. Así que parece legítimo. Desorienta por completo a los nuevos coleccionistas. Y, honestamente, socava toda la idea de procedencia.

Beto
Eso parece un agujero enorme en el sistema.

Alicia
Lo es. Y además de eso, no podemos ignorar los costos ambientales. La energía usada para minar y comerciar estos tokens es enorme. Crea una tensión real entre la libertad digital y la responsabilidad climática.

Beto
Así que el modelo económico todavía está, digamos, afinando sus fallos.

Pivoteemos de la propiedad a la experiencia real. Los bloques visuales del metaverso, empezando por CGI.

Alicia
CGI, "Computer-Generated Images": Imágenes generadas por computadora — están difuminando todas las líneas con los medios tradicionales, como la fotografía y el cine. (Ejemplo: Claudia Hart)

Beto
¿Te refieres a la fotografía virtual?

Alicia
Exactamente. Cuando compras muebles en línea, muchas de esas fotos perfectas de producto no son fotos. Son renderizados fotorrealistas por computadora. O mira a los influencers virtuales en Instagram, como @lilmiquela, un avatar totalmente digital integrado sin costuras en el mundo real.

Beto
Y lo contrario también está ocurriendo, lo que la fuente llama "fotografía aumentada".

Alicia
Sí. Usando escáneres 3D avanzados para capturar no solo luz y color, sino datos espaciales: distancias. Esto nos da registros 3D completos y de alta fidelidad de objetos físicos.

Beto
Como el retrato 3D del presidente Obama por el Smithsonian.

Alicia
Es un ejemplo perfecto. Es una técnica invaluable para, por ejemplo, el patrimonio cultural. Obtienes un registro digital completo de un artefacto, no solo una foto plana.

Beto
Así que pasando de imágenes estáticas a imágenes en movimiento, la simulación cinematográfica. ¿Cómo han cambiado las herramientas como Unreal Engine las cosas para los creadores?

Alicia
La revolución es el renderizado en tiempo real. Ese es todo el asunto. Tradicionalmente, hacías un cambio en una escena 3D, le dabas a “render” y luego esperabas horas, quizá días.

Beto
Recuerdo ese sufrimiento.

Alicia
Pero los motores de juego te dan retroalimentación instantánea. Mueves una luz, la sombra se mueve al instante; libera al artista para crear y experimentar en lugar de quedarse atrapado en ciclos de producción dolorosos.

Beto
Y eso ha llevado a arte que no está fijado en el tiempo.

Alicia
Totalmente. Arte que desafía lo que es el cine lineal.

Beto
Y aquí es donde se vuelve realmente alucinante: artistas que usan esta tecnología para crear simulaciones vivientes.

Alicia
Ves un par de enfoques principales. Primero, alguien como John Gerrard, que usa simulación en tiempo real para crear estos paisajes surrealistas infinitos. Reconstruye meticulosamente, por ejemplo, una instalación industrial y luego sincroniza la hora del día e incluso el tiempo atmosférico en su simulación con la ubicación física real.


Muestra de la obra de John Gerrard, fuente: Phileas.

Beto
¿Así que es como un retrato digital viviente de un lugar real?

Alicia
Exactamente eso. Un gemelo digital, pero como arte. Luego tienes a un artista como Ian Cheng, obsesionado con la idea de agencia. Hace simulaciones en vivo, o como él las llama, "videojuegos que se juegan solos".

Beto
Entonces el arte es crear su propia historia.

Alicia
Precisamente. Su pieza B.O.B (Bag of Beliefs) es esa cosa tipo serpiente impulsada por múltiples IA con objetivos distintos. Reaccionan al entorno en tiempo real. Él intenta crear lo que llama “sentiencia viable mínima”.


"Bob (Bags of Beliefs)", de Ian Cheng

Beto
¿Así que la narrativa simplemente se despliega por sí sola?

Alicia
Sí. Su trilogía Emissaries es lo que él llama "cine impulsado por eventos". No hay director. La historia es lo que ocurre cuando estos agentes de IA interactúan.


"Emissaries", por Ian Cheng. Fuente: MoMA

Beto
Bien. Las obras en movimiento están en camino de perfeccionarse en el metaverso. Pero no se trata solo de lo que vemos. ¿Y el texto? Si alguna vez has intentado escribir en un casco de RV, sabes que es torpe.

Alicia
Es terrible. Y eso crea una gran oportunidad para las artes textuales impulsadas por IA. Los avances aquí son, francamente, notables, especialmente en caligrafía con IA.

Beto
¿Caligrafía?

Alicia
Sí. Tenemos modelos como GANwriting que pueden imitar la escritura humana — la redondez, el grosor del trazo — tan bien que la gente no puede distinguir entre la escritura de la máquina y la de un humano.


GANwriting. Fuente: Springer

Beto
Y esto se está volviendo hiperespecífico, ¿verdad?

Alicia
Increíblemente. Hay un modelo para caligrafía china llamado ZIGAN que puede aprender el estilo de un maestro tras ver apenas unos pocos ejemplos.


Caligrafía con ZIGAN.

Beto
¿Unos pocos ejemplos?

Alicia
Sí. Ese es el avance: la capacidad de absorber un estilo artístico complejo a partir de muy pocos datos. Es enorme.

Beto
Es asombroso. Y no es solo caligrafía, también es poesía.

Alicia
Absolutamente. Tenemos modelos como Deep-speare que generan versos de estilo shakesperiano que pueden engañar a humanos.

"Sonnet 18", ejemplo generado con Deep-speare:

    Shall I compare thee to a summer’s day?
    Thou art more lovely and more temperate:
    Rough winds do shake the darling buds of May,
    And summer’s lease hath all too short a date.

Y aún más, estos sistemas están aprendiendo a conectar diferentes formas de arte.

Hay un modelo que puede mirar una escena virtual, como “ciruelas rojas y nieve”, y generar poesía china que encaja perfectamente con el estado de ánimo.

Beto
Conecta lo visual con el lenguaje emocional.

Eso es el puente perfecto al sonido. Metacreación musical. ¿Cómo está cambiando el metaverso la forma en que hacemos y tocamos música?

Alicia
Está cambiando los propios instrumentos. A través de instrumentos musicales de realidad virtual (VRMIs), hay plataformas como PatchXR donde los artistas pueden construir instrumentos audiovisuales modulares en espacio 3D. No miras una pantalla, literalmente te mueves por el instrumento y conectas cosas.

Ejemplo de PatchXR:

Beto
¿Y la interpretación? Todos hemos visto conciertos virtuales, pero ¿qué los hace artísticamente distintos?

Alicia
Ofrecen perspectivas físicamente imposibles en la vida real: accesibilidad, libertad; sí, Madison Beer actuó como un avatar, por ejemplo.

Madison Beer, realidad inmersiva:

Pero piensa en la orquesta Philharmonia: En RV, la audiencia podría moverse justo al lado del director o situarse en medio de la sección de cuerdas.

"La Quinta de Beethoven", con la orquesta Philharmonia, en Realidad Virtual.

(requiere visores VR)

Beto
Eso no puedes hacerlo en Carnegie Hall. Un guardia de seguridad te tiraría al suelo.

Alicia
Exacto. Cambia por completo la experiencia del público. Pero todavía hay grandes obstáculos técnicos: Los chat rooms de RV se limitan a, ¿qué? ¿40 usuarios? Eso no es un concierto. Eso es un club pequeño.

Beto
Y el sonido todavía no está del todo logrado.

Alicia
Correcto. Un concierto real tiene ese caos auditivo: la gente, el murmullo. Es muy difícil simular eso de forma realista, así que los conciertos virtuales aún pueden sentirse un poco estériles.

Beto
Lo que nos lleva a nuestra última frontera: la encarnación, donde artistas creados por humanos, IA e incluso robots físicos trabajan juntos. El ciclo de retroalimentación físico-digital.

Alicia
Y aquí la colaboración se vuelve realmente profunda. Toma a la artista Sougwen Chung. Ella trabaja con brazos robóticos que llama “Dougs” (Drawing Operation Units Generation").

Sougwen Chung, discurso en TED

Beto
¿Dougs?

Alicia
Sí, Dougs. Y están guiados por una IA que ha pasado una década aprendiendo sus gestos específicos, su estilo. La artista es física, pero la IA es como una extensión de su propia memoria y músculo.

Beto
Y estamos incluso viendo arte impulsado por nuestros estados fisiológicos internos. Realidades extendidas, usando técnicas colectivas ExG como electro-encefalografía (EEG), electro-oculografía (EOG), electro-miografía (EMG).

Alicia
Esto es arte de estado interno. Es una locura. Hay prototipos como "Body Writing", un "wearable", un dispositivo que se pone en tu cuerpo, y que recoge datos sobre tus emociones, como tristeza o miedo. Luego una IA usa esos datos para escribirte un poema personalizado.

Beto
Espera. Entonces tus datos emocionales más íntimos se convierten en materia prima para el arte.

Alicia
Es increíblemente íntimo. Hubo otro proyecto, "EEG Kiss", que visualizó la actividad cerebral de los participantes durante un beso en tiempo real. Proyectó los datos en el suelo como pieza de arte.

Beto
Eso es o lo más romántico que he oído, o una pesadilla de privacidad.

Alicia
Un poco de ambos, quizá. Pero muestra cómo el cuerpo humano se está convirtiendo en un dispositivo de entrada.

Beto
Y si extiendes esa presencia física hacia fuera, llegas a la robótica y los drones convirtiéndose en artistas por sí mismos.

Alicia
En la música, tienes a Shimon, un robot que toca la marimba y puede improvisar con un músico humano. Reacciona a su emoción, a su estado de ánimo; incluso hay robots que tocan la flauta con labios artificiales.

Shimon, robotic marimba player:

Beto
Y pintores mecánicos.

Alicia
Esa tradición se remonta a las máquinas Metamatics de Jean Tinguely. Pero hoy tienes robots humanoides como Sophia, que vendió una pintura como NFT por casi 700.000 dólares.

Arte por Sophia:

Beto
Así que el mercado está valorando estas creaciones robóticas. Y luego tienes cosas a gran escala: drones.

Alicia
Los espectáculos de luces con drones son básicamente los nuevos fuegos artificiales, arte cinético colectivo masivo. Pero el desafío de seguridad es inmenso. Controlas cientos, a veces miles de estos aparatos a la vez. Se necesita GPS increíblemente preciso y comunicación constante para evitar colisiones.

Show reciente en Chongqing, China, con 11,787 drones

Beto
Hemos cubierto una enorme cantidad de terreno: NFT, IA generativa, robótica, arte con ondas cerebrales. Pero al mirar al futuro, tenemos que hablar de los desafíos. Porque la tecnología se mueve mucho más rápido que las reglas.

Alicia
Ese es el problema central. Necesitamos mejoras serias en el ecosistema. Quiero decir, por un lado hay una gran democratización ocurriendo. Herramientas de código abierto como Blender y Processing están haciendo la creación accesible para todos.

Blender 5.0

Arte con Processing

Beto
Pero los profesionales se están topando con paredes.

Alicia
Enorme. Tecnológicamente, la interoperabilidad sigue siendo una pesadilla. Simplemente intentar mover un modelo 3D complejo de un programa a otro es tan frustrante. Y necesitamos mejores maneras de manejar la enorme carga computacional del arte generativo en, por ejemplo, dispositivos móviles.

Beto
Y volviendo al mercado de los NFT, ¿qué brechas de gobernanza aún existen?

Alicia
Los mecanismos de comercio siguen siendo muy básicos. Es mayormente solo comprar y vender. Necesitamos protocolos robustos para arrendamiento y alquiler. El proyecto re-NFT está trabajando en esto, permitiéndote, por ejemplo, alquilar un NFT para exhibirlo en tu casa virtual durante un mes.

Beto
Eso es crucial para una economía madura. Sí.

Alicia
Lo es. Y más fundamentalmente, necesitamos mejor tecnología para prevenir copias no autorizadas. La licencia por sí sola no basta. Tenemos que construir la ejecución dentro de la tecnología misma para reducir el riesgo de cosas como el sleep-minting.

Beto
¿Y qué pasa con la gente? Los usuarios. Tocamos privacidad y seguridad.

Alicia
Es crítico. Las plataformas sociales en RV han documentado problemas de acoso y ciberbullying. Necesitamos mejor moderación. Y para los artistas, está el desafío de la intangibilidad. Un músico necesita sentir el instrumento. Necesitamos más investigación en guantes hápticos para cerrar esa brecha física en RV.

Beto
Si juntamos todo esto — la IA escribiendo poesía, los robots pintando —, ¿significa eso el fin del arte humano? Si una máquina puede ser tan creativa, ¿qué deja para el humano?

Alicia
Eso nos lleva a la gran cuestión filosófica del material fuente. Esta idea de una prueba Turing para las artes computacionales. Ya no es solo “¿pueden pensar las máquinas?” Es “¿pueden pensar y ser creativas?”.

Y tendemos a juzgar eso por dos cosas.

  • Una: ¿puede un humano distinguir el arte de la máquina del arte humano?
  • Y dos: ¿tiene la obra de la máquina el mismo valor estético?

Pero hay una trampa. Corremos el riesgo de descartar el arte computacional como superficial simplemente porque sabemos que lo hizo una máquina, porque seguía un algoritmo. Este mundo nuevo nos está obligando a decidir si valoramos el proceso o solo el resultado.

Beto
Hemos explorado este enorme y maleable lienzo del metaverso. Hemos visto de todo: desde NFT y sus riesgos hasta simulación cinematográfica, poesía por IA y arte hecho a partir de nuestras propias ondas cerebrales.

Alicia
Y si las herramientas de IA pueden escribir poesía indistinguible del trabajo humano y pintores IA pueden vender “originales” digitales por sumas enormes, ¿cómo definirán las generaciones futuras la originalidad? ¿Qué marco legal o tecnológico necesitaremos para realmente hacer cumplir la propiedad en un mundo donde, en teoría, todo puede copiarse infinitamente? Esa es la pregunta fundamental que este nuevo mundo debe responder. Y tú, el oyente, el creador, estás en la primera línea trazándolo.

jueves, 25 de diciembre de 2025

Razonamiento Creativo con LLMs

 
 

El texto presentado presenta el "Universo de Pensamientos" ("Universe of Thoughts", UoT), un marco computacional diseñado para dotar a los Modelos de Lenguaje Grandes (LLMs) de capacidades de razonamiento creativo autónomo. Si bien los métodos tradicionales, como la "Cadena de Pensamiento" ("Chain of Thought", CoT), destacan en la resolución de problemas lógicos, a menudo fallan en problemas indefinidos y de final abierto, como el descubrimiento de fármacos o la estrategia empresarial. Basándose en la ciencia cognitiva, el UoT implementa tres paradigmas distintos: razonamiento combinacional, exploratorio y transformativo, que amplían sistemáticamente el espacio de soluciones mediante la manipulación de los "pensamientos" y las reglas subyacentes. Para validar este enfoque, los autores desarrollaron un nuevo parámetro de evaluación que evalúa las soluciones en función de su viabilidad, utilidad y novedad. Los resultados experimentales demuestran que el UoT permite que los modelos más antiguos superen el rendimiento creativo de sistemas propietarios más avanzados, como GPT-5. En definitiva, esta investigación desplaza el enfoque de la ingeniería de indicaciones dirigida por humanos a la creatividad metodológica dentro de la propia IA.

Enlace al artículo científico, en inglés, para los que quieran profundizar en el tema: "Universe of Thoughts: Enabling Creative Reasoning with Large Language Models", por Yuto Suzuki y Farnoush Banaei-Kashani. Publicado en Noviembre 26 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Bienvenido a este análisis profundo donde desgranamos investigaciones complejas y vamos directo al núcleo de lo que necesitas saber. Hoy voy a abordar una pregunta que es realmente fundamental para el futuro de la IA. ¿Puede una máquina ser verdaderamente inventiva? Quiero decir, en los últimos años hemos visto cómo los grandes modelos de lenguaje, los LLM, han dominado por completo el razonamiento estructurado, las matemáticas, la lógica y el código. Son increíbles, pero el mundo real, los problemas que realmente impulsan la innovación — descubrimiento de fármacos, un plan de negocio a diez años, o simplemente arreglar el tráfico de una ciudad — requieren un tipo de pensamiento distinto. Requieren creatividad, algo genuinamente nuevo.

Beto
Exacto, y esa es la limitación de los métodos de los que hablamos todo el tiempo, como la cadena de pensamiento ("Chain of Thought", CoT) o el árbol de pensamientos ("Tree of Thoughts", ToT). Son excepcionalmente buenos en problemas bien definidos.

Alicia
Es decir, problemas con un conjunto claro de reglas y una meta verificable.

Beto
Precisamente. Son brillantes buscando dentro de una caja predefinida, pero en cuanto les das un problema abierto, esa creatividad se detiene. Para obtener una idea realmente sorprendente, un humano tiene que intervenir y hacer todo ese meticuloso "prompt engineering". Básicamente, la creatividad viene del humano, no de la máquina, no es autónoma.

Alicia
Bien, esa es la brecha que exploramos hoy. ¿Cómo construimos un marco que permita a un LLM generar ideas verdaderamente creativas por sí mismo? Nuestro material fuente presenta un nuevo marco llamado "Universo de Pensamientos", o "Universe of Thoughts", UoT. Diseñado precisamente para eso. Vamos a indagar en las inspiraciones cognitivas detrás y luego ver los, francamente, asombrosos resultados cuando se enfrentó con algunos de los modelos más grandes de hoy.

Beto
El verdadero poder del UoT, creo, es que está fundamentado en la ciencia cognitiva. No es solo un truco algorítmico ingenioso. Toda la estructura se basa en el trabajo seminal de Margaret Bowden, que define la creatividad no como una sola cosa, sino como tres tipos muy distintos. Y eso te da una hoja de ruta computacional.

Alicia
Me encanta eso. Empiezan por cómo la gente es creativa y luego construyen la máquina para reflejarlo.

Esos tres tipos de creatividad se convierten en los pilares del marco UoT. Desgranémoslos porque definen realmente cómo el LLM conduce su búsqueda de ideas.

El primero es la "Creatividad Combinatoria", C-UoT. Probablemente sea la que más conocemos. Se trata de generar combinaciones inesperadas de ideas ya familiares. Estás conectando puntos que no estaban conectados antes.

Beto
Piénsalo como un collage: tomas imágenes existentes y las dispones de una manera nueva y sorprendente. Las piezas no son nuevas, pero el producto final sí lo es.

Alicia
Así que nuevas combinaciones, sí, pero no nuevas ideas o reglas fundamentales. Estás trabajando con lo que ya existe.

Beto
Exacto. Estás maximizando la transferencia de conocimiento entre distintas áreas.

Alicia
Bien. Un nivel más profundo es la "Creatividad Exploratoria", E-UoT. Aquí todavía estás jugando con las reglas originales, pero buscas cosas que no se habían encontrado antes.

Beto
Correcto. Estás explorando el espacio conceptual existente, la caja, pero estás encontrando nuevas estructuras, nuevas ideas dentro de esa caja que nadie había visitado antes.

Alicia
¿Cuál es una buena analogía para eso?

Beto
El artículo usa el Impresionismo, que me parece perfecto. No inventaron nuevas pinturas o lienzos.

Alicia
No, las reglas eran las mismas.

Beto
Las mismas reglas, pero exploraron la idea de la luz y el color de una manera funcionalmente nueva, usando pinceladas que antes no se habían considerado. Así que E-UoT te da nuevas combinaciones y nuevos pensamientos, pero las reglas subyacentes no cambian.

Alicia
Y eso nos lleva al tercero, el grande, la "Creatividad Transformacional", T-UoT. Aquí es donde se pone realmente salvaje.

Beto
Esta es la guía. En este caso, el modelo no solo busca en el espacio: altera las reglas definitorias del espacio mismo. Expande lo que incluso es posible.

Alicia
No solo estás encontrando un nuevo camino en el mapa.

Beto
Estás redibujando el mapa. Esto es Picasso y el Cubismo. No se limitó a pintar un retrato de otra forma; rompió la regla de la representación desde una sola perspectiva.

Alicia
Cambió la gramática del arte.

Beto
Cambió la gramática. Entonces con T-UoT obtienes nuevas combinaciones, nuevos pensamientos y nuevas reglas. Así un LLM puede pasar de solucionador de problemas a verdadero inventor.

Alicia
De acuerdo, esa es la teoría. ¿Cómo funciona realmente en la práctica? El artículo usa una tarea de referencia para mostrarlo: la tarea del puente de un solo carril. El objetivo es simple: minimizar la demora de los vehículos. Pero las restricciones son duras: no hay nueva infraestructura y el tráfico solo puede ir en una dirección a la vez.

Beto
Empecemos con C-UoT, el enfoque combinatorio. El mecanismo aquí es esencialmente el "préstamo creativo".

Alicia
Busca otros problemas que sean estructuralmente similares.

Beto
Exacto. No otros problemas de tráfico; busca sistemas análogos, cosas como la gestión de vías únicas en ferrocarril, la programación de pistas en aeropuertos o incluso un sistema de citas médicas.

Alicia
Ah, claro. Porque todos tratan de gestionar un recurso escaso a lo largo del tiempo.

Beto
Precisamente. Y de esos dominios extrae los conceptos centrales, los "pensamientos", cosas como reservas con franjas de tiempo, agrupamiento de vehículos o incentivos para desplazarlos en el tiempo.

Alicia
Y luego los sustituye en el problema del puente.

Beto
Toma una solución básica como cambiar la dirección cada 10 minutos y la intercambia por un concepto de, por ejemplo, la programación de clínicas. El resultado podría ser un sistema tokenizado de pre-reserva combinado con el agrupamiento de autos tipo ascensor. Es novedoso para el dominio del tráfico, pero las piezas son familiares.

Alicia
Tiene mucho sentido para obtener victorias prácticas rápidas.

Pero para E-UoT, la creatividad exploratoria, necesitas más que pedir prestado, ¿verdad? Necesitas que el modelo invente algo genuinamente nuevo.

Beto
Ahí está el salto clave. E-UoT comienza igual con esos pensamientos conocidos, pero luego tiene un segundo paso: la expansión conceptual. Se le solicita que genere ideas totalmente nuevas que cumplan la misma función — por ejemplo reducir la demanda de tráfico — pero que no estén presentes en ninguno de los ejemplos que ha visto.

Alicia
¿Puedes dar un ejemplo? ¿Cuál fue un pensamiento verdaderamente novedoso para el puente que propuso E-UoT?

Beto
Pues, en lugar de una simple tarifa en horas pico, podría generar el concepto de un crédito comunitario de tiempo por compromisos de viajar fuera de hora punta, o un sistema de lotería por compromisos grupales.

Alicia
Wow. Bien. Son mecanismos sociales o económicos realmente novedosos.

Beto
Lo son. Son nuevos bloques conceptuales que aún encajan dentro de las reglas originales del problema. Son verdaderas invenciones.

Alicia
Fascinante.

Y eso nos lleva a la final, T-UoT, la transformacional. Esto empieza identificando las reglas, pero también las suposiciones ocultas.

Beto
Sí. Y eso es crítico. Luego cubre las cosas que damos por sentadas.

Alicia
¿Cuál es una suposición oculta en la tarea del puente?

Beto
Cosas como que "la gente debe cruzar físicamente el puente en su vehículo", o que "el sistema debe ser por orden de llegada". Están escritas, pero pueden limitar nuestro pensamiento. La primera tarea de T-UoT es encontrarlas.

Alicia
Y supongo que la segunda tarea es romperlas.

Beto
Mutarlas. Aplica operaciones de mutación: eliminar una regla, variar una regla, o introducir una nueva.

Alicia
Espera. Mutar la regla suena arriesgado. ¿No podría generar tonterías o romper la restricción explícita, por ejemplo, "construir un nuevo puente"?

Beto
Ese es todo el desafío y por qué el marco es tan importante. Es transformación guiada, no caos. Pero muta una suposición oculta — por ejemplo, "que la gente deba cruzar en persona" — y la cambia a permitir "que los bienes se muevan sin personas". Sigue respetando la restricción de no nueva infraestructura.

Alicia
Ah, ya veo. Entonces el espacio de soluciones se expande.

Beto
Radicalmente. Y de repente aparecen soluciones que antes eran literalmente imposibles. Cosas como "mercados móviles a ambos lados del puente", "taquillas para drones para entrega de paquetes" o incluso "lanchas supervisadas como un canal paralelo". Resuelves el problema cambiando una suposición fundamental sobre por qué la gente necesita cruzar en primer lugar.

Alicia
Y así se logra un avance real.

De acuerdo, ya conocemos el mecanismo. Ahora, la gran pregunta: ¿cómo se mide esto? La creatividad no es un problema de personal que simplemente puntúas.

Beto
Correcto. El equipo tuvo que construir todo un nuevo benchmark con tres tareas abiertas distintas: el puente, un problema de electricidad/tarifas y una tarea de cohesión social. Y volvemos a esa definición clásica: una solución creativa debe tener alta novedad y alta utilidad.

Alicia
Dos ejes distintos. ¿Cómo las cuantificaron?

Beto
Usaron tres métricas: Primero, factibilidad. Un simple sí o no: ¿la solución cumple todas las reglas explícitas? Si no, queda fuera. Segundo, utilidad. Qué tan bien resuelve realmente el problema, en una escala donde uno es la solución óptima. Para el puente, eso sería la máxima reducción de la demora.

Alicia
Bien, eso tiene sentido.

Pero lo difícil debe ser la novedad. ¿Cómo puntúas objetivamente la originalidad de una idea?

Beto
Lo hicieron con distancia semántica, específicamente "cosine distance". Básicamente representan la idea central de una solución como un punto en un espacio de alta dimensión y miden qué tan lejos está de todas las soluciones conocidas. Cuanto más lejos, más novedosa.

Alicia
Un momento: una idea del modelo puede ser un párrafo de 200 palabras o una frase de 10 palabras. ¿Cómo comparas eso justamente para distancia semántica?

Beto
Buena pregunta. Y por eso añadieron un paso muy ingenioso llamado canonicalización de la solución ("solution canonicalization"). Usaron otro LLM actuando como juez neutral para tomar cada salida y destilarla hasta su única idea central. Elimina todo el relleno. Así la entrega por drones se compara con el crédito temporal en igualdad de condiciones. Se trata del concepto, no de los pros y contras.

Alicia
Brillante. Eso estandariza.

Bien. El momento de la verdad. ¿Qué pasó cuando compararon UoT contra todo lo demás?

Beto
El resultado principal fue que la variante UoT obtuvo consistentemente las puntuaciones de creatividad más altas de cualquiera de los métodos de razonamiento, dejando atrás CoT, ToT y otros. El enfoque cognitivo estructurado simplemente funcionó mejor.

Alicia
Pero el resultado realmente sorprendente — el que más me llamó la atención — fue la comparación directa en la tarea del puente.

Beto
Absolutamente. T-UoT ejecutado en un modelo como GPT-4o consiguió una puntuación de creatividad de 0.698.

Alicia
Lo cual es muy bueno. Pero la clave es que se comparó con ...

Beto
... un modelo propietario de siguiente generación más potente, GPT-5, ejecutando una búsqueda no estructurada, y ese modelo sacó 0.649.

Alicia
Eso es enorme. Una mejor estructura de razonamiento en un modelo menos potente produjo un resultado más creativo que un modelo más potente pensando por su cuenta.

Beto
Es una victoria del marco, no de la escala. Demuestra que la arquitectura del pensamiento puede importar más que la pura potencia computacional.

Alicia
Al profundizar en las variantes de UoT, ¿se comportaron como se esperaba? ¿T-UoT siempre produjo las ideas más novedosas?

Beto
Lo hizo. Los resultados confirmaron el diseño: la novedad generalmente aumentaba al pasar de C-UoT a E-UoT y luego a T-UoT. Tenía el mayor potencial para pensamiento verdaderamente fuera de la caja.

Alicia
Pero hay un compromiso: esa búsqueda de novedad puede ser arriesgada. Puedes encontrar algo nuevo pero totalmente inútil.

Beto
Y los resultados lo mostraron también. Por ejemplo, en la tarea de cohesión social, E-UoT propuso ideas realmente novedosas, pero obtuvo puntuaciones bajas en utilidad. Las ideas eran demasiado difíciles de aterrizar en políticas prácticas.

Alicia
¿Y T-UoT? El último rompe-reglas.

Beto
Incluso T-UoT a veces luchó para convertir sus transformaciones más abstractas y rupturistas en una solución de alta utilidad. Curiosamente, en algunos casos, incluso después de todo el proceso de transformación, la solución con la puntuación más alta que encontró fue en realidad una idea combinatoria muy compleja y novedosa, como aplicar algoritmos de "recocido cuántico" ("quantum annealing") a la programación de tráfico. Esa proporcionó la mejor utilidad práctica.

Alicia
Entonces, ¿dónde nos deja esto?

Parece que tenemos una prueba sólida de que los LLM pueden ser guiados hacia un razonamiento creativo verdaderamente autónomo. Y la clave no es solo un modelo más grande, sino una estructura más inteligente e inspirada en la cognición.

Beto
Y para cerrar, un pensamiento final para que te lleves: hemos visto que las ideas transformacionales que rompen reglas suelen ser las más difíciles de traducir de inmediato en soluciones prácticas y de alta utilidad. Así que se plantea una pregunta: cuando perseguimos la verdadera innovación, ¿siempre tenemos que sacrificar utilidad inmediata por novedad que cambia el juego? ¿O existe una estrategia computacional para que ambos converjan? Piensa en los grandes problemas imprecisos en tu propio trabajo: ¿cuáles son las reglas ocultas, las suposiciones no dichas bajo las que operas? ¿Y qué pasaría si empezaras a mutarlas al estilo T-UoT para desbloquear una invención, aunque esa primera versión no sea perfectamente práctica?

domingo, 21 de diciembre de 2025

La Inteligencia Artificial General

 
 

Hoy les traigo un resumen de un artículo científico nuevo que propone una definición formal de la Inteligencia Artificial General (IAG) para sustituir conceptos imprecisos por estándares mensurables. Los autores describen un marco integral que evalúa la versatilidad y la competencia cognitiva de una IA en numerosos dominios, como las matemáticas, la memoria y las ciencias sociales. Mediante tareas modeladas a partir de pruebas de inteligencia humana y exámenes académicos, los investigadores buscan identificar las deficiencias específicas de los sistemas actuales que les impiden alcanzar capacidades a nivel humano. El texto también aclara las distinciones entre la IAG y conceptos relacionados, como la superinteligencia o los sistemas autónomos autosuficientes. En definitiva, este enfoque operativo busca poner fin a la inestabilidad de los criterios de selección, proporcionando un punto de referencia técnico concreto para evaluar la llegada de la inteligencia general.

Enlace al artículo original: "A Definition of AGI", por Dan Hendrycks y colegas. Publicado en Diciembre 3 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Bienvenidos de nuevo al análisis profundo. Durante años hemos hablado de la inteligencia artificial general, "Artificial General Intelligence", AGI. Pero siempre ha parecido un término frustrantemente nebuloso.

Alicia
Y lo es. Es una diana que no deja de moverse.

Beto
Exacto. Cada vez que una IA especializada hace algo increíble — domina el ajedrez o escribe código perfecto — los críticos cambian la meta. Dicen: "bueno, eso no es inteligencia general real. La AGI es la siguiente cosa."

Alicia
Y esa ambigüedad es un enorme problema. Realmente nos impide medir el progreso con precisión. Y, quizá más importante, nos evita entender los cuellos de botella específicos que tenemos que resolver para llegar allí.

Beto
No puedes acertar a un objetivo que no has definido. Punto.

Alicia
Así es.

Beto
Para resolver esto, hay fuentes que detallan un nuevo marco cuantificable. Fue desarrollado por expertos líderes de todo el mundo de la IA y está diseñado para cortar el ruido y crear una herramienta diagnóstica real. Nuestra misión hoy es profundizar en ese marco, precisar qué significa realmente AGI y ver exactamente dónde se sitúan modelos como GPT-4 y su sucesor, GPT-5, frente a un perfil humano estandarizado.

Alicia
Y la definición fundamental que usan es, bueno, intencionalmente concreta. Definen AGI como "una IA que puede igualar o superar la versatilidad cognitiva y la competencia de un adulto bien educado".

Beto
Dos palabras clave ahí: versatilidad y competencia.

Alicia
Exacto. No se trata solo de hacer una cosa rápido. Necesitas amplitud de habilidades — eso es versatilidad — y profundidad dentro de cada habilidad — eso es competencia.

Beto
Y lo que creo que hace poderoso a este marco es que no inventa una nueva prueba de la nada. Ancla todo en la propia inteligencia humana.

Alicia
Específicamente en la teoría Cattell–Horn–Carroll (CHC) ...

Beto
... que es el estándar de oro, ¿no?

Alicia
Es el modelo más empíricamente validado que tenemos sobre la estructura de la inteligencia humana. Descompone todo en habilidades amplias y estrechas: desde el razonamiento hasta la memoria y el procesamiento visual.

Beto
Si piensas en la mayoría de benchmarks de IA, están diseñados para ver si un modelo puede pasar una prueba específica, como el examen de la barra (bar exam) o algo así.

Alicia
Precisamente. Y esos son a menudo superficiales. Al usar la teoría CHC, obligan a la IA a probar que tiene los “músculos mentales” subyacentes que usan los humanos.

Beto
Así que no están solo evaluando la respuesta a un problema de geometría.

Alicia
No. Están probando si el sistema tiene la habilidad inherente para razonamiento espacial y lógica, los bloques fundamentales de la inteligencia.

Beto
Bien. La meta final es una puntuación estandarizada de AGI del 0 al 100%. En cada subconjunto, si alcanzas 100% has llegado: has alcanzado la inteligencia general a nivel humano.

Alicia
Y los resultados mostraron un progreso acelerado pero profundamente desigual. La fuente lo llamó "un perfil cognitivo altamente dentado" — es decir, con picos y valles pronunciados. Dentado significa que ves áreas de excelencia sobrehumana justo al lado de fallos cognitivos fundamentales completos.

Beto
Pongamos algunos números, porque aquí es donde se pone realmente interesante. GPT-4, el modelo que muchos usamos cada día, obtuvo un estimado de 27% en este perfil. Pero el sucesor proyectado, GPT-5, mostró una aceleración masiva, alcanzando un estimado del 57%.

Alicia
Ese salto es enorme. Quiero decir, pasar de 27 a 57 en quizá dos años, es extraordinario. Pero para entender realmente qué significa ese 57% tenemos que mirar qué están midiendo en realidad.

Beto
Desgranémoslo. Veamos bajo el capó las 10 dimensiones de la inteligencia que usan.

Alicia
El marco divide la inteligencia general en 10 dominios centrales. Y, crucialmente, todos están ponderados por igual: 10% cada uno.

Beto
¿Por qué es tan importante eso?

Alicia
Porque ese peso igual es lo que prioriza la versatilidad. Si una IA es una genio en matemáticas y obtiene la puntuación perfecta, pero no puede aprender nada nuevo, solo puede conseguir 10 de 100 puntos. Evita que la especialización enmascare una falta de generalidad.

Beto
Y esto no es solo una prueba basada en texto, como muchas de las primeras.

Alicia
No, es una evaluación multimodal holística. Cubre texto, procesamiento visual y auditivo.

Beto
Recorramos los 10 componentes, la lista de verificación de AGI.

Alicia
Ok. Primero, tienes tres dominios sobre conocimientos y habilidades adquiridas.

  • Número uno: conocimientos generales, K. Esto es amplitud factual, sentido común, historia, cultura.
  • Luego lectura y escritura, RW, pura competencia con el lenguaje escrito.
  • Y tercero, habilidad matemática, M, todo el rango desde aritmética hasta cálculo.

Beto
Bien, algunos conocimientos y habilidades. Luego llegamos a los motores cognitivos centrales.

Alicia
Es una gran forma de decirlo: las partes de la mente que hacen el trabajo. El razonamiento inmediato "on-the-spot" (razonamiento puntual, R) se trata de resolver problemas novedosos, cosas que no has visto antes.

Beto
... inducción, deducción.

Alicia
Y también teoría de la mente.

Luego tienes la memoria de trabajo, WM, básicamente lo que puedes mantener en tu atención activa. Y el almacenamiento de memoria a largo plazo, MS. Este es crucial: es la capacidad de adquirir, consolidar y almacenar información nueva.

Beto
Y recuperarla, supongo.

Alicia
Correcto — la siguiente es la recuperación de memoria a largo plazo, MR —, acceder al conocimiento almacenado con precisión. Y esto es clave para evitar lo que llaman "confabulación".

Beto
Las alucinaciones.

Alicia
Exacto.

Y finalmente tienes los dominios para procesar el mundo físico y la pura velocidad.

Beto
Procesamiento visual, V, ...

Alicia
... para imágenes y vídeo; luego procesamiento auditivo, A, para habla y música; y por último la velocidad, S: qué tan rápido puedes hacer tareas cognitivas simples.

Beto
Esa lista es un mapa increíble. Y mirando ese viaje del 27% al 57%, la gran ganancia parece venir casi totalmente de las primeras tres categorías.

Alicia
Absolutamente. Las que dependen de datos de entrenamiento masivos.

Empecemos por conocimientos generales, K. GPT-5 obtiene un pequeño aumento ahí, de 8% a 9%.


Las habilidades de GPT-4 y GPT-5.

Pero lo clave es que prueban cosas más allá de hechos estáticos. Evalúan sentido común, como preguntar: "¿hacer un sándwich lleva más tiempo que hornear pan?" Y examinan alfabetización cultural que requiere búsqueda para conocer asuntos actuales.

Beto
Pero los saltos cuánticos reales están en las habilidades de competencia.

Lectura y escritura, RW: GPT-5 alcanza un perfecto 10%. Subió desde el 6% de GPT-4.

Alicia
Eso es un marcador mayor de progreso. GPT-4, a pesar de sus fortalezas, podía tropezar con tareas muy granulares a nivel de tokens, especialmente en documentos largos o en correcciones detalladas. Ese 10% significa que GPT-5 parece haber eliminado esos problemas: puntuaciones perfectas en comprensión, calidad de escritura, todo el paquete.

Beto
Y aquí está la que realmente me llamó la atención: la habilidad matemática, M. GPT-5 también alcanza un perfecto 10%, subiendo desde apenas 4% de GPT-4.

Alicia
Es un cambio transformador. De verdad. Un 10% en competencia significa que maneja cálculo avanzado, geometría, incluso álgebra a nivel de concursos. Para un humano promedio, eso equivale a nivel experto. GPT-5 supone un salto digital en matemáticas.

Beto
Y no se trata sólo de hacer operaciones rápido. Las fuentes dicen que las pruebas incluyen problemas verbales complejos.

Alicia
Exacto. Embeben las matemáticas en lenguaje natural. Así que una pregunta podría ser: "Janet tenía 22 bolígrafos verdes. Compró seis paquetes de nueve bolígrafos azules. ¿Cuántos bolígrafos tiene ahora?"

Beto
El modelo tiene que analizar el lenguaje, determinar los pasos y luego hacer los cálculos.

Alicia
Obtener un 10% significa que lo clava consistentemente en todo el espectro matemático.

Beto
Así que lo que tenemos es una IA profundamente alfabetizada, brillante en matemáticas y con vasto conocimiento: máximas puntuaciones en K, RW y M.

Alicia
Pero — y este es el gran pero — a medida que avanzamos por la lista, es como ver un rascacielos construido sobre arenas movedizas. Esa brillantez se asienta sobre cimientos extremadamente endebles.

Beto
Aquí es donde entra el perfil dentado ...

Alicia
... y donde el poder diagnóstico del marco se vuelve tan claro. Ahora pasamos a los cuellos de botella críticos, los dominios de baja puntuación que revelan estas debilidades fundamentales. La potencia del motor está limitada por sus partes más débiles.

Beto
Y la parte más débil, el bloque motor agrietado, es el almacenamiento de memoria a largo plazo, MS.

Alicia
Precisamente. Este es el cuello de botella más significativo. Obtiene un 0% tanto para GPT-4 como para GPT-5.

Beto
Espera, 0%. Eso parece increíble. Quiero decir, hablas con estas cosas y parecen recordar lo que dijiste 15 párrafos atrás. ¿Eso no es memoria?

Alicia
Esa es la distinción fundamental. Las fuentes son muy claras: MS mide la capacidad de adquirir de forma estable, consolidar y almacenar información nueva a partir de la experiencia, es decir, aprender de verdad.

Beto
Entonces, ¿qué es la ventana de contexto?

Alicia
Eso es la memoria de trabajo, WM. No es almacenamiento.

Beto
Creo que todos los usuarios lo han sentido: tienes una sesión de lluvia de ideas increíble de cuatro horas. Cierras el chat. Y al día siguiente te saluda como un perfecto desconocido: “¿En qué puedo ayudarle hoy?”.

Alicia
Ese es el resultado práctico de ese 0%: lo que los autores llaman "amnesia". Y la amnesia fuerza estas contorsiones de capacidad. Porque la IA carece de almacenamiento de memoria a largo plazo, MS, tiene que depender completamente de su enorme ventana de contexto, la memoria de trabajo, WM, donde GPT-5 solo puntúa un 4%.

Beto
Así que está usando una habilidad — memoria de trabajo — para fingir otra que no existe — almacenamiento duradero.

Alicia
Exacto. Y es increíblemente ineficiente y caro. No escala. No puedes mantener días o semanas de contexto en una ventana. Una vez que la información sale de esa estrecha ventana, simplemente se ha ido.

Beto
OK, otra gran debilidad parece estar en el razonamiento puntual (on-the-spot reasoning). GPT-4 puntuó básicamente 0 ahí, aunque GPT-5 sube hasta 7%.

Alicia
Y aquí es donde el modelo tiene que pensar, no solo recordar un patrón. Se le prueban problemas genuinamente nuevos; incluye cosas como deducción y teoría de la mente.

Beto
Teoría de la mente: la capacidad de entender el estado mental de otra persona, qué está pensando o qué sabe.

Alicia
Sí, y las IAs son notoriamente malas en esto. Una prueba clásica sería un escenario tipo: "John pone la única llave de la caja en el cajón azul y se va. Mary, que no lo vio hacer, entra y mueve la llave a su bolso."

Beto
Luego le preguntas a la IA: "¿dónde cree John que está la llave?"

Alicia
Un humano lo sabe al instante: "John piensa que sigue en el cajón porque no vio a Mary moverla."

Beto
¿Pero una IA con teoría de la mente débil?

Alicia
... tiene problemas para separar el conocimiento limitado de John de la verdad factual. Podría decir que "está en el bolso de Mary", porque ahí está realmente. No puede modelar la perspectiva diferente de John. Ese 7% muestra que está mejorando, pero sigue habiendo una brecha enorme.

Beto
El último cuello de botella importante es la recuperación de memoria a largo plazo, MR, solo 4%. Y esto está directamente ligado al tema del que todo el mundo habla ...

Alicia
... la confabulación, las alucinaciones.

Beto
Correcto.

Alicia
Es un síntoma de imprecisión profunda. Los modelos tienen una fluidez de recuperación asombrosa: pueden generar montones de respuestas muy rápido. Pero la precisión está rota.

Beto
Las fuentes ponen un gran ejemplo de esto.

Alicia
Sí. El AI podría describir con confianza, en vívido detalle, la campaña militar de Napoleón en Sudáfrica.

Beto
Una campaña que, por supuesto, nunca ocurrió.

Alicia
Nunca ocurrió. Simplemente sintetiza una historia que suena plausible a partir de conceptos relacionados: “Napoleón campañó en Sudáfrica”, y lo afirma con total confianza. Eso es un error cognitivo profundo en la recuperación.

Beto
Y nosotros, los usuarios, hemos construido otra contorsión para enmascararlo: la "generación aumentada por recuperación", "Retrieval Augmented Generation", RAG.

Alicia
RAG es un parche comercial vital, pero es fundamentalmente un parche. Enmascara la incapacidad del modelo para acceder de manera fiable a su propio conocimiento y, más importante, la ausencia total de una memoria experiencial dinámica.

Beto
RAG tira de una base de datos; no es recordar.

Alicia
Eso es. No es un sustituto de memoria integrada real.

Beto
Cerrando con las brechas multimodales: Visual y auditivo. GPT-4 sacó 0 en ambos.

Alicia
GPT-5 muestra progreso, pero aún incompleto: llega a 4% en visual y 6% en auditivo. El progreso visual está en percepción básica y en generar imágenes. Pero todavía falla seriamente en razonamiento visual complejo.

Beto
¿Como qué?

Alicia
Por ejemplo, rotar mentalmente un objeto 3D en la mente o navegar un laberinto a partir de un mapa visual. Puede “ver” y generar, pero le cuesta razonar espacialmente sobre lo que ve.

Beto
Y en lo auditivo, ...

Alicia
... el progreso es sobre todo mejor reconocimiento del habla. Sigue puntuando cero en cosas más profundas, como entender el ritmo o emitir juicios musicales complejos.

Beto
Sintetizando todo esto, tenemos ese perfil dentado: GPT-4 en 27%, GPT-5 en 57%. Tenemos una IA que es más estrecha que un humano debido a estos déficits cognitivos profundos, aun siendo sobrehumana en cosas específicas como las matemáticas.

Alicia
Y este marco nos obliga a ser mucho más precisos con nuestro lenguaje. Ese 57% es un progreso increíble hacia la AGI, pero no es AGI.

Beto
Tenemos que separarlo de otros conceptos. Primero, esto es solo sobre habilidades cognitivas. Deliberadamente deja fuera habilidades físicas.

Alicia
Correcto: esto no mide lo que llaman IA de reemplazo, que necesitaría realizar tareas físicas mejor que un humano. La AGI es el cerebro, no el cuerpo.

Beto
Tampoco mide la IA económicamente valiosa. Podrías tener un algoritmo simple que genere miles de millones en beneficio sin ser en absoluto generalmente inteligente.

Alicia
Y finalmente, AGI no es superinteligencia. Esta se define como "una IA que supera ampliamente la cognición humana en prácticamente todos los dominios". Al 57% todavía estamos trazando la ruta hacia la paridad humana, no más allá de ella.

Beto
Así que este marco nos da el mapa. Y muestra que el progreso se está acelerando como loco — de 27% a 57% en dos años —. Pero los desafíos nucleares, el aprendizaje continuo y el razonamiento fiable, siguen siendo barreras enormes.

Alicia
Y aquí va el pensamiento final para que te lo lleves: los autores insisten en lo profundamente interdependientes que son las 10 habilidades. No puedes hacer matemáticas avanzadas sin razonamiento. No puedes procesar imágenes sin conocimientos generales.

Beto
Y no puedes resolver un problema complejo sin recurrir a la memoria.

Alicia
Hemos establecido que este motor de inteligencia está atascado en 57% de eficiencia por su componente más débil: ese 0% en almacenamiento de memoria a largo plazo.

Beto
Así que la pregunta es, ...

Alicia
¿Qué pasa cuando ese único cuello de botella crítico — esa incapacidad para consolidar nuevas memorias — se resuelva por fin? Dado lo interconectadas que están todas las piezas, ¿qué tan rápido acelerará la corrección de esa parte rota el progreso en las otras nueve áreas que dependen de contexto y aprendizaje a largo plazo?

Beto
Te hace preguntarte cuán rápido cruzaremos el umbral del 100% cuando esa pieza rezagada finalmente se ponga al día y desbloquee el potencial completo de todo lo demás. Piensa en esa relación entre memoria e inteligencia mientras ves cómo se despliegan estos nuevos modelos.

Alicia
Nos vemos en el próximo análisis profundo.

viernes, 19 de diciembre de 2025

Ingeniería de Software con Agentes LLMs

 
 

Bueno, la Inteligencia Artificial (IA) ha avanzado tanto que ahora estamos usando agentes, basados en LLMs, para diseñar software. Es es el tema de este artículo reciente. El estudio analiza sistemáticamente 124 artículos, categorizándolos según la tarea de SE ("Software Engineering", ingeniería de software) que abordan (como la generación de código, la depuración y las pruebas) y los componentes de diseño del agente, como la planificación, la percepción, la memoria y el uso de acciones y herramientas.

Enlace al artículo, en inglés, para aquellos interesados en profundizar en el tema: "Large Language Model-Based Agents for Software Engineering: A Survey", por Junwei Liu y colegas, publicado en Diciembre 3 del 2025.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Bienvenidos a un nuevo análisis profundo donde convertimos investigación densa en conocimiento inmediato.

Hoy nos estamos sumergiendo en un campo que, de hecho, está reescribiendo por completo las reglas del desarrollo de software mientras hablamos. Hablamos de agentes basados en grandes modelos de lenguaje en ingeniería de software.

Alicia
Es un espacio enormemente dinámico y se está moviendo increíblemente rápido. Probablemente estés familiarizado con los modelos de lenguaje grandes (LLMs) autónomos, esos brillantes pero algo estáticos generadores de texto que pueden redactar un correo o resumir un artículo por ti.

Pero los Agentes basados en LLM son criaturas completamente diferentes. Piénsalos como entidades de IA que usan un LLM como su núcleo cognitivo, su controlador central. Pero, y esto es clave, tienen la capacidad de percibir el entorno y usar recursos y herramientas externas.

Beto
Así que no es solo un cerebro de lenguaje. Es un cerebro de lenguaje con manos y ojos.

Alicia
Exactamente. Esa es una manera perfecta de decirlo. Y eso les permite abordar metas de ingeniería del mundo real muchísimo más complejas que requieren trabajo iterativo, acceso a datos externos e interacción con un entorno de desarrollo real como ejecutar un compilador o incluso hacer clic en un botón.

Beto
Y nuestra misión hoy es darte una instantánea comprensiva del estado actual. El material fuente que sintetizas para esta inmersión profunda está basado en una enorme encuesta de investigación. Y aquí está el dato que realmente subraya la urgencia: el número acumulado de artículos en solo esta área explotó; había 124 para septiembre de 2024. Así que esto no es algún ataque teórico en el futuro. Esto es la vanguardia ahora mismo. Y vamos a desglosar exactamente cómo funcionan estos agentes y qué pueden hacer realmente.

La Arquitectura Central

Bien, desgranémoslo con el segmento uno: La arquitectura central. ¿Qué es lo que transforma un brillante modelo de lenguaje en un agente autónomo orientado a la acción?

Alicia
Pues bien, la diferencia fundamental es que el LLM está incrustado dentro de un bucle cerrado. Este cerebro controlado por el LLM está interactuando constantemente con el entorno. Y para hacerlo con éxito necesita cuatro capacidades distintas: planificación, memoria, percepción y acción.


Marco básico de los agentes basados en LLMs

Planificación

Beto
Empecemos por la planificación. Porque la ingeniería, por su propia definición, trata de seguir un proceso. ¿Cómo aborda un agente una tarea realmente compleja como, digamos, construir una interfaz web básica para X, cuando el LLM en sí mismo trata principalmente con lenguaje?

Alicia
La planificación es lo que permite al agente descomponer ese objetivo gigantesco y complejo en subtareas manejables. Ya sabes, cosas como crear el esquema de la base de datos, luego escribir el endpoint de la API y luego construir los componentes del front-end.

Beto
Sí, descomponerlo.

Alicia
Exacto. Y vemos dos comportamientos primarios aquí. Primero, el agente puede generar un plan inicial desde el principio. A menudo usa estas estrategias de razonamiento; probablemente hayas oído hablar de "Chain of Thought", CoT (Cadena de Pensamiento).

Beto
Así escribe su propia lista de tareas antes de empezar. Algo así como un plano fijo.

Alicia
Plano fijo, sí. Pero la segunda capacidad es, quizá, más crítica para cualquier tipo de fiabilidad en el mundo real. Y esa es la capacidad de ajustar ese plan generado sobre la marcha. Si intenta escribir la API y una prueba falla, el plan tiene que modificarse en función de ese feedback externo. No importa si ese feedback es un error del compilador o, ya sabes, una instrucción de un humano. Está reevaluando constantemente su enfoque en base a la realidad.

Memoria

Beto
Y me imagino que ese tipo de proceso iterativo de múltiples pasos requiere un sistema de memoria bastante robusto. ¿Cómo mantienen estos agentes el contexto a lo largo de un proyecto largo y complejo sin olvidar lo que hicieron cinco pasos antes?

Alicia
La memoria es absolutamente esencial. Registra pensamientos históricos, acciones, observaciones del entorno, todo. Básicamente lo categorizamos en dos tipos principales: Para el trabajo inmediato, la tarea en curso, tenemos memoria a corto plazo. Esto almacena cosas como registros simples de diálogo o, de manera más eficiente, algo llamado "registros de acción‑observación‑crítica".

Beto
¿Puedes aclarar eso, qué son exactamente los registros de acción‑observación‑crítica?

Alicia
Claro, piénsalo como un diario de aprendizaje muy detallado o quizá un registro de errores sofisticado:

  • Registra qué hice — esa es la acción —,
  • qué ocurrió — la observación —, como "la prueba falló con el error X"—, y luego,
  • lo que concluí — la crítica —. Tipo: "Ok, el error probablemente está en la línea 42".

Esta memoria a corto plazo es crítica para la tarea actual.

Beto
Entendido. Y eso contrasta con la memoria a largo plazo, que se parece más a un archivo de proyecto.

Alicia
Correcto. La memoria a largo plazo es donde el agente guarda cosas como trayectorias destiladas, grafos de conocimiento o datos vitales, como los resultados finales exitosos de proyectos pasados. Esos datos no son realmente para depurar la subtarea inmediata, sino para la planificación futura, transfiriendo lo que ha aprendido entre proyectos completamente distintos.

Percepción

Beto
Bien, lo siguiente es la percepción. ¿Cómo ve el agente lo que está pasando? Empezamos esta conversación asumiendo que el texto es la entrada principal, pero ¿qué pasa con la realidad visual del software, especialmente en interfaces de usuario?

Alicia
Pues, aunque leer código y requisitos sigue siendo la entrada predominante — esa es la principal forma en que toman información —, la investigación apunta claramente hacia la creciente importancia de la entrada visual. Específicamente, en un dominio como las pruebas de GUI, los agentes empiezan a usar modelos especializados como SegLink++ y Screen Recognition para procesar capturas de pantalla.

Beto
¿Así que el agente puede literalmente mirar una captura de pantalla de una aplicación?

Alicia
Sí, exactamente. Esto le permite localizar con precisión widgets (componentes visuales), ya sabes, "dónde está el botón de enviar" o "qué elemento muestra un mensaje de error". Y luego combina ese contexto visual con la entrada textual para, bueno, para una efectividad mucho mayor en tareas como navegación web automatizada o pruebas de aplicaciones.

Acción

Beto
Y por último, acción. Aquí es donde culmina todo el ciclo. Cómo el agente realmente modifica el entorno.

Alicia
La acción es esa capacidad para interactuar. Y el mecanismo más esencial aquí es la habilidad para controlar y utilizar herramientas externas. Si el agente necesita compilar código, ejecutar pruebas, acceder a una base de datos o buscar en la web documentación de una API, usa su capacidad de acción para operar esa herramienta externa. Esto es lo que verdaderamente extiende al LLM más allá de ser solo una utilidad de lenguaje hacia un agente funcional y ejecutor.

Colaboración - Multi-Agentes

Beto
Esa funcionalidad ya es bastante compleja cuando un agente trabaja solo, pero construir software del mundo real es un deporte de equipo. Y eso nos lleva naturalmente al segmento dos: colaboración. La fuente señala que las tareas complejas a menudo requieren sistemas multiagente.

Alicia
Son absolutamente críticos. Sí, especialmente para abordar tareas que requieren dominios de conocimiento especializados y diversos. Y la arquitectura imita a los equipos humanos de una manera realmente notable. A los agentes se les asignan roles distintos, experiencia especializada, y se comunican constantemente para compartir progreso. Esto les permite trabajar de forma colaborativa, atacando diferentes subtareas, o incluso competitivamente, donde pueden debatir la mejor solución antes de ejecutarla.

Beto
Eso suena justo como un equipo de ingeniería real discutiendo elecciones de diseño en una sala de reuniones. ¿Qué tipos de roles suelen adoptar estos agentes?

Alicia
Los roles se basan en una taxonomía que, tienes razón, refleja a los equipos humanos. Hay roles de gestor responsables de la descomposición inicial de la tarea y la asignación. Están los arquitectos y diseñadores que manejan la estructura del sistema a alto nivel. Luego los desarrolladores que realmente escriben el código. Y, de manera crucial, los roles de garantía de calidad como revisores de código y testers. Estos roles crean esa especialización y rendición de cuentas.

Beto
Cuando colaboran, ¿cómo se estructura realmente esa interacción? Me imagino algo lineal para tareas pequeñas. Pero si están debatiendo o refinando algo, deben necesitar algo más complejo.


Mecanismos de colaboración en sistemas multi-agente

Alicia
Exacto. La estructura define el modo de colaboración. El más común es la estructura en capas, que es secuencial. Piénsalo como una línea de montaje. La salida de un agente alimenta la entrada del siguiente. El arquitecto pasa el diseño al desarrollador que pasa el código al tester.

Beto
Eso es eficiente, pero muy rígido. ¿Y qué pasa con ese feedback iterativo del que hablamos?

Alicia
Para eso necesitas la estructura circular. Esta está diseñada específicamente para ese feedback continuo y refinamiento. A menudo se ve como un bucle generación‑validación entre dos roles especializados. Así el desarrollador escribe el código y el tester lo valida, enviando informes de error de vuelta al desarrollador hasta que la tarea se completa.

Beto
¿Y cómo se pasa realmente la información entre ellos? ¿Solo tiran código terminado por encima del muro o realmente hablan?

Alicia
Vemos dos flujos principales. Primero está la transferencia unidireccional, que es muy impulsada por los datos. El siguiente agente simplemente toma la salida final del predecesor como su entrada fija. Ese es el modelo de la línea de montaje. Pero para el verdadero trabajo en equipo usan chat bidireccional. Aquí, los agentes comparten todo su historial de diálogo, lo que les permite participar en una discusión colaborativa, hacer preguntas aclaratorias y gestionar ese contexto compartido, mucho como una breve reunión de equipo.


Flujos principales

Beto
Pero aún con toda esta interacción IA–IA, el humano sigue siendo crucial, especialmente para definir requisitos y control de calidad. ¿Dónde encaja la coordinación humana de agentes en todo este ciclo de vida?

Alicia
Los humanos sirven como esas guías esenciales durante las fases críticas. Vemos entrada humana durante la planificación, donde una persona puede revisar un flujo de trabajo autogenerado si ve una ruta más lógica o más segura. La vemos durante los requisitos, aclarando ambigüedades. Incluso hay sistemas como ClarifyGPT diseñados para identificar proactivamente requisitos vagos y hacer al usuario humano preguntas específicas antes de escribir una sola línea de código.

Beto
¿Entonces el agente, en esencia, obliga al humano a ser un mejor cliente?

Alicia
Precisamente. Y esto continúa a lo largo del desarrollo, donde los humanos pueden corregir errores o guiar ediciones complejas de código, hasta la evaluación, que a menudo requiere pruebas de aceptación manuales del producto final para asegurar que el usuario puede identificar los requisitos necesarios. Es decir, una persona es quien juzga finalmente si satisface esos requisitos imprecisos.


Colaboración Humano-Agente en SE

Beto
Esa integración de la guía humana es fascinante.

Aplicaciones Claves

Pasemos al segmento tres y entremos en algunas aplicaciones clave dentro del ciclo de vida del software, empezando por la generación de código.

Generación de código

Alicia
Bueno, la generación de código es donde las capacidades de planificación y acción realmente brillan. Necesitamos distinguir entre dos enfoques de planificación aquí. Uno es la ingeniería de prompts, como la Cadena de Pensamiento (CoT) que mencionamos, donde el plan es fijo y determinado desde el principio. Cualquier LLM estándar puede hacer eso.

Beto
Pero el enfoque verdaderamente novedoso que pertenece a los agentes ...

Alicia
Sí, son las estrategias agénticas. Estas adaptan dinámicamente el plan en función de pensamientos históricos, observaciones del entorno, resultados de pruebas, lo que sea. Si el agente encuentra un error en el paso tres, no se queda bloqueado. Revisa los pasos cuatro a diez. Y este enfoque flexible requiere esa configuración completa de agente basado en LLM que hemos estado describiendo.

Retroalimentación

Beto
Ese enfoque dinámico debe depender muchísimo del "feedback" (retroalimentación). ¿Qué tipos de retroalimentación usan estos agentes para refinar su salida una y otra vez?

Alicia
Hay cuatro tipos básicos que impulsan ese refinamiento.

Primero, feedback del modelo. Esto implica ya sea reflexión pura — un agente revisando el trabajo de otro, como un marco de salvaguarda de auditorio — o autorreflexión. Que está diseñada para imitar la clásica técnica del "rubber‑duck debugging" (depuración con el patito). El agente literalmente habla del problema consigo mismo, revisando su propio razonamiento.

Beto
Lo cual es una forma fantástica de detectar errores lógicos antes de que se conviertan en fallas.

Alicia
Lo es.

El segundo tipo es feedback de herramientas. Esto significa usar herramientas externas como analizadores estáticos para analizar la calidad del código o, crucialmente, herramientas de recuperación. Las herramientas de recuperación permiten al agente acceder a motores de búsqueda en línea o documentación privada de API. Y este acceso externo es vital para mitigar dos grandes problemas de los LLM: la aleatoriedad y las alucinaciones. Pueden verificar hechos contra fuentes fiables.

Beto
Así que las herramientas proporcionan los datos duros y el modelo proporciona la interpretación.

¿Cuáles son los otros dos tipos de feedback?

Alicia
El tercero es feedback humano, que ya mencionamos. Es crucial para clarificar ambigüedades y asegurar la intención.

Y el cuarto es feedback híbrido, donde vemos algunas de las innovaciones más serias. Esto combina los informes de error objetivos y precisos de una herramienta con el poder interpretativo del LLM.

Beto
¿Puedes darnos un ejemplo de cómo funciona ese feedback híbrido? Más allá de obtener un simple error de compilación.

Alicia
La fuente destaca un ejemplo brillante, un método llamado LDB ("Large Language Model Debugger"). La mayoría de los sistemas solo analizan la salida final del programa: "¿pasó la prueba o no?" LDB va mucho más profundo. Recopila y analiza el estado de ejecución intermedio. Eso significa que el agente monitoriza realmente los estados en tiempo de ejecución de variables y estructuras de datos antes y después de que se ejecute cada bloque de código.

Beto
Wow, eso es exactamente lo que hace un ingeniero humano cuando pone un punto de interrupción en su código.

Alicia
Es el equivalente más cercano que tenemos en IA. Al mezclar esa información de tiempo de ejecución, precisa y basada en datos, con la capacidad del LLM para razonar sobre la lógica del código, este enfoque híbrido conduce a un rendimiento y depuración demostrablemente mejores que simplemente analizar el resultado final de aprobado/fallido.

Beto
Esa profundidad realmente muestra que los agentes están yendo más allá de tareas individuales y empiezan a cubrir todo el proceso de desarrollo de extremo a extremo. ¿Cómo están adaptando los modelos de proceso humanos clásicos?

Alicia
Los están adaptando por pura necesidad. Adaptan el "modelo en cascada" forzando iteraciones para control de calidad, e incorporan la verificación en ciclo porque un proceso lineal LLM sin verificación no funciona. Y adaptan métodos ágiles como "desarrollo guiado por pruebas" (TDD) o "SCRUM". Cuando emulan SCRUM, por ejemplo, los marcos de agentes a menudo simplifican el proceso omitiendo, curiosamente, la reunión diaria SCRUM.

Beto
¿Espera, omiten la reunión diaria? ¿Por qué harían eso?

Alicia
Se reduce a los mecanismos de memoria compartida de los agentes. Dado que todos los agentes participantes tienen acceso a este historial continuo de diálogo y al archivo de contexto, la necesidad humana tradicional de una sincronización diaria para reiterar el progreso e identificar bloqueos se vuelve en gran medida redundante. Su comunicación es continua y asincrónica por diseño.

Limitaciones

Beto
Todo esto suena como un progreso fenomenal, pero cada análisis profundo revela puntos de fricción.

Veamos el segmento cuatro. ¿Cuáles son las limitaciones prácticas actuales? Las causas comunes de fracaso con las que los investigadores están lidiando. ¿Dónde fallan consistentemente estos agentes?

Alicia
Los fallos se agrupan en torno a la gestión de la complejidad y el contexto. En sistemas multiagente vemos fallos frecuentes de coordinación. Cuando se les encarga comunicarse para resolver problemas, pueden atascarse fácilmente en ciclos conversacionales infinitos. La fuente menciona casos donde los agentes simplemente se dicen repetidamente "gracias" o "adiós", porque los criterios de terminación no se gestionan con la suficiente estrictitud.

Beto
Eso es a la vez gracioso y profundamente frustrante. Imagina quemar miles de dólares en cómputo solo para escuchar robots agradecerse mutuamente para siempre.

Alicia
Es un problema muy real que subraya el desafío de la autonomía verdadera.

También vemos problemas mayores con feedback defectuoso que lleva a errores en cascada. Por ejemplo, en un estudio detallado sobre agentes de depuración, un asombroso 33% de los casos fallidos fueron causados por el fallo del feedback del modelo para identificar con precisión la ubicación del error.

Beto
Así que el agente está confiado y precisamente equivocado, y eso desorienta todo el proceso de autocorrección.

Alicia
Exacto. Y suites de pruebas de baja calidad, ya sean creadas por el agente o preexistentes, engañan al agente de la misma manera. Si el feedback es basura, el proceso de refinamiento solo produce más basura.

Beto
Y si una tarea implica un refinamiento de muchos pasos a lo largo de semanas, la pura cantidad de historial de interacción debe volverse abrumadora.

Alicia
Ese es el desafío central de la gestión del contexto. A medida que ese historial de interacción crece, la capacidad del agente para razonar sobre ese contexto largo simplemente se degrada. El "cerebro" del LLM lucha para extraer eficientemente información útil de miles de líneas de pensamientos pasados y acciones fallidas, llevando a lo que los investigadores llaman "sobrecarga de contexto".

Beto
Entonces, si los agentes son tan complejos y los fallos tan sutiles, debe haber una gran brecha en cómo medimos siquiera su éxito. ¿Qué necesita cambiar sobre la evaluación?

Alicia
Hay una necesidad crítica y ampliamente reconocida de mejores evaluaciones y benchmarks mucho más desafiantes. Actualmente, muchos benchmarks a nivel de proyecto son menos complejos que las tareas empresariales del mundo real. Por ejemplo, en un benchmark como ProjectDev, la descripción media de requisitos de software es solo de 262 palabras. Incluso el ampliamente usado SWE‑bench Lite, a menudo implica tareas que un ingeniero humano experimentado podría completar en menos de una hora.

Beto
Esa escala es necesaria para la investigación, lo entiendo. Pero falla en capturar la complejidad de una enorme base de código heredada en una empresa.

Alicia
Precisamente. Y más allá de la complejidad, el enfoque actual de evaluación está casi exclusivamente en la tasa de éxito final. "¿Pasó la prueba?" Sí o no. Los investigadores llaman con urgencia a métricas finas para evaluar los pasos intermedios. Necesitamos métricas como la tasa de retroceso (backtracking), la proporción de acciones erróneas, o evaluaciones detalladas de los módulos internos de planificación y memoria. Necesitamos saber cómo fallaron, no solo que fallaron.

Beto
Finalmente, a medida que estos agentes pasan de los sistemas de laboratorio a producción, la cuestión de la confiabilidad debe volverse absolutamente primordial.

Alicia
Absolutamente. Avanzando, la comunidad tiene que ir más allá de métricas simples de efectividad. Necesitamos evaluar robustamente requisitos no‑funcionales como privacidad, seguridad, equidad y robustez general, especialmente porque, como hemos visto, estos agentes pueden exhibir comportamientos inestables e impredecibles. Asegurarlos como seguros y fiables es una gran frontera.

Beto
Para resumir nuestra inmersión: los agentes basados en LLM ofrecen un rendimiento superior y una aplicabilidad mucho más amplia en ingeniería de software comparados con los LLM independientes. Y esa superioridad está fundamentalmente habilitada por su capacidad de percibir el entorno, tanto visual como textualmente, de planificar dinámicamente y de ejecutar de manera iterativa usando herramientas especializadas, a menudo colaborando en sistemas multiagente estructurados.

Alicia
Y mirando hacia adelante, mientras la tentación y la investigación siempre empujan por máxima complejidad y máxima autonomía, el futuro de estos agentes demanda una mayor colaboración humano‑agente y, curiosamente, una integración más inteligente de la experiencia clásica en ingeniería de software. Lo fascinante es la observación de que algunos marcos de agentes, usando un flujo de trabajo relativamente simplista basado en las canalizaciones clásicas de localización de fallos y reparación que los ingenieros humanos perfeccionaron durante décadas, han demostrado superar a diseños de agentes totalmente autónomos y mucho más complejos.

Beto
Y aquí tienes una idea provocadora para masticar: si priorizamos la fiabilidad y la interpretabilidad por encima de todo, ¿cuánta autonomía máxima de un agente deberíamos sacrificar intencionadamente adhiriéndonos estrictamente a esos procesos clásicos humanos de ingeniería de software bien probados? ¿Debería la meta ser complejidad máxima e impredecible, o disciplina y fiabilidad guiadas por la tradición?

3I-ATLAS como Organismo Inteligente de Plasma

 
 

Me acabo de encontrar un artículo científico que propone una idea interesante: Explora la hipótesis de que el objeto interestelar 3I/ATLAS podría ser un organismo plasmático inteligente, en lugar de un cometa estándar. El autor utiliza la "Teoría del Cosmobionte" para sugerir que esta entidad representa una forma de vida inorgánica que se autoorganiza mediante principios electromagnéticos. Las pruebas de esta afirmación incluyen la aceleración no gravitacional, la ausencia de gases volátiles típicos y una sincronización orbital altamente improbable con los planetas de nuestro sistema solar. Al comparar el objeto con las estructuras energéticas presentes en la termosfera terrestre, el texto aboga por una definición más amplia de la astrobiología, más allá de los modelos basados en el carbono. En definitiva, la investigación caracteriza a 3I/ATLAS como una posible tecnofirma o una entidad biológica activa que navega por el espacio interestelar.

Enlace al artículo: "3I/ATLAS as an Interplanetary Cosmobiont: A Hypothesis on Intelligent Plasma Organisms in Interstellar Motion", por Ricardo Rangel Martínez.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
La búsqueda de vida extraterrestre siempre ha estado limitada por nosotros, por nuestro propio punto de vista muy centrado en la Tierra. Durante décadas, la suposición ha sido que la vida tiene que ser basada en carbono, tiene que tener agua líquida y necesita ADN. Es todo el modelo de la "zona Ricitos de Oro" — ya sabes, qué condiciones son las que están "justas" para la vida tal como la conocemos.

Alicia
Y ese marco, aunque es lógico basándose en nuestro único punto de datos, la Tierra, podría ser simplemente el mayor sesgo en toda la astrobiología. Y hoy hacemos una inmersión profunda en un objeto que podría romper ese sesgo por completo. Hablamos del visitante interestelar 3i-Atlas, que fue avistado por primera vez en el verano de 2025.

Beto
Y esto no es solo otra roca espacial rara. Las fuente nos presenta una propuesta tan radical, tan fuera de lo común, que básicamente nos obliga a replantearnos qué es la vida.

Alicia
De verdad lo hace.

Beto
Así que la misión de este análisis es explorar la evidencia detrás de "la hipótesis cosmobión interestelar". La idea disparatada de que 3i-Atlas no es un trozo inerte de materia, sino un organismo plasmático vivo, autoorganizado.

Alicia
Este es un momento verdaderamente profundo en astronomía. En cuanto los científicos empezaron a analizar cómo se comportaba 3i-Atlas, muy rápido obtuvo una clasificación de nivel 4 en la escala Loeb.

Beto
Vale, nivel 4, para los que no estén familiarizados, ¿qué es exactamente la escala Loeb?

Alicia
Es una forma de clasificar objetos interestelares según lo raros que son, esencialmente. Mide qué tan fuertemente sus rasgos podrían sugerir un origen artificial, o lo que llamamos "tecnosignaturas débiles".

Beto
Y nivel 4 suena bastante alto en esa escala.

Alicia
Lo es. Significa que el objeto muestra múltiples rasgos realmente significativos que simplemente no encajan con ningún modelo conocido de cometa o asteroide. No es una cosa rara. Es un montón de comportamientos que no podemos explicar con lo que sabemos. Si buscas algo verdaderamente extraño, 3i-Atlas lo es.

Beto
Bien, entremos en esa evidencia. ¿Qué le mereció esa clasificación? Empieza con el mayor misterio, que es justo cómo se mueve. ¿Cuál es el misterio cinético de este objeto?

Alicia
Pues el objeto muestra lo que llamamos "aceleración no gravitatoria", lo que significa que algo lo está empujando además de la gravedad del Sol y los planetas. Ahora bien, eso en sí no es totalmente extraño para un cometa, ¿no?

Beto
No, porque los cometas tienen chorros, ¿cierto? El hielo se convierte en gas y los empujan.

Alicia
Exactamente. Ese empuje viene del degaseamiento. Porque el cometa se acerca al Sol, el hielo sublima y esos chorros de gas actúan como pequeños propulsores. Esa es la imagen clásica.

Beto
La hermosa cola que vemos es básicamente el escape. Entonces, cuando los telescopios buscaron ese escape en 3i-Atlas, ¿qué vieron?

Alicia
Nada. Absolutamente nada. Y esa es la pieza crítica del rompecabezas.

Bueno, 3i Atlas estaba acelerando y esto fue a unos 4.4 unidades astronómicas. Muy dentro de la zona donde esperarías actividad; nuestro análisis espectral no encontró rastros de los compuestos habituales.

Beto
¿Qué es lo habitual?

Alicia
Hablamos de no cianógeno, no carbono diatómico, no monóxido de carbono ionizado y, lo más importante, nada de vapor de agua. Nada.

Beto
Así que es como ver un barco que acelera en medio del océano, pero no hay motor encendido y no hay velas.

Alicia
Esa es una analogía perfecta.

Beto
Tienes propulsión sin ningún medio visible de propulsión. Rompe el modelo estándar de cometa.

Alicia
Lo viola por completo. Si no es degaseamiento, si no es una reacción química, el mecanismo tiene que ser algo completamente nuevo. Y eso empuja inmediatamente la conversación fuera de la geología y hacia, bueno, o tecnología muy avanzada o un tipo completamente nuevo de fenómeno natural.

Beto
Vale. Su movimiento es un misterio. ¿Y su apariencia? ¿Cómo se veía en realidad? ¿Cuáles fueron las rarezas morfológicas?

Alicia
Su forma física fue descrita como compleja y dinámica. Tiene un núcleo, un núcleo sólido. Pero mientras lo observábamos, desarrolló estas estructuras realmente extrañas, parecidas a anillos.

Beto
¿Parecidas a anillos?

Alicia
Sí, varios observadores en realidad lo describieron como algo con forma de dona ("donout"), lo cual no es algo que veas en los cometas naturales.

Beto
Una dona, quiero decir, eso suena menos a una roca y más a algo estructurado, algo que se está estructurando activamente.

Alicia
Y se vuelve más raro. También creció una cola, pero era una cola antisolar.

Beto
Es decir, apuntaba alejándose de la gravedad del Sol.

Alicia
Apuntando en sentido opuesto tanto a la gravedad del Sol como al viento solar. Y esa cola no estaba hecha de gas fino. Estaba hecha de partículas más grandes, y estaban siendo expulsadas a una velocidad increíblemente lenta, solo unos 5 metros por segundo.

Beto
5 metros por segundo. Eso es apenas un ritmo de trote. Los chorros normales de un cometa son de cientos de metros por segundo.

Alicia
Exacto. Una expulsión tan lenta y suave de partículas grandes sugiere que el mecanismo no es explosivo. Es algo más controlado, quizá electromagnético. Es un nivel de organización que no esperas de una simple roca desintegrándose.

Beto
Así que el espectro es otra pieza clave aquí, ¿no? Nos dice de qué está hecha la superficie. Mencionaste una pendiente extremadamente roja. Explícanos eso.

Alicia
Correcto. El espectro de reflexión mostró este enrojecimiento extremo. El número técnico es de alrededor del 27% por cada 1000 angstroms, pero lo que significa es que el objeto es simplemente intensamente rojo. Refleja la luz roja mucho, mucho más fuertemente que otros colores.

Beto
¿Y qué suele indicar eso?

Alicia
A veces lo vemos en objetos muy alejados, en el cinturón de Kuiper. Sugiere una superficie que ha sido irradiada durante muchísimo tiempo, cubierta de compuestos orgánicos complejos.

Beto
Así que como si estuviera recubierto de una porquería espacial antigua y pegajosa.

Alicia
Podrías decir eso, sí, polvo fuertemente irradiado o polímeros complejos.

Pero aquí está lo sorprendente. Su espectro no muestra ninguna de las bandas de absorción que indicarían hielo o cualquiera de las cosas que causan la actividad cometaria.

Beto
Así que físicamente se comporta como un cometa, pero químicamente parece un asteroide muerto.

Alicia
Esa es la contradicción. Sí, un rompecabezas completo.

Beto
Y todo esto nos lleva a su trayectoria. Aquí es donde pasa de ser solo física extraña a quizá una acción dirigida. ¿Qué mostró el análisis de su órbita?

Alicia
El análisis mostró que 3i-Atlas no estaba solo pasando por nuestro sistema solar. Su trayectoria estaba improbablemente sincronizada con los planetas interiores. Venus, Marte y Júpiter específicamente. La ruta fue demasiado ordenada.

Beto
¿De qué improbabilidad estamos hablando?

Alicia
La probabilidad de que esta alineación orbital específica ocurriera por casualidad es menor al 0.005%. Vanamente pequeña. Menos de 1 en 20,000. Ese tipo de cifra te obliga a considerar explicaciones no aleatorias. Sugiere o un enfoque dirigido o que está usando la gravedad de los planetas para navegar de algún modo.

Beto
Así que si desafía la física y sigue una trayectoria que estadísticamente es casi imposible, tenemos que buscar un nuevo modelo para explicarlo todo.

Alicia
Y ahí es donde entra la "Cosmobiont Theory".

Beto
Centrémonos en esto porque es un salto enorme. Pensamos en la vida como química, ¿cierto? Carbono, proteínas, agua. ¿Qué dice la Cosmobiont Theory en su lugar?

Alicia
Propone que la vida puede ser algo totalmente distinto. Que puede ser inorgánica, formas autoorganizadas energéticamente basadas no en química sino en plasma y polvo cósmico cargado.

Beto
Vida basada en el cuarto estado de la materia.

Alicia
Sí. Vida que emerge en sistemas lejos del equilibrio termodinámico.

Beto
¿Así que estás diciendo que no es un ET hecho de células, sino un ET hecho de electricidad estática y polvo estelar?

Alicia
En cierto modo, sí. Suena salvaje, pero está fundamentado en algunas observaciones reales.

Beto
¿Hay alguna evidencia empírica de esto?

Alicia
La hay. La teoría se apoya en estudios de entidades de plasma que han sido observadas aquí mismo, en la termosfera de la Tierra. Tenemos grabaciones de misiones espaciales como STS-75 y STS-80.

Beto
¿Qué filmaron allá arriba?

Alicia
Filmaron estas estructuras. Estaban auto-iluminadas. Tenían un núcleo o un centro y mostraban comportamientos realmente complejos. Se agrupaban. Pulsaban, cambiaban de dirección al instante. E incluso mostraron un comportamiento que la fuente llama "canibalismo energético".

Beto
Canibalismo energético. Eso suena mucho a alimentarse.

Alicia
Lo parece, ¿no? La teoría es que se alimentan de campos electromagnéticos ambientales. Interactúan con tormentas eléctricas, con minerales cargados en la alta atmósfera. Su comida es energía pura y partículas cargadas, no químicos.

Beto
Pero, ¿puede el plasma y el polvo volverse lo suficientemente complejo como para llamársele vida? Quiero decir, estamos acostumbrados a células, membranas, ADN.

Alicia
Bueno, los modelos teóricos que están respaldados por experimentos de laboratorio muestran que sí, pueden. En ambientes de plasma polvoriento puedes obtener la formación espontánea de núcleos cargados, estructuras tipo doble membrana e incluso cosas que se parecen a ARN, como estructuras helicoidales. Es autoorganización impulsada por campos eléctricos, no por bioquímica. Imita a la vida celular, pero con una física diferente.

Beto
Y me imagino que tampoco es totalmente estéril. Las fuentes mencionaron que podría recoger otros materiales, ¿verdad?

Alicia
Sí. Ese es el puente. Y los meteoritos principales que llenan el espacio están repletos de aminoácidos, los bloques de construcción de las proteínas, más de 90 tipos distintos. Así que aun si la estructura principal de 3i-Atlas es de plasma, podría haber incorporado todo tipo de material orgánico complejo en su viaje.

Beto
Vale. Conectemos los puntos. Tenemos este objeto extraño, 3i-Atlas, y esta teoría salvaje de vida plasmática. ¿Cómo encajan?

Alicia
Encajan perfectamente. De repente, todas las anomalías de 3i-Atlas tienen sentido. La aceleración sin gas, la forma cambiante, la trayectoria improbable, todo encaja con los comportamientos que ya hemos visto en esas entidades de plasma en nuestra propia atmósfera.

Beto
Así que si es un organismo electromagnético, la aceleración es propulsión. Simplemente se está moviendo. Y la sincronización orbital con Venus, Marte y Júpiter, eso de pronto tiene un propósito. Se vuelve una forma de ¿qué? ¿Navegación?

Alicia
Navegación electromagnética, sí. Si se alimenta de campos energéticos e interactúa con cuerpos cargados, entonces acercarse a planetas no es aleatorio. Es orientado a un objetivo. Es como si usara la arquitectura magnética del sistema solar como un mapa o una serie de estaciones de reabastecimiento.

Beto
Es un viajero que come electricidad estática. Esto realmente lo separa de otros objetos interestelares que hemos visto, como Oumuamua.

Alicia
Sí. Oumuamua tuvo esa aceleración no gravitatoria, lo que empezó una conversación similar. Entonces 2I/Borisov resultó ser simplemente un cometa normal. Pero 3i-Atlas es el primero que combina todo. El movimiento raro, la forma compleja y esa órbita sugestiva.

Beto
Esa tormenta perfecta de cosas extrañas.

Alicia
Exacto. Y eso es lo que fija su clasificación de Loeb nivel 4. Lo convierte en el mejor candidato que jamás hayamos tenido para una tecnosignatura débil o algo aún más fundamental. Un descubrimiento de que la vida no es lo que pensábamos.

Beto
Esto tiene implicaciones enormes para la astrobiología. Si siquiera consideramos la posibilidad de este cuarto estado de vida, ¿cómo cambia el panorama?

Alicia
El cambio es sísmico. Sugiere que la vida no se trata de una química específica. Es una propiedad emergente de cualquier sistema complejo autoorganizado. Y los principios bajo los que operaría — plasma y electromagnetismo — son mucho, mucho más comunes en el universo que las condiciones delicadas necesarias para agua líquida.

Beto
Lo que significaría que existe una biosfera paralela enorme a nuestro alrededor a la que hemos sido completamente ciegos.

Alicia
Absolutamente. Si la vida plasmática es real, probablemente esté por todas partes. En el medio interestelar, en las coronas estelares, en las magnetosferas planetarias, pero nunca la veríamos porque estamos buscando huellas químicas. Buscamos agua cuando el universo podría estar lleno de organismos hechos de luz y polvo.

Beto
Así que esto exige un cambio total en cómo buscamos. Si nuestras herramientas son básicamente inútiles para encontrar este tipo de vida, ¿cuáles son las prioridades de investigación futuras? ¿Qué hacer ahora?

Alicia
Bueno, primero, necesitamos nuevos instrumentos. Empezar a construir herramientas diseñadas para buscar las firmas espectrales y dinámicas específicas de plasma autoorganizado, no solo rocas y hielo. Ahora mismo estamos buscando la clase equivocada de señal.

Beto
Y tenemos que intentar replicarlo en el laboratorio, ¿verdad?

Alicia
Ese es el segundo imperativo. Hay que crear simulaciones de condiciones interestelares y ver si podemos lograr que estas estructuras plasmáticas se formen en un entorno controlado. Si podemos construirlas en la Tierra, eso daría a la teoría cosmobiont un peso enorme.

Beto
Y finalmente, tenemos que prestar atención cuando aparezcan estos objetos raros.

Alicia
Sí. Debemos dedicar recursos, quizá incluso planear misiones de sobrevuelo para cualquier objeto que alcance nivel Loeb 3 o 4. No podemos simplemente descartarlos como rarezas ya. Podrían ser la frontera.

Beto
Es una idea increíble. 3i-Atlas nos está obligando a ampliar nuestra definición de vida. O es un objeto astronómico tan extraño que rompe todos nuestros modelos, lo cual ya sería un gran descubrimiento en sí, o es una señal de que la vida puede tomar formas que nunca imaginamos.

Alicia
Nos obliga a aceptar que el universo no tiene que regirse por las reglas que aprendimos en este único planeta silencioso y acuoso.

Beto
Y eso nos lleva al pensamiento final provocador que quiero dejarte. 3i-Atlas es un organismo plasmático inteligente y autoorganizado. Y su trayectoria sugiere que está explorando. ¿Qué está buscando? Un organismo que come campos electromagnéticos acaba de entrar en nuestro sistema solar, que ahora está lleno de ondas de radio hechas por humanos y redes eléctricas. ¿Qué podría pensar una entidad que se alimenta de energía sobre nuestro planeta? Quizá el camino hacia una astrobiología realmente universal empieza cuando aceptamos que la mayoría invisible y silenciosa del cosmos no está hecha de carbono en absoluto.