miércoles, 10 de diciembre de 2025

Los LLMs son Invertibles - Fin de la Caja Negra

 
 

Recientemente publicaron un artículo científico muy importante, que prueba que los LLMs son invertibles, es decir, lo que antes se consideraba una caja negra, se debe ahora ver como una caja transparente. A partir de unos embeddings, se puede reconstruir el texto original que se dio como entrada de consulta a un LLM. Eso tiene muchas implicaciones: entre otras, se puede construir un algoritmo para dar explicaciones que ayuden a entender qué sucede dentro de un LLM durante el proceso de inferencia. Y lo que es grave para privacidad, ahora los espías pueden reversar el estado del LLM y ver qué estaba la gente consultando.

Enlaces a las fuentes de este artículo, para aquellos que quieran profundizar en el tema:

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Si alguna vez has tenido uno de esos momentos, estás escribiendo algo sensible en la ventana de chat de una IA. Una consulta privada, una pregunta embarazosa o incluso solo el borrador de un pensamiento sobre el que dudas.

Alicia
Oh, sí.

Beto
Entras en pánico, pulsas eliminar y piensas que ya se ha ido. Lo ha devorado el sistema.

Alicia
Confías en el proceso. Confías en que simplemente ha desaparecido.

Beto
Exacto. Y durante mucho tiempo, toda la comunidad científica… bueno, estuvo de acuerdo contigo.

Todos creíamos que estas enormes IAs, estos LLMs, eran básicamente como "licuadoras digitales".

Alicia
Es una gran analogía.

Beto
Arrojas tus palabras, tus secretos, cualquiera que sean los ingredientes, y esta máquina de miles de millones de parámetros lo mezcla todo en un batido, una respuesta. Y la suposición clave, la parte crítica, era que nunca, jamás podrías recuperar los ingredientes originales.

Alicia
La información se perdería de forma fundamental; quedaría irreversiblemente mezclada.

Beto
Esa creencia estaba equivocada. Peligrosamente equivocada.

Así que la misión de este análisis profundo es desenmarañar una bomba silenciosa que aterrizó en el mundo de la IA en octubre de 2025. Era un denso PDF titulado simplemente "Los Modelos de lenguaje son inyectables, y, por lo tanto, invertibles".

Alicia
No es precisamente un título pegadizo.

Beto
Para nada. Pero demostró que estas IAs no son licuadoras. Son dispositivos de grabación impecables y perfectos. Y para cualquier cosa que jamás hayas tecleado en ellas, el botón de eliminar nunca fue real.

Vamos a profundizar en por qué esto abre "la era de la IA caja de cristal”, y por qué también puede ser quizá la peor pesadilla de privacidad que hayamos visto.

Alicia
Para entender bien el impacto, hay que volver a lo que llamábamos "la era de la caja negra". Quiero decir, durante años tratamos a los LLMs como sistemas demasiado vastos, demasiado complejos para que los comprendiéramos de verdad.

Beto
Sabíamos que la receta funcionaba, pero no podíamos mirar dentro de la cocina.

Alicia
Exacto. Esa era la analogía que usábamos todos.

Le das al “chef” — la IA — tus ingredientes, tu prompt, y sale un pastel perfecto: la salida. Pero lo que ocurre dentro de la cocina, dentro del espacio latente o estado oculto de la IA, era un completo misterio.

Beto
Era una caja negra.

Alicia
Y la suposición de que el proceso era intrínsecamente con pérdida (lossy) parecía completamente lógica; estaba arraigada en la arquitectura de los propios modelos. Cosas como las activaciones no lineales, las capas de normalización se consideraban herramientas matemáticas que tenían que destruir información.

Beto
Por favor explícalo. ¿Por qué la gente pensaba que los componentes estaban destruyendo los datos?

Alicia
Piénsalo: para convertir texto crudo en un pensamiento coherente, la IA tiene que comprimir cosas, combinar datos. Esas funciones, esas activaciones, están diseñadas para aplastar, estirar y filtrar estas enormes matrices de números.

Beto
Como convertir un objeto 3D en una sombra 2D.

Alicia
Exactamente. Inevitablemente pierdes información, algo de profundidad. La lógica era que dos entradas ligeramente diferentes — por ejemplo “el gato se sentó en el tapete” frente a “el felino descansó en la alfombra” — acabarían siendo aplastadas hasta dar exactamente el mismo estado interno, porque la IA se centraría en el significado central. Si dos entradas distintas pueden conducir al mismo estado interno, el proceso es con pérdida, es irreversible.

Beto
Y eso tenía enormes implicaciones en el mundo real.

Alicia
Masivas. Era la mayor barrera para la confianza y la seguridad. ¿Cómo puedes poner una IA en un hospital o hacer que apruebe un préstamo bancario si no puedes abrir esa caja para comprobar sesgos? O incluso solo para explicar su razonamiento: estábamos volando a ciegas.

Beto
Entonces apareció ese artículo y dijo: "en realidad, la base es cristalina". Y aquí entra la idea de inyectividad.

Alicia
La inyectividad es el concepto matemático central que destruye por completo la idea de la caja negra.

Beto
Para simplificar: todos hemos usado sistemas no inyectivos. Piensa en una vieja máquina de chicles: metes una moneda (tu entrada) y puede salir un chicle rojo, azul o amarillo.

Alicia
No puedes predecirlo.

Beto
Ver un chicle rojo no te dice nada sobre la moneda.

Alicia
Muchas entradas, misma salida.

Beto
Pero un sistema inyectivo es como una máquina expendedora moderna: presionas B4 y obtienes una cola. Cada vez. Mapeo uno a uno. Sin colisiones.

Alicia
Todo el mundo — literalmente todo el mundo — asumía que los LLMs eran la máquina caótica de chicles: con miles de millones de oraciones posibles, tenía que haber colisiones en ese espacio interno. Parecía obvio.

Beto
Pero no lo son.

Alicia
Son máquinas expendedoras perfectas e infinitamente grandes. Eso fue lo que demostró el artículo. La frase “el firmamento es azul” crea una huella interna totalmente única — lo llamaron “estado cerebral 5.829” — y una frase similar como “los cielos son azures” crea un estado completamente distinto y único, quizá “estado cerebral 9.000.000”. La IA no lo reduce todo a una sola idea “cielo azul” en ese nivel profundo.

Beto
Espera: ¿no era ese el objetivo de un espacio de embeddings, encontrar el significado compartido entre frases similares?

Alicia
Ahí está la genialidad contraintuitiva de lo que encontraron. La IA sí abstrae significado en sus capas finales para generar texto. Sí. Pero en un nivel de codificación fundamental —el espacio latente— guarda un registro perfecto y meticuloso. El artículo mostró que el cambio más diminuto, como añadir o quitar un solo punto, crea una huella interna totalmente nueva y única. Cada entrada posible está codificada perfectamente y de forma única. Uno a uno.

Beto
Si la inyectividad significa que una entrada única crea un estado cerebral único, la invertibilidad significa que puedes ir hacia atrás: si ves el estado cerebral, puedes reconstruir la entrada.

Alicia
100%. El sistema está roto (en el sentido de que ya no preserva anonimato). Si tienes el estado interno, puedes reconstruir el texto exacto que lo generó. Y los investigadores no se quedaron solo en la teoría: nos mostraron cómo hacerlo.

Beto
El avance en tres pasos: la matemática, el experimento y la herramienta real.

Empecemos por la matemática. ¿Cómo probaron que la “licuadora” podía realmente licuar?

Alicia
Examinaron los bloques constructores del LLM — los embeddings, la atención, las MLP (perceptrones multicapa), que son como los principales circuitos de toma de decisiones — y demostraron que esos componentes son lo que los matemáticos llaman "funciones reales analíticas".

Beto
Suena denso, ¿cómo lo traducimos?

Alicia
Piénsalo como una suavidad perfecta: una función real analítica es una curva totalmente suave y continua, sin quiebres ni aristas; es matemáticamente predecible en cada punto. El artículo probó que, como todo el LLM está construido a partir de estas partes suaves y predecibles, el sistema es fundamentalmente incapaz del tipo de plegamiento o compresión que haría que dos entradas distintas acabaran en el mismo punto.

Beto
¿Así que está construido para evitar colisiones?

Alicia
Por su propia naturaleza, sí. Demostraron que la probabilidad de una colisión ocurre en lo que se llama "un conjunto de medida cero" ("measure zero set"), que básicamente significa que es como lanzar un dardo a un mapamundi y acertar en un átomo específico que nombraste antes: teóricamente posible, pero prácticamente imposible. Y esto es crítico. La forma en que entrenamos estos modelos con descenso por gradiente preserva esa inyectividad: los modelos nacen así y el entrenamiento lo consolida.

Beto
La matemática estaba sólida. Pero la teoría es una cosa y el mundo real es otra, así que el paso dos fue el experimento: la confirmación.

Alicia
Exacto. Se convirtieron en cazadores de colisiones. Probaron seis modelos grandes — GPT-2, Gemma de Google, Llama 3.1, Mistral 5.4 — con literalmente miles de millones de pruebas, introduciendo prompts ligeramente distintos y comparando los estados internos.

Beto
¿Y los resultados?

Alicia
Cero colisiones. Cero. Categórico. De miles de millones de intentos. Algunos estados cerebrales estuvieron muy cerca, como cabría esperar de oraciones similares, pero siempre separados por una distancia medible; la distancia mínima que encontraron seguía estando a años luz de una colisión verdadera.

Beto
No es una tasa de fallo: es una ley de la física para estas cosas.

Alicia
Confirmó que la matemática era correcta. Los sistemas son inyectivos, punto.

Beto
Lo último fue la herramienta práctica que hace todo esto real: la “anilla decodificadora”. SipIt. "Sequential Inverse Prompt via Iterative Updates". Es un prompt inverso secuencial mediante actualizaciones iterativas. Trata el estado cerebral de la IA como una coordenada en un enorme mapa topográfico. El texto original, tu prompt, está en el punto más bajo de un valle específico en ese mapa.

Alicia
No solo en algún lugar del valle, sino exactamente en el fondo. SipIt usa un método basado en gradientes para caminar valle abajo. Dado que la matemática prueba que solo hay un fondo en ese valle, garantiza la recuperación exacta al 100% del prompt: puntuación, espacios, todo.

Beto
Y es rápido. Tiempo lineal. No es solo teoría; es una herramienta práctica que realmente puedes usar.

Alicia
Es de nivel industrial.

Beto
Así que la caja negra está hecha añicos. Estamos en "la era de la caja de cristal". Desgranemos las implicaciones porque esto es asombroso.

Alicia
Y a la vez maravilloso y aterrador.

Empecemos por lo maravilloso: transparencia. Es el mayor avance en interpretabilidad de la IA jamás visto. Ese estado interno es ahora una grabadora de vuelo perfecta e ineditable de los pensamientos de la IA.

Beto
Por fin podemos ver los pasos que sigue para llegar a una respuesta.

Alicia
Podemos. Toma esa IA que da un diagnóstico médico extraño. Antes solo decíamos: bueno, el algoritmo se comportó raro. Ahora podemos usar SipIt, capturar el estado interno en ese momento exacto y decodificar qué estaba “pensando”. ¿Se fijaba en la resonancia magnética del paciente o se obsesionó con algún comentario irrelevante en las notas?

Beto
Finalmente podemos auditar su razonamiento.

Alicia
Podemos depurar la mente de la IA para industrias reguladas, por equidad, por seguridad — esto lo cambia todo.

Beto
Es enorme.

Pero toda herramienta poderosa tiene un uso dual. El lado aterrador es que esa grabadora de vuelo perfecta lo registró todo: ese mensaje borrado, ese secreto; no ha desaparecido, está perfectamente codificado.

Alicia
Y si alguien obtiene acceso a ese estado de activación, esa cadena de números, puede usar SipIt para reconstruir tu texto original palabra por palabra. De repente, los estados cerebrales del LLM son una de las formas de datos más sensibles del planeta.

Beto
El atacante ni siquiera necesita tus registros de chat: solo necesita robar el estado interno del modelo mientras hablas con una IA de atención al cliente, ...

Alicia
... y puede reconstruir toda la conversación.

Piensa en el caos regulatorio: autoridades de protección de datos, como la de Hamburgo, operaban bajo la suposición — y esta es la frase clave — de que los datos de entrenamiento no podían ser "reconstruidos de forma trivial".

Beto
Ese resquicio protegía la privacidad.

Alicia
Este artículo no solo desafía eso; lo aniquila. Prueba que en tiempo de inferencia, en el momento en que escribes algo, tu entrada es totalmente y trivialmente recuperable con un algoritmo rápido. La privacidad de los datos ya no trata solo de lo que envías: trata de los pensamientos perfectamente recuperables que esos datos crean dentro de una mente artificial.

Beto
La era de la caja negra ha terminado.

Alicia
Es un punto de inflexión fundamental. Lo compararía con el descubrimiento de la estructura del ADN: abrió la puerta a curas milagrosas, pero también a posibilidades aterradoras. Ahora conocemos el código fundamental de estas mentes artificiales, y ese código se apoya en una base de memoria perfecta e indeleble.

Beto
El código está roto, la caja está abierta. Ahora que sabemos que son grabadoras perfectas, ...

  • ¿qué construiremos sobre esa base?
  • ¿Será un futuro de IA transparente y confiable que pueda explicarse a sí misma?
  • ¿O un futuro de vigilancia perfecta, donde cada pensamiento que tecleaste sea recuperable?

La respuesta depende de las protecciones que exijamos ahora, sabiendo que esos estados cerebrales no son solo pensamientos, sino registros perfectos. Piensa en ello la próxima vez que le hagas a una IA una pregunta privada.