Enlace al artículo científico, en inglés, para aquellos que quieran profundizar en el tema: "Future of AI Models: A Computational perspective on Model collapse", por T. Satharasi y S. Iyengar. Publicado el 29 de Octubre del 2025.
El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.
El resume se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.
Resumen
Beto
Bienvenidos a un nuevo análisis profundo. Hoy vamos a mirar algo que se siente como una paradoja en el corazón mismo de la revolución de la IA. La idea de que el increíble éxito de la IA generativa podría en realidad estar allanando el camino para su propio colapso.
Alicia
Es un concepto llamado "colapso del modelo", y ese es nuestro foco en esta inmersión profunda.
Beto
Y no vamos a quedarnos solo en la teoría hoy. Vamos a profundizar en un gran estudio computacional nuevo que en realidad sigue este fenómeno.
Alicia
Exacto. Los investigadores han creado esencialmente una señal cuantitativa, casi como un reloj de cuenta regresiva para cuándo la base de conocimiento de la IA podría empezar a comerse a sí misma.
Beto
Y la razón por la que esto es tan urgente es por la pura velocidad de lo que está ocurriendo. Quiero decir, se ve por todas partes. Internet está cambiando fundamentalmente.
Alicia
La saturación está, simplemente es obvia. Veamos los números. Un estudio de 2025 de refs encontró que, fíjense, el 74,2% de las páginas web recién publicadas contienen al menos algo de material generado por IA.
Beto
74%: eso son tres cuartos del contenido nuevo.
Alicia
Y eso significa que algo así como el 30 a 40% de toda la web activa ahora es sintética.
Beto
Vaya. Pero no son solo sitios web. Se está filtrando a nuestro trabajo diario, ¿no?
Alicia
Oh, por completo. En EE. UU., el 52% de los adultos ahora está usando LLMs como ChatGPT para el trabajo.
Beto
¿Para qué tipo de tareas?
Alicia
Ya saben: escribir correos, iniciar investigaciones, incluso programar. Se está convirtiendo en el punto de partida por defecto.
Beto
Y está incluso en áreas de alto riesgo. Vi que el estudio lo encontró en las quejas financieras.
Alicia
Sí. El 18% de los textos de quejas financieras y el 24% de los comunicados de prensa corporativos muestran señales de asistencia de IA.
Beto
Así que el propio lenguaje de las finanzas y la comunicación corporativa está siendo moldeado por esto.
Alicia
Lo está. Y eso ni siquiera toca el lado visual de las cosas. Hay más de 15 mil millones de imágenes generadas por IA disponibles a 2024.
Beto
Así que el mundo digital literalmente está siendo construido por su propia herramienta.
Alicia
Precisamente. Y eso nos lleva directamente al problema central.
Beto
Bien. Desempaquemos esto. ¿Qué es exactamente el colapso del modelo y por qué es una amenaza tanta esa masa de datos sintéticos?
Alicia
Pues el "colapso del modelo", o a veces lo verán llamado "trastorno de autofagia del modelo", es decir, ...
Beto
... el modelo que se devora a sí mismo.
Alicia
Exacto. Es un proceso degenerativo. Imaginen que intentan entrenar un nuevo modelo de IA. Pero casi todos los datos que tienen fueron creados por un modelo de IA anterior.
Beto
Es como hacer una fotocopia de una fotocopia.
Alicia
Esa es una analogía perfecta. Sí. Después de unas cuantas generaciones, la imagen simplemente se degrada hasta convertirse en ruido.
Beto
Pierdes todo el detalle.
Alicia
Pierdes todo. Estos modelos, como los transformers y los RNNs, necesitan enormes y diversas cantidades de datos redactados por humanos para aprender correctamente. Cuando el contenido de IA se convierte en la norma, se crea ese bucle de retroalimentación recursiva.
Beto
Y ese ciclo es lo que mata la diversidad.
Alicia
La erosiona sistemáticamente. La riqueza lingüística y semántica simplemente se desvanece.
Beto
¿Por qué es eso tan malo? Quiero decir, si la IA escribe frases perfectamente buenas, ¿por qué el siguiente modelo no puede aprender de eso? ¿Qué es lo que realmente se rompe?
Alicia
Se vuelve frágil. Pierde cualquier capacidad de verdadera novedad. Y el estudio señala tres efectos negativos específicos.
El primero se llama "aumento del error estadístico".
Beto
¿A qué te refieres?
Alicia
Significa que los modelos se vuelven muy buenos en detectar y repetir los patrones más comunes en los datos. Sobre-muestran lo promedio.
Beto
E ignoran lo raro.
Alicia
Ignoran los "outliers", las frases únicas, las ideas poco frecuentes. Los investigadores tienen un gran nombre para ello: "olvidar las colas de la distribución".
Beto
Esas colas son todo lo interesante y novedoso del conocimiento humano.
Alicia
Exactamente. El modelo aprende la fórmula de un misterio de asesinato, pero olvida lo que hace que una historia sea verdaderamente sorprendente u original. Esas colas desaparecen.
Beto
Y eso lo hace menos útil, obviamente. Solo puede reproducir lo que ya ha visto.
Alicia
Lo que conduce directamente al segundo efecto: "disminución de la generalización". Esto es un enorme riesgo de sobreajuste.
Beto
Bien. Tienes un modelo gigantesco, como GPT‑3, con 175 mil millones de parámetros.
Alicia
Correcto. Pero le estás dando datos que se vuelven cada vez más similares, más homogéneos; la cantidad real de información está encogiéndose.
Beto
Entonces el modelo domina ese mundo sintético muy estrecho.
Alicia
Y luego falla completamente cuando ve datos del mundo real, desordenados y novedosos.
Beto
Ha perdido su flexibilidad.
Alicia
Precisamente. Y el tercer efecto es quizá el más peligroso: la "amplificación de sesgos".
Beto
Exacto. Cualquier basura que estuviera en los datos humanos originales ...
Alicia
... cualquier desinformación, errores factuales, estereotipos, todo se amplifica. El modelo lo aprende, genera nuevo contenido con ese sesgo, lo devuelve a la web.
Beto
Y el siguiente modelo aprende de un conjunto de datos aún más sesgado.
Alicia
Es un problema exponencial. Envenena la fuente para todos los modelos futuros.
Beto
Esto suena como un tren desbocado.
Alicia
Sí.
Beto
Aquí es donde se pone realmente interesante. ¿Cómo miden esto realmente? ¿Cómo cuantificas la diversidad lingüística en toda la internet?
Alicia
Sí, no puedes simplemente contar artículos, ¿cierto? No. Su metodología fue increíblemente cuidadosa.
Beto
¿Qué usaron para los datos?
Alicia
Comenzaron con el Corpus de "Common Crawl", que es este enorme archivo web. Miraron datos desde 2013 hasta 2025.
Beto
Pero internet es un desastre. Diferentes idiomas, diferentes formatos. ¿Cómo lo limpiaron?
Alicia
Esa fue la idea clave. Tuvieron que controlar lo que llamaron "diversidad irreducible".
Beto
Significa la variación natural entre, digamos, un tuit y un artículo científico.
Alicia
Exacto. Así que para aislar el efecto de la IA, hicieron una elección realmente inteligente. Solo usaron artículos en inglés de una única fuente.
Beto
¿Cuál fue?
Alicia
Wikipedia.
Beto
¿Wikipedia, por qué?
Alicia
Porque es un conjunto de datos enorme, pero tiene estándares editoriales relativamente consistentes y un estilo formal. Actúa como una especie de cámara limpia. Minimiza el ruido. Así podían ver realmente la huella de la IA generativa emergiendo con el tiempo.
Beto
Fascinante. Entonces, una vez que tenían este conjunto de datos limpio, ¿cómo midieron el lenguaje en sí?
Alicia
Usaron un poderoso modelo basado en "transformers" para convertir todo el texto en "embeddings" vectoriales de alta dimensión.
Beto
Ok, me perdí. En términos simples.
Alicia
Piénsalo así. Cada artículo se convierte en un único punto en un gigantesco mapa multidimensional.
Beto
Un punto en el espacio matemático.
Alicia
Sí. El modelo captura el significado del artículo, su tono, su estilo, y lo convierte en un conjunto de coordenadas.
Beto
¿Así que puedes medir la distancia entre ellos?
Alicia
Exacto. Y ese es el paso final. Usaron una métrica llamada "similitud del coseno" ("cosine similarity").
Beto
¿Qué te dice eso?
Alicia
Es una puntuación de 0 a 1. Si dos artículos significan básicamente lo mismo, su puntuación está cerca de 1. Si son completamente no relacionados, está cerca de 0.
Beto
Entonces, si la web se está volviendo más homogénea, todos esos puntos en el mapa deberían empezar a agruparse.
Alicia
Y la puntuación de similitud promedio debería subir.
Beto
Esa es la intuición. Bien, vayamos a los resultados. ¿Cómo se veía realmente esa línea de tendencia?
Alicia
Fue una tendencia claramente ascendente. Sin ambigüedad. El lenguaje en Wikipedia se ha vuelto mesurablemente menos diverso año tras año.
Beto
¿Y esto empezó con ChatGPT?
Alicia
En realidad, no. Eso es lo interesante. Vieron un aumento lento y sostenido incluso antes de los grandes LLMs. Creen que modelos más antiguos, como RNNs usados para limpieza de texto simple y traducción, ya estaban teniendo un pequeño efecto homogeneizador.
Beto
Simplemente alisar los bordes un poco.
Alicia
Exactamente. Pero luego vieron el punto de inflexión.
Beto
El momento en que se disparó.
Alicia
Una enorme aceleración entre 2019 y 2021.
Beto
Justo cuando GPT‑2 y luego GPT‑3 se divulgaron al público.
Alicia
Se alinea perfectamente. El momento en que estos modelos potentes empezaron a inundar la web con contenido, la tasa de homogeneización se disparó.
Beto
Eso realmente lo deja claro. Entonces, si esta tendencia continúa, ¿qué significa para el futuro? ¿Dónde llegamos al punto de no retorno?
Alicia
Aquí es donde usaron un modelo de proyección y una función de crecimiento exponencial para trazarlo.
Beto
Ok, danos el titular.
Alicia
Predicen que el ecosistema alcanza un punto crítico de saturación del 90% de similitud. El tiempo estimado de colapso del modelo es el año 2035.
Beto
2035. Eso es dentro de poco más de una década. En términos de desarrollo de IA, es prácticamente mañana.
Alicia
Es un pronóstico contundente. Y significa que las decisiones que tomemos ahora sobre la curación de datos determinarán si la IA es siquiera viable dentro de 10 años.
Beto
¿Y qué pasa después de eso?
Alicia
El modelo proyecta un 95% de saturación para 2042 y casi total uniformidad, 99%, para 2057. La conclusión es que esto no es un problema del futuro. Está ocurriendo ahora.
Beto
Esa línea temporal es mucho para asimilar. Pero deberíamos añadir algo de contexto. Esto es una proyección. ¿Cuáles son las propias limitaciones del estudio? ¿Qué podría cambiar esa fecha?
Alicia
Por supuesto. Y los investigadores son muy claros al respecto. Este es un modelo preliminar. Hay un par de factores grandes que no toma en cuenta.
Beto
¿Como cuáles?
Alicia
Bueno, primero no tiene en cuenta una mayor aceleración.
Beto
¿Te refieres a modelos aún más potentes que entren?
Alicia
Correcto. Vimos ese gran salto con la arquitectura transformer. Si hay otro avance así, la fecha de 2035 podría adelantarse significativamente.
Beto
Y no para bien.
Alicia
No para bien.
Beto
¿Y qué hay de los datos en sí? Usan Wikipedia para mantenerlo limpio. Pero sigue siendo escrito por humanos. No puede ser perfecto.
Alicia
Esa es la segunda limitación. Exacto. Todavía hay algo de diversidad irreducible, cierto ruido en los datos. Los humanos son desordenados. Vieron pequeñas fluctuaciones aleatorias en la línea de tendencia que no pudieron realmente explicar, más que como efectos de muestreo.
Beto
Entonces, reunándolo todo, si los modelos se están comiendo a sí mismos, ¿cuál es la solución? ¿Se trata solo de construir modelos más grandes? ¿Más capacidad de cómputo?
Alicia
No, más cómputo lo empeora. La solución se trata totalmente de las entradas. Se trata de una curación rigurosa y obsesiva de los datos que les damos.
Beto
Humanos en el bucle.
Alicia
Constantemente. Tenemos que preservar la originalidad y la exactitud factual. Y este estudio prueba que necesitamos monitorizar continuamente estas métricas de diversidad. Tiene que convertirse en una parte clave de la seguridad en IA.
Beto
Así que, para resumir, lo que tenemos es una temprana advertencia basada en datos. El propio éxito de la IA está creando este bucle de retroalimentación del conocimiento.
Alicia
Un bucle que matemáticamente garantiza una creciente homogeneidad.
Beto
Con un punto de colapso proyectado alrededor de 2035.
Alicia
Este estudio valida la urgencia. No podemos seguir raspando la web indiscriminadamente. Ese error se acabó. Tenemos que gestionar activamente y preservar la base de conocimiento humano antes de que desaparezca.
Beto
Lo que deja una última pregunta bastante profunda si te pones a pensar. Si nuestros datos de entrenamiento se vuelven totalmente sintéticos, un eco perfecto de su propio pasado, ¿qué idea nueva podría crear jamás una IA? ¿Qué le pasa a la innovación cuando nuestra fuente principal de conocimiento digital se convierte en nada más que un recuerdo de sí misma?