lunes, 8 de junio de 2026

Cuando la IA se construye a sí misma

 
 

Anthropic describe una transición hacia la auto-mejora recursiva, donde la inteligencia artificial gestiona cada vez más su propio ciclo de desarrollo. Los datos indican que la automatización impulsada por la IA ya ha acelerado drásticamente la productividad de la programación y la ejecución de la investigación, igualando o superando con frecuencia las capacidades humanas en tareas especializadas. Si bien esta aceleración tecnológica ofrece enormes beneficios potenciales para la ciencia y la salud, también introduce riesgos significativos en cuanto a la supervisión y el control humanos. La empresa identifica una brecha cada vez menor donde los humanos proporcionan principalmente juicios de alto nivel, aunque incluso esta función podría automatizarse en el futuro. En consecuencia, el texto enfatiza la necesidad urgente de marcos de coordinación y seguridad globales para gestionar un futuro en el que los sistemas de IA podrían diseñar de forma autónoma a sus propios sucesores.

Enlace al artículo, para aquellos que quieran profundizar en el tema: "When AI Builds Itself", por Marina Favaro, Jack Clark y colegas de Anthropic. Publicado en Junio de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Sabes, es salvaje lo rápido que cambia nuestra línea base de lo que se considera normal.

Beto
Oh, absolutamente. Sucede en un abrir y cerrar de ojos.

Alicia
Correcto. Y quiero que imagines, por un segundo, que eres un ingeniero de software, en una empresa tecnológica de primer nivel. Es a mediados de 2026. Te sientas en tu escritorio. Revisas tu código fusionado del trimestre, y te das cuenta de que acabas de enviar ocho veces más código de lo que hiciste solo hace dos años, en 2024. Ocho veces.

Beto
Es un salto masivo.

Alicia
Correcto. Y aquí está el punto clave. A partir de mayo de 2026, más del 80% del código que se está fusionando en la base de código central de tu empresa, ni siquiera fue escrito por ti. No fue escrito por ningún humano. Fue desarrollado enteramente por una IA.

Beto
Y esa clase de métrica, reencuadra por completo nuestra comprensión de la producción humana.

Alicia
Sí, lo hace.

Beto
Estamos viendo un informe exhaustivo, a mediados de 2026, de Anthropic, y está titulado "Cuando la IA se construye a sí misma". Y estos son datos internos, directamente de la frontera absoluta del desarrollo de IA. Nos está dando una mirada sin precedentes, de cómo la IA está siendo utilizada activamente para construir la próxima generación de IA.

Alicia
Y la misión de nuestro análisis profundo hoy es desgranar esto porque, sabes, esto no es solo una lista de nuevas características tecnológicas geniales, o una actualización incremental de software.

Beto
No, no.

Alicia
Estamos viendo una aceleración fundamental en cómo se fabrica la inteligencia. Nos estamos moviendo hacia un concepto llamado "auto-mejora recursiva". Y necesitamos entender lo que eso significa realmente para ti, para tu trabajo y solo para el futuro de cómo resolvemos problemas complejos.

AI_Self-Improvement_Evolution_Timeline_1024.png
Se Cierra el Ciclo: La Aceleración Hacia la Auto-Mejora de la IA

Beto
Exacto. Y para entender por qué este informe específico de Anthropic es tan crítico, primero necesitamos definir claramente ese término, sabes, "auto-mejora recursiva".

Alicia
Correcto. Porque suena un poco a ciencia ficción.

Beto
Lo hace. Pero esencialmente significa un sistema de IA capaz de diseñar y desarrollar totalmente de forma autónoma su sucesor.

Alicia
Vaya. Una inteligencia construyendo una inteligencia mayor.

Beto
Precisamente. Y históricamente, hemos confiado en estos puntos de referencia públicos para adivinar qué tan cerca estamos de ese punto. Pero los puntos de referencia públicos solo nos muestran lo que un modelo puede hacer en el vacío. Tener estos datos internos directos de un laboratorio de IA, nos da una imagen mucho más clara y, honestamente, mucho más urgente.

Alicia
Es como mirar debajo del capó.

Beto
Exacto. Estamos viendo la mecánica real de lo que sucede cuando diriges estos sistemas altamente capaces hacia adentro.

Alicia
De acuerdo. Desglosemos esto porque para entender cómo llegamos a ese asombroso número de productividad de 8x que mencionamos, realmente tenemos que mirar la línea de tiempo del papel de la IA en su propia creación.

Beto
Correcto.

Alicia
La duración de las tareas que estos modelos pueden ejecutar de forma autónoma simplemente ha explotado. El informe traza esto y es casi cómico lo rápido que se mueve.

Beto
Lo es.

Alicia
Como, de vuelta entre 2021 y 2023, lo que ahora se siente como historia antigua, los humanos escribían código manualmente, simplemente tecleando en portátiles. Luego, de 2023 a 2025, tuvimos chatbots.

Beto
La era de Copilot.

Alicia
Sí. Exacto. Le pedirías un fragmento. Lo copias, lo pegas, y le corriges los errores de sintaxis tú mismo.

Beto
Correcto.

Alicia
Pero luego llega 2025 a 2026 y los agentes de codificación comienzan a escribir archivos completos por su cuenta.

Beto
Y ahora tenemos agentes autónomos que no solo están escribiendo el código. Lo están ejecutando ellos mismos. Lo están probando y están delegando horas de trabajo complejo a otros agentes especializados.

Alicia
Es increíble.

Beto
Y la evidencia externa valida perfectamente este cambio interno. La duración de una tarea y el modelo de IA puede completar de forma confiable por sí solo solía duplicarse cada siete meses.

Alicia
De acuerdo.

Beto
Ahora se está duplicando cada cuatro meses.

Alicia
El salto en esos números es difícil de asimilar. Veamos los modelos reales por un segundo. En marzo de 2024, Claude Opus 3 podía manejar tareas que le tomaban al humano unos cuatro minutos.

Beto
Correcto.

Alicia
Un año después, Sonnet 3.7 podía hacer una hora y media de trabajo continuo.

Beto
Sí.

Alicia
Y luego en marzo de 2026, Claude Opus 4.6 está manejando tareas que le toman 12 horas.

Beto
Es exponencial.

Alicia
Es como si hubiéramos pasado, de tener una calculadora elegante en nuestro escritorio, a contratar una gran empresa de contadores autónomos que trabajan un turno continuo de 12 horas mientras nosotros dormimos.

Beto
Esa es una gran manera de decirlo.

Alicia
Pero espera, tengo que poner objeción aquí.

Beto
Bien, adelante.

Alicia
Cualquiera que haya usado un chatbot sabe que puede confundirse o, simplemente perder completamente el hilo.

¿Son estas tareas de 12 horas realmente dando como resultado un trabajo confiable y utilizable? ¿O es que la IA solo está generando 12 horas de alucinaciones altamente confiadas que algún pobre ingeniero humano tiene que pasar 14 horas en desenredar?

Beto
No, es una pregunta muy justa. Y el miedo a la deuda técnica automatizada es una preocupación muy real en la industria ahora mismo.

Alicia
Correcto.

Beto
Pero los datos muestran que esto realmente no son alucinaciones. El informe apunta a datos de MBTR. Son una organización que realiza puntos de referencia para tareas de IA de larga duración. Y encontraron que Claude Mythos Preview podría funcionar de forma confiable por al menos 16 horas.

Alicia
Espera, 16 horas seguidas.

Beto
Seguidas. Y el mecanismo de cómo evita alucinar durante ese largo tramo es fascinante.

Alicia
¿Cómo lo logra?

Beto
Bueno, en lugar de solo generar un largo flujo de texto, el sistema utiliza un bucle agente.

Alicia
¿Qué quiere decir?

Beto
Lo que significa que pausa, consulta sus propios pasos anteriores. Ejecuta una prueba, lee el mensaje de error y luego ajusta su memoria interna basándose en eso.

Alicia
Oh, wow.

Beto
Sí. Así que se está auto-verificando constantemente en la realidad del código que está escribiendo.

Alicia
Así que revisa su propio trabajo. En lugar de simplemente adivinar ciegamente durante horas seguidas.

Beto
Precisamente. Y la limitación aquí es que 16 horas es solo el límite superior de lo que el benchmark de MIR es capaz de medir actualmente.

Alicia
¿Estás en serio?

Beto
Sí. Los modelos están saturando las pruebas más rápido de lo que podemos inventar nuevas. Vemos lo mismo con el SWE bench, que prueba la corrección de errores de software del mundo real.

Alicia
Correcto.

Beto
Y el CORE bench, que prueba la reproducción de artículos científicos complejos. Estos sistemas pasaron de obtener puntuaciones de un solo dígito a saturar completamente los puntos de referencia en menos de dos años.

Alicia
Eso es una locura.

Beto
La IA está haciendo el trabajo de verdad.

Alicia
Muy bien. Así que los puntos de referencia externos demuestran que la IA puede mantenerse despierta y concentrada por 16 horas.

Beto
Sí.

Alicia
Pero pasar una prueba estéril en un entorno controlado, es muy diferente de navegar por una base de código corporativa heredada y desordenada.

Beto
Oh, totalmente diferente.

Alicia
Entonces, ¿qué pasa cuando Anthropic obliga al sistema a arreglar su propio motor? Básicamente estamos viendo el fin de la sudoración y la ingeniería.

Beto
Lo estamos viendo.

Alicia
En marzo de 2026, Anthropic retiró a sus equipos de investigación. El empleado promedio estimó que estaban produciendo aproximadamente cuatro veces más resultados usando Mythos Preview de lo que habrían producido sin ellos.

Beto
Y ese multiplicador de riesgo se traduce en algunos logros reales asombrosos, en gran parte debido a cómo la IA retiene la información.

Alicia
¿Qué quieres decir?

Beto
Hay una anécdota específica de abril de 2026 que ilustra esto perfectamente. Claude envió más de 800 correcciones individuales que redujeron una clase específica de errores de API en un factor de 1000.

Alicia
Un factor de 1000.

Beto
Sí. Y el ingeniero humano que supervisaba este proceso estimó que a una persona le tomaría cuatro años hacer ese mismo trabajo.

Alicia
Cuatro años, y Claude lo hizo en ... lo que son como un par de horas.

Beto
Exacto. Y piensa en por qué los errores de API son tan difíciles para los humanos.

Alicia
Correcto.

Beto
Tienes que navegar por una docena de archivos interconectados. Rastreas datos que fluyen a través de diferentes sistemas. Y si te distraes con un correo electrónico, ...

Alicia
... pierdes todo tu hilo de pensamiento.

Beto
Sí. La carga cognitiva es demasiado alta. Pero un modelo de IA puede retener toda la arquitectura en su memoria activa simultáneamente.

Alicia
Y no olvida dónde estaba.

Beto
Correcto. Ve las dependencias ocultas como un mapa, lo que facilita detectar dónde un cambio en un archivo rompe una integración en otro.

Alicia
Y aparentemente la calidad del código aguanta incluso cuando las cosas se vuelven totalmente caóticas.

Beto
Sí.

Alicia
El informe señala que en las tareas abiertas más complejas, aquellas donde incluso el ingeniero humano no está totalmente seguro de cómo debería verse la respuesta final, la tasa de éxito de Claude alcanzó el 76% en mayo de 2026.

Beto
Lo cual es increíblemente alto para ese nivel de ambigüedad.

Alicia
Correcto. Y hubo este incidente donde una actualización rutinaria comenzó a colapsar decenas de miles de trabajos de entrenamiento.

Beto
Oh, escenario de pesadilla total.

Alicia
Exacto. Un ingeniero señaló el incidente en vivo con básicamente solo algo de contexto de texto y acceso a clúster.

Beto
Y aquí es donde el mecanismo de depuración de la IA se vuelve verdaderamente sobrehumano. Un ingeniero humano en pánico, probaría una hipótesis a la vez. Es un proceso lineal.

Alicia
Pero Claude probó sistemáticamente la configuración del entorno, aisló esa bandera de depuración increíblemente oscura que estaba causando el fallo, la reprodujo y confirmó la solución.

Beto
En dos horas.

Alicia
Dos horas. Eso normalmente serían dos o tres días de trabajo humano de pánico.

Beto
Fácilmente.

Alicia
Porque, a diferencia del humano, Claude podía activar instantáneamente micro-entornos paralelos, ejecutar docenas de scripts de depuración al mismo tiempo, y simplemente agregar los resultados en segundos.

Beto
Sí.

Alicia
El informe incluso señala que una revisión automatizada de Claude sobre la base de código histórica de Anthropic habría detectado aproximadamente un tercio de los errores que causaron incidentes pasados.

Beto
Es sistemáticamente mejor encontrando la aguja en el pajar porque puede mirar cada pieza del paja simultáneamente.

Alicia
Pero seguramente esa métrica de líneas de código que hablamos al principio de la inmersión es un poco engañosa.

Beto
¿Cómo es eso?

Alicia
Bueno, si un humano produce código tan rápido, suele ser una pesadilla hinchada de mantener. ¿No se considera históricamente que medir líneas de código es una métrica terrible para la productividad real?

Beto
Sí, absolutamente.

Alicia
Se siente como si solo estuviéramos midiendo qué tan rápido puede teclear la IA, no cuánto valor está creando realmente.

Beto
Lo fascinante aquí es que Anthropic realmente afirma exactamente lo mismo en su informe.

Alicia
Oh, ¿de verdad?

Beto
Sí, admiten que las líneas de código es una medida imperfecta fuertemente sesgada hacia la cantidad, sobre la calidad.

Alicia
OK.

Beto
Pero aquí está el matiz crítico. La calidad ya se ha puesto al día.

Alicia
Lo ha hecho.

Beto
Hay un consenso amplio en Anthropic de que el código escrito por Claude alcanzó la paridad de calidad con el código escrito por humanos a finales de 2025.

Alicia
Vaya.

Beto
Y más importante aún, esperan que el código generado por la IA sea estrictamente mejor que el código humano dentro del año.

Alicia
Así que estamos pasando, de un mundo de creación de código, a una curación de código.

Beto
Exacto.

Alicia
El papel del humano en la ingeniería está cambiando rápidamente, alejándose de escribir cualquier cosa y moviéndose puramente hacia una función de revisión y supervisión.

Beto
Esa es la nueva realidad. Tú curas el resultado. No lo creas.

Alicia
Pero espera, si el IDE está escribiendo código que es estrictamente mejor que el código humano y el humano es solo un revisor, ¿cómo puede un humano revisar código de manera efectiva, si no hiciera la investigación subyacente para entender el problema en primer lugar?

Beto
Ese es un buen punto.

Alicia
Quiero decir, la ingeniería se trata de ejecutar un objetivo conocido. Pero ¿qué pasa con la ciencia real? ¿Está la IA tomando el control de la investigación?

Beto
Aquí es donde comenzamos a ver la verdadera base de la auto-mejora recursiva. El informe detalla cómo Claude realmente ejecuta experimentos.

Alicia
OK.

Beto
Le dan una tarea: "optimizar el código que entrena un pequeño modelo de IA, hacerlo funcionar lo más rápido posible, mientras sigue pasando las comprobaciones de corrección".

Alicia
Parece sencillo.

Beto
Históricamente, un investigador humano altamente cualificado podría lograr una aceleración de 4x en esta tarea en unas cuatro a ocho horas.

Alicia
OK.

Beto
Para abril de 2026, Mythos Preview estaba logrando una aceleración de 52x.

Alicia
52x.

Beto
Sí. En menos de un año, la IA pasó, de ser una asistente útil, a ser completamente sobrehumana y ejecutar un bucle experimental.

Alicia
Una aceleración de 52x. Eso es honestamente, es difícil de procesar.

Beto
Lo es.

Alicia
Y no solo está optimizando código existente. Ejecutaron este experimento de investigación de seguridad increíblemente complejo y abierto para ver si un modelo débil podría supervisar a uno fuerte.

Beto
Correcto.

Alicia
Durante el transcurso de 800 horas y unos $18,000 en costos de cómputo, estos agentes de Claude diseñaron los experimentos ellos mismos.

Beto
Piensa en esa escala.

Alicia
Pero ¿cómo no se quedaría atascada en un bucle de probar la misma idea fallida durante 800 horas?

Beto
Se reduce a la memoria jerárquica y a las transferencias de agentes.

Alicia
OK, ¿qué significa eso?

Beto
El sistema utiliza principalmente un agente gestor que tiene el objetivo de investigación general. Este gestor delega tareas específicas de codificación, o prueba, a agentes trabajadores.

Alicia
Como un laboratorio real.

Beto
Exacto. Y cuando un agente trabajador llega a un callejón sin salida, escribe un resumen de lo que falló y se lo pasa de vuelta al gestor.

Alicia
Oh, eso es inteligente.

Beto
El gestor luego actualiza el cuaderno global. Así que durante 800 horas, no solo están probando cosas aleatorias. Están explorando sistemáticamente un espacio de hipótesis, probando ideas, compartiendo hallazgos con otros agentes, e iterando.

Alicia
Y los resultados realmente hablan por sí mismos. Los agentes terminaron recuperando el 97% de la brecha de rendimiento en esta tarea.

Beto
Sí.

Alicia
Cuando dos investigadores humanos probaron exactamente lo mismo durante una semana, solo recuperaron el 23%.

Beto
La métrica más reveladora aquí, sin embargo, podría ser lo que el informe llama "gusto por la investigación".

Alicia
Gustos de investigación.

Beto
Sí. Cuando estás haciendo investigación novedosa, las cosas salen mal. Te caes en un agujero de conejo. Miraron sesiones donde los investigadores humanos se desviaron del camino. Y probaron si una IA podía elegir un siguiente paso mejor para poner la investigación de nuevo en marcha.

Alicia
OK, así que desarrollar gustos por la investigación es como navegar por un laberinto masivo.

Beto
Sí.

Alicia
En 2025, la IA solo se estaba topando al azar con paredes. Pero para 2026, es como si la IA hubiera desarrollado una brújula interna, reconociendo los patrones sutiles de un callejón sin salida antes de que siquiera camine por el pasillo.

Beto
Esa es una forma perfecta de visualizarlo. A finales de 2025, la IA eligió el mejor camino, el 51% de las veces, básicamente un lanzamiento de moneda.

Alicia
Correcto.

Beto
Para abril de 2026, Mythos Preview superó la elección humana el 64% de las veces.

Alicia
Vaya.

Beto
La IA está desarrollando un juicio real.

Alicia
Es como si estuviéramos haciendo la transición a ser ejecutivos de cine.

Beto
Ejecutivos de cine.

Alicia
Sí. Ya no operas la cámara. No ajustas la iluminación. Ni siquiera escribes el guión. Solo estás sentado en una gran silla, iluminando los proyectos con luz verde.

Beto
Esa es una analogía muy buena.

Alicia
Pero sigo pensando en el costo cultural que esto implica. Piensa en tu propio lugar de trabajo. Piensa en la última vez que ayudaste a un compañero a salir de un aprieto. Pasas horas desenredando un desorden juntos. Le debes un café. Construyes confianza.

Beto
El elemento humano.

Alicia
Exacto. El informe llama a esto "la economía de los regalos". ¿Qué pasa con la cultura de tu empresa cuando esa fricción se elimina por completo?

Beto
Desaparece.

Alicia
Hay una cita de un empleado que simplemente sudaba pavor existencial. Dijeron que cuando la IA funciona perfectamente, se sienten totalmente innecesarios.

Beto
Sí.

Alicia
Y cuando las cosas se rompen, se dan cuenta de que han perdido completamente el contexto para siquiera saber cómo arreglarlas.

Beto
Es un cambio psicológico profundo. Los humanos ahora están aferrándose a la idea de que nuestra ventaja comparativa es ver el panorama general.

Alicia
Correcto. Esos eran los visionarios.

Beto
Exacto. Nos decimos a nosotros mismos que la IA puede manejar los detalles, pero tenemos la visión general. Pero lo que muestran los datos sobre gustos por la investigación es que la brecha en el pensamiento de panorama general se está cerrando rápidamente.

Alicia
Eso es aterrador.

Beto
A medida que las ventanas de contexto y el razonamiento de la IA crecen, su imagen también se hace más grande.

Alicia
Lo que nos obliga a preguntarnos a dónde conduce esto realmente. Con los humanos siendo empujados cada vez más arriba en la cadena de abstracción, de la codificación a la investigación, a simplemente dar direcciones, ¿cuál es el objetivo final?

Beto
Bueno, Anthropic esboza tres futuros posibles para el trabajo y la sociedad.

Alicia
OK, veamos el escenario uno, la curva S. Esta es la idea de que las tendencias se estancan y las capacidades de la IA se estancan.

Beto
Sí. Y el mecanismo para un estancamiento podría ser físico o arquitectónico. Podríamos simplemente quedarnos sin energía para alimentar estos centros de datos o podríamos chocar contra los límites de la arquitectura transformer en sí misma.

Alicia
Espera, ¿qué hace que la arquitectura transformer sea un límite?

Beto
Bueno, el transformer es la estructura subyacente de los modelos de lenguaje actuales.

Alicia
Correcto.

Beto
Pero tiene algo llamado "límite de escalado cuadrático". A medida que aumentas la cantidad de contexto, como el tamaño de la base de código o la longitud de la tarea, la potencia computacional requerida para procesarlo no solo se duplica. Se cuadruplica.

Alicia
Oh, vaya.

Beto
Eventualmente, la memoria del modelo se degrada y simplemente cuesta demasiada computación mantener el contexto. Así que el desarrollo podría chocar contra un muro.

Alicia
Pero incluso si choca contra un muro hoy, el impacto ya es asombroso.

Beto
Absolutamente.

Alicia
El informe menciona Project Glasswing usando el modelo Mythos Preview actual, que encontró más de 10,000 vulnerabilidades de software críticas en los sistemas más importantes del mundo en solo semanas. Piensa en eso. Incluso si la IA nunca se vuelve más inteligente de lo que es a mediados de 2026, el cuello de botella ya se ha desplazado de encontrar problemas a parcharlos.

Beto
Cierto. Pero Anthropic considera que ese primer escenario es poco probable.

Alicia
OK.

Beto
El escenario dos es "la eficiencia compuesta". En este mundo, el desarrollo de la IA se vuelve en su mayor parte automatizado y los humanos existen solo para dar dirección.

Alicia
Así que son equipos supercargados.

Beto
Exacto. Las implicaciones para la economía en general son masivas. Una empresa de 100 personas podría operar con la producción de una organización de 10,000 personas porque cada empleado se sienta en la cima de una pirámide de agentes autónomos.

Alicia
Y luego está el escenario tres, "la auto-mejora recursiva completa".

Beto
Este es el punto más grande.

Alicia
Es el mundo donde la IA diseña totalmente sus propios sucesores. El ritmo del avance ya no está determinado por el pensamiento humano. Está determinado enteramente por cuánta potencia computacional tengas. Los humanos son movidos totalmente a la supervisión y la validación. Los humanos podrían conducir a esas máquinas de gracia amorosa, grandes avances en ciencia y medicina, o podría conducir a una pérdida total de control si los protocolos de alineación de seguridad fallan.

Beto
Esto plantea una pregunta importante sobre los límites de la aceleración en los escenarios dos y tres.

Alicia
OK.

Beto
Tenemos que mirar a la ley de Amdahl. Es un concepto de la informática, pero se aplica perfectamente a las organizaciones humanas que enfrentan una automatización rápida.

Alicia
¿Qué es?

Beto
La ley de Amdahl establece que acelerar una parte de un proceso solo mueve el cuello de botella a otro lugar.

Alicia
OK. Tiene sentido.

Beto
Si una IA puede generar 10,000 líneas de código perfecto en un minuto, pero un humano todavía tiene que revisarlo para asegurarse de que las líneas cumplan con los objetivos de la empresa, ...

Alicia
Entonces la revisión humana se convierte en el límite de velocidad definitivo.

Beto
Exacto. No has hecho todo el sistema exponencialmente más rápido. Solo has atascado otra parte de la tubería.

Alicia
Me encanta ese concepto. Es como ensanchar una autopista a 10 carriles solo para crear un atasco de tráfico absolutamente épico porque dejaste una sola rampa de salida en el extremo.

Beto
Esa es una analogía perfecta.

Alicia
Y piensa en tu propio trabajo por un segundo. Si tuvieras un ejército de agentes haciendo toda tu ejecución, redactando todos tus correos electrónicos, escribiendo todos tus informes, analizando todos tus datos, ¿qué nuevo cuello de botella te convertirías?

Beto
Correcto.

Alicia
¿Tendrías siquiera la capacidad cognitiva para revisar y aprobar todo ese resultado?

Beto
Casi seguro que no, por lo que en el escenario tres, donde el laboratorio está literalmente funcionando a la velocidad de cómputo, la fricción entre la velocidad de la IA y el procesamiento humano, se convierte en un problema social crítico. Si ocurre la auto-mejora recursiva, la IA avanza más rápido de lo que los humanos pueden verificar su seguridad o utilidad. ¿Cómo navegamos de forma segura esta colisión?

Alicia
Bueno, la solución propuesta por Anthropic es una desaceleración o pausa coordinada y verificable a nivel global para el desarrollo de la IA.

Beto
Básicamente, frenar, para que la sociedad puede alcanzar a la tecnología.

Alicia
Pero son muy claros, en que una pausa unilateral, donde solo una empresa decida detenerse por la bondad de su corazón, no funciona. Si Anthropic pausa, solo cambia quién está a la cabeza.

Beto
Requiere un tratado coordinado, muy parecido a los tratados de armas nucleares del siglo XX.

Alicia
Pero verificar una pausa de la IA, es significativamente más difícil que contar silos nucleares, ¿cierto?

Beto
Oh, absolutamente. El entrenamiento para los modelos de IA simplemente utiliza enormes cantidades de potencia informática, que es de propósito general.

Alicia
Correcto.

Beto
Un centro de datos entrenando superinteligencia, se ve exactamente igual desde fuera que un centro de datos renderizando una película blockbuster, o gestionando la logística global.

Alicia
Eso es salvaje.

Beto
Las entradas son fáciles de ocultar, y el incentivo para desertar en secreto es enorme, porque el primero en lograr la auto-mejora recursiva, básicamente se lleva todo.

Alicia
Anthropic dice que están organizando conversaciones en los próximos meses con responsables políticos, sociedad civil y otros laboratorios de IA, para intentar construir estos sistemas de verificación, antes de que sea demasiado tarde.

Beto
Es una tarea grande.

Alicia
Pero aquí es donde se pone realmente interesante, porque la tensión central de esta inmersión profunda no es solo sobre tratados internacionales, o el seguimiento de la potencia informática. Se trata del ritmo de tu vida diaria, que finalmente choca de frente con un laboratorio de IA funcionando a la velocidad de la luz.

Beto
Estamos mirando un futuro cercano donde el "99% de la sudoración que hace la genialidad" como dijo Thomas Edison, está totalmente automatizada. La lucha del descubrimiento, las largas noches en el laboratorio ejecutando experimentos fallidos, los dolores de probar y error, todo podría ser subcontratado a agentes de auto-mejora recursiva.

Alicia
Y eso nos deja con la profunda pregunta que masticar mientras cerramos hoy. Si la auto-mejora recursiva realmente funciona, si inevitablemente resuelve nuestros desafíos científicos, médicos y de ingeniería sin que tengamos que levantar un dedo, ¿cómo encontrarán los seres humanos significado en su autoestima?

Gran parte de la experiencia humana está definida por la lucha por comprender el mundo y construir cosas para mejorarlo.

Beto
Así es, realmente.

Alicia
Si ya no somos los constructores, si ese ingeniero de software 8x de repente es solo un espectador viendo cómo el código vuela, ¿en quién nos convertiremos?

viernes, 5 de junio de 2026

LLMs en la historia conceptual computacional de la ciencia

 
 

Este artículo examina la evolución de la historia conceptual computacional en los campos de la historia, la filosofía y la sociología de la ciencia. Los autores abordan desde los primeros métodos digitales, como la co-citación y el modelado de temas, hasta la integración contemporánea de los Modelos de Lenguaje a Gran Escala (LLM). Al comparar modelos basados en codificadores, como BERT, con modelos decodificadores generativos, el texto destaca cómo las incrustaciones contextualizadas permiten un seguimiento más preciso del cambio semántico y la polisemia. Si bien los LLM ofrecen nuevas y potentes formas de analizar el lenguaje científico especializado a gran escala, los autores enfatizan que estas herramientas también heredan problemas tradicionales relacionados con el sesgo del corpus y la necesidad de una interpretación cualitativa. En última instancia, el artículo aboga por una metodología híbrida que combine el aprendizaje automático avanzado con una sólida base histórica para comprender mejor cómo se transforman los conceptos científicos a lo largo del tiempo.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Computational conceptual history of scientific concepts", por Michael Zichert y Arno Simons. Publicado el 2 de Junio de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Sabes, es curioso cómo una sola palabra puede cambiar completamente su identidad con el tiempo.

Beto
Oh, sí.

Alicia
Por ejemplo, toma la palabra "cool" (genial). Si tuvieras una máquina del tiempo y te hubieras teletransportado a la década de 1920, "cool" era literalmente solo una temperatura.

Beto
Correcto. Solo el clima.

Alicia
Sí. Exacto. Pero luego, para la década de 1940, es el estilo específico del jazz. Y continúa hasta hoy, y es solo un término genérico de aprobación. Como dices, "cool", y todos los que escuchan solo asienten.

Beto
Simplemente saben lo que quieres decir.

Alicia
Correcto. Pero rara vez nos detenemos a pensar en la maquinaria cultural invisible que realmente cambió esa definición.

Beto
Bueno, porque el significado no es un objeto fijo. Y depende enteramente de la época, y de la cultura de las personas que lo usan. Es un objetivo en movimiento.

Alicia
Sí.

Beto
Está constantemente siendo renegociado.

Alicia
Así es. Ahora, quiero que te imagines que tomas exactamente esa misma máquina del tiempo lingüística. Pero en lugar de rastrear la cultura pop, estás rastreando conceptos científicos duros y contundentes.

Beto
Lo cual es un juego completamente diferente.

Alicia
Correcto. Porque ¿cómo ocurre un cambio de paradigma masivo en la física o la biología? ¿Cómo pueden los expertos estar de acuerdo sobre lo que significa una palabra de moda específica cuando el suelo bajo sus pies está cambiando constantemente?

Beto
Esa es la gran pregunta.

Alicia
Así que hoy, nuestra misión para esta inmersión profunda es observar algunas investigaciones fascinantes sobre cómo los historiadores de la ciencia están utilizando la inteligencia artificial para mapear la evolución oculta del conocimiento humano.

Beto
Es material realmente increíble.

Mapping_the_Evolution_of_Ideas_1024
Mapeando la Evolución de las Ideas: Cómo los LLMs están Transformando la Historia Conceptual

Alicia
Lo es. Y si alguna vez te has preguntado cómo el lenguaje realmente moldea nuestra realidad, esto te dará una lente completamente nueva a través de la cual mirar.

Beto
Sí. Y el campo en el que estamos sumergiéndonos se conoce como la historia, filosofía y sociología de la ciencia, o HPSS.

Alicia
HPSS, entendido.

Beto
Y durante décadas, rastrear un concepto científico era un proceso manual y dolorosamente lento. Quiero decir, los académicos pasaban años solo leyendo a través de un archivo físico para ver cómo transformaba una idea.

Alicia
Oh, ni siquiera puedo imaginar pilas de diarios polvorientos.

Beto
Exacto. Pero ahora, con los modelos de lenguaje grande, pueden analizar millones de documentos casi instantáneamente.

Pero para entender por qué este nuevo enfoque de IA es tan revolucionario, realmente tenemos que apreciar los métodos bastante directos que los historiadores se vieron obligados a usar, antes de que las computadoras pudieran comprender el contexto.

Alicia
Correcto. Vamos a desglosar la forma antigua primero, porque si no tienes una máquina que pueda leer realmente una oración, ¿cómo se supone que vas a mapear la historia de una idea a través de un millón de artículos publicados?

Beto
Sí. Empieza con una regla fundamental establecida por esta tradición alemana profundamente arraigada llamada "historia conceptual", o "Begriffsgeschichte".

Alicia
Begriffsgeschichte, OK.

Beto
Sí. Y el principio central allí, basándose en pensadores como Kuhn y Fleck, es que existe una brecha masiva y fundamental entre una sola palabra y un concepto complejo.

Alicia
Espera, ¿entonces la palabra y el concepto no son lo mismo?

Beto
Para nada. Una palabra es solo la tinta física en la página. El concepto es el significado históricamente estratificado y socialmente situado detrás de ella.

Así que una sola palabra puede llevar múltiples conceptos diferentes, dependiendo de quién esté hablando.

Alicia
De acuerdo.

Beto
Y por otro lado, un solo concepto puede expresarse a través de una docena de palabras diferentes.

Alicia
Oh, de acuerdo. Así que es como si la palabra fuera el recipiente, pero el concepto fuera la carga, y la carga puede cambiar en cada puerto.

Beto
Eso es una manera brillante de decirlo. Sí.

Alicia
De acuerdo, ¿cómo rastrearon la carga en el pasado?

Beto
Bueno, en los primeros días de los métodos digitales, así que piensa en la década de 1970 y 80: los historiadores intentaron rastrear la carga simplemente contando los recipientes.

Empezaron con algo llamado "análisis de co-citación", iniciado por Small en 1973.

Alicia
¿Y qué es eso exactamente?

Beto
La suposición era que los artículos altamente citados funcionaban como sustitutos físicos para los conceptos. Así que si el artículo A y el artículo B eran citados constantemente por científicos posteriores, ...

Alicia
... entonces deben estar relacionados.

Beto
Correcto. Los investigadores infieren que había un vínculo conceptual entre ellos, incluso si una computadora no podía leer el texto real.

Alicia
Eso se siente como juzgar una amistad basándose enteramente en quién asiste a las mismas fiestas.

Beto
Sí, eso es bastante preciso.

Alicia
Como si dos músicos siempre estuvieran colaborando en álbumes, probablemente compartan un estilo musical, pero no estás escuchando realmente la música para confirmarlo, solo estás rastreando los metadatos.

Beto
Exacto. Lo que deja mucho margen para el error.

Así que una década después, alrededor de 1983, Callon y su equipo se acercaron un paso más al texto con "el análisis de co-palabras", "co-word analysis".

Alicia
De acuerdo, así que mirar palabras en lugar de citas.

Beto
Sí. En lugar de rastrear citas, rastrean la co-ocurrencia de palabras clave. Si las palabras "cuántico" y "entrelazamiento" comenzaran a aparecer juntas en los mismos párrafos en la década de 1930, puedes mapear matemáticamente la aparición de un nuevo campo de investigación.

Alicia
Eso tiene sentido. Y esto eventualmente evolucionó hacia la era de "las incrustaciones de palabras estáticas" ("static word embeddings"), que fueron el primer gran intento de convertir el lenguaje en matemáticas. Cosas como "palabra-a-vector", "word2vec".

Ahora, sé de nuestras fuentes que las incrustaciones de palabras estáticas son donde todo este esfuerzo choca contra un muro de ladrillos masivo.

Beto
Oh, absolutamente. Y es por cómo tratan mecánicamente el lenguaje. Un modelo de incrustación estática toma una biblioteca completa de texto y le asigna un y solo un vector matemático a cada palabra única.

Alicia
Un vector es como una coordenada.

Beto
Correcto. Podrías pensar en un vector como un conjunto específico de coordenadas en un espacio semántico gigante y multidimensional. Las palabras con significados similares obtienen coordenadas que las colocan cerca unas de otras.

Alicia
Espera, pero si estás asignando una única coordenada fija a una palabra, ¿no estás perdiendo todo el punto de la máquina del tiempo?

Beto
Sí.

Alicia
Porque como una palabra como "materia" significa algo completamente diferente en un artículo de física teórica, frente a un documento legal.

Beto
Precisamente.

Alicia
O toma la palabra "carga" ("charge"). ¿Es una carga de batería? ¿Una acusación criminal? ¿O como un toro que carga contra ti?

Beto
Sí, exactamente.

Alicia
¿No es que este enfoque de un solo vector simplemente promedia todas esas definiciones muy diferentes y las mezcla en una sopa confusa?

Beto
Crea una sopa total.

Alicia
Sí.

Beto
Estás describiendo exactamente el problema de la polisemia. Palabras que tienen múltiples significados. Los modelos estáticos aplanan la polisemia.

Alicia
Vaya.

Beto
Y esto no es solo ruido teórico. Quiero decir, corrompe completamente la investigación histórica.

Alicia
¿De verdad? ¿Cómo?

Beto
Bueno, hubo un estudio de Sommerauer y Fokkens en 2019. Estaban rastreando un concepto sociológico complejo, el racismo. Y probaron que los modelos estáticos producen conclusiones históricas enormemente divergentes solo basándose en cómo ajustas la arquitectura del modelo.

Alicia
Oh, vaya.

Beto
Sí. Porque el modelo no pudo separar los diferentes contextos en los que se usó una palabra, "la verdad", en fin, su salida fue increíblemente frágil e inútil en gran medida.

Alicia
¿Entonces la herramienta estaba fundamentalmente rota para el trabajo que se le contrató?

Beto
Básicamente, sí.

Alicia
Quiero decir, no puedes rastrear la evolución sutil de una idea si tu algoritmo insiste en que una palabra solo significa una cosa. Los investigadores necesitaban desesperadamente una herramienta que entendiera el contexto.

Beto
Lo que nos lleva a la revolución de los modelos de lenguaje grande.

Alicia
Correcto.

Beto
Para entender cómo resolvemos el "problema de la sopa", tenemos que mirar bajo el capó de la arquitectura transformadora ("transformer architecture") que alimenta la IA moderna. Y dentro de este espacio, hay una división crucial entre los modelos generativos y los modelos codificadores ("encoder models").

Alicia
De acuerdo. Así que los modelos generativos son los nombres más exagerados, ¿correcto?

Como los chatbots. Todo el mundo usa para escribir correos electrónicos o hacer una lluvia de ideas.

Beto
Exacto.

Alicia
Estos están entrenados para adivinar constantemente la siguiente palabra en una secuencia. Simplemente avanzan. Pero asumo que los historiadores necesitan un tipo de motor diferente si quieren analizar el pasado sin simplemente generar nuevo texto.

Beto
Correcto. Los historiadores dependen en realidad en gran medida de los modelos codificadores, un ejemplo principal es BERT. Sí. Y la diferencia mecánica es profunda. Un modelo generativo adivina la siguiente palabra, y el modelo codificador lee bidireccionalmente.

Alicia
Espera, ¿bidireccionalmente?

Beto
Sí. Mira todas las palabras a la izquierda y todas las palabras a la derecha de la palabra objetivo simultáneamente. Absorbe toda la oración antes de decidir qué significa cualquier palabra individual.

Alicia
Oh, así que es como mirar en el espejo retrovisor y en el parabrisas al mismo tiempo.

Beto
Esa es una analogía perfecta.

Alicia
Sí.

Beto
Y esto crea lo que llamamos incrustaciones de palabras contextualizadas ("contextualized word embeddings" o CWEs). Esta es la llave mágica que desbloquea la historia conceptual.

Alicia
Porque finalmente ve el contexto.

Beto
Exacto. En lugar de que una palabra obtenga una coordenada fija única para toda una biblioteca de libros, cada vez que aparece una palabra, el modelo le asigna una coordenada única basada enteramente en el sentido circundante.

Alicia
Oh, eso cambia completamente el juego.

Beto
De verdad que sí.

Alicia
Así que las incrustaciones estáticas son como una lista de teléfono que enumera a "John Smith" como una sola persona. Simplemente promedias sus vidas. Pero las incrustaciones contextualizadas son como mirar sus perfiles de redes sociales para darte cuenta de que, "oh, un John Smith es un panadero en Ohio". Y "otro John Smith es un astronauta".

Beto
Sí.

Alicia
Comparten el nombre físico, el recipiente. Pero el contexto circundante prueba sus entidades totalmente diferentes.

Beto
Y como estos modelos codificadores ahora pueden separar matemáticamente al astronauta del panadero, los investigadores están haciendo cosas increíbles.

Alicia
¿Como qué? Dame algunos ejemplos.

Beto
Veamos cómo están midiendo la rigidez de la ciencia. Recientemente, en un artículo de 2026 de Ahmadi, los investigadores desarrollaron una métrica llamada "puntuación de uniformidad semántica" ("semantic uniformity score") usando estos vectores contextualizados.

Alicia
Puntuación de uniformidad semántica.

Beto
Sí, querían probar cuán consistentemente usan diferentes disciplinas científicas su propia terminología.

Alicia
Así que poniendo campos enteros de estudio a una prueba de estrés lingüístico, ¿cómo mides eso matemáticamente?

Beto
Bueno, visualizas ese espacio semántico multidimensional del que hablamos antes. Los investigadores tomaron millones de artículos de revistas de astrofísica y los compararon con artículos de sociología.

Alicia
Bien, campos muy diferentes.

Beto
Demasiado. Y graficaron las coordenadas para la terminología central en ambos campos. En astrofísica, los vectores contextuales para un término específico se agruparon en una esfera pequeña increíblemente apretada y densa.

Alicia
Significa que todos están usando la palabra exactamente de la misma manera.

Beto
Correcto. El lenguaje era altamente uniforme, independientemente de quién escribiera el artículo. Pero en sociología, los vectores para un solo término estaban dispersos en una nube grande y desordenada.

Alicia
Oh, vaya. Significa que los términos de sociología son muy fluidos y dependen del subgénero específico del artículo, mientras que la astrofísica fija sus definiciones con firmeza.

Beto
Exacto.

Alicia
Puedes medir literalmente la rigidez lingüística de un campo científico mirando la forma de su nube de datos.

Beto
Le da a los historiadores un mapa tangible del consenso humano.

Y en otra aplicación fascinante, esto es de Simons en 2026, rastreaba la palabra "plank" en la literatura de astrofísica durante un período de 30 años, de 1990 a 2022.

Alicia
"Plank" como en "Max Plank".

Beto
Bueno, mira, Plank es altamente polisémico. Se refiere a la persona histórica Max Plank, la misión del satélite Plank, y la constante de Plank en la mecánica cuántica.

Alicia
Ah, correcto, por supuesto.

Beto
Usando un modelo codificador especializado, los investigadores pudieron agrupar perfectamente estas diferentes definiciones y ver cómo cambiaba la distribución.

Alicia
Así que pueden observar realmente cómo el concepto del satélite domina la literatura durante sus años de lanzamiento mientras la figura histórica se desvanece en el fondo.

Beto
Sí. Y podemos llevarlo aún más atrás. Zichert y sus colegas en 2025 rastrearon el concepto de "la partícula virtual" en la física durante todo un siglo, comenzando en 1924.

Alicia
¿Un siglo?

Beto
Un siglo completo. Al rastrear las coordenadas contextualizadas de la palabra "virtual", los historiadores mapearon las décadas exactas en las que el concepto era muy volátil y ferozmente debatido, frente al momento en que la comunidad científica finalmente se puso de acuerdo en un significado estabilizado.

Alicia
Eso es salvaje. Es como ver el ciclo de vida de un hecho científico desarrollarse a toda velocidad.

Beto
Y de verdad lo es.

Alicia
Es la máquina del tiempo definitiva. Pero tengo que frenar aquí por un segundo.

Beto
Oh, de acuerdo.

Alicia
Porque sí, las incrustaciones contextualizadas son un salto masivo hacia adelante para resolver el problema de la sutileza. Finalmente podemos separar todos los diferentes significados de una palabra, pero todavía estamos lidiando con algoritmos.

Beto
Lo estamos.

Alicia
Y los algoritmos traen su propia carga al cronograma.

Beto
Traen una tremenda cantidad de carga. Introducen lo que podríamos llamar "el fantasma en la máquina". Quiero decir, hemos celebrado el triunfo de estos modelos, pero tenemos que confrontar los sesgos ocultos que acechan dentro de su arquitectura.

Alicia
Porque un LLM no es una pizarra en blanco.

Beto
Para nada. Hereda la visión del mundo de su enorme conjunto de datos de preentrenamiento opaco.

Alicia
Correcto. Así que todos los millones de páginas aleatorias de internet, artículos modernos de Wikipedia y libros contemporáneos, fueron alimentados antes de que el historiador siquiera tuviera acceso a ellos.

Beto
Exacto. Lo que lleva a una grave vulnerabilidad metodológica llamada "adaptación temporal". O simplemente el "peligro del anacronismo".

Alicia
Anacronismo.

Beto
Sí. La mayoría de los LLM están fuertemente ponderados hacia el lenguaje contemporáneo del siglo XXI. Así que si usas un modelo moderno para leer un texto de física de la década de 1920, el modelo proyectará inconscientemente significados modernos sobre esas palabras históricas.

Alicia
Oh, veo. Juzga la década de 1920 a través de una lente moderna.

Beto
Correcto. Está creando efectivamente una alucinación de un contexto moderno que simplemente no existía en ese momento.

Alicia
Así que si un artículo de la década de 1920 usa una frase que tenía un significado muy específico y estrecho hace un siglo, la IA podría malinterpretarla por completo solo porque esa frase se usa de manera diferente en internet hoy.

Beto
Exacto. El modelo es funcionalmente ciego al tiempo.

Alicia
Eso suena como un gran problema.

Beto
Lo es. Y está agravado gravemente por el problema de los datos históricos dispersos.

Alicia
Porque simplemente no tenemos tanto material digitalizado de esa época.

Beto
Precisamente. Cuanto más atrás viajas en el tiempo, menos textos digitalizados tenemos disponibles. La IA moderna necesita enormes cantidades de datos para comprender el contexto. Y los archivos de hace un siglo son comparativamente escasos.

Alicia
Así que, ¿cómo solucionan eso?

Beto
Bueno, los investigadores están desarrollando algunas soluciones muy inventivas. Una solución reciente y muy debatida de Cassotti y Tahmasebi en 2025 implica usar IA generativa, modelos como Llama, para combatir el problema de los datos dispersos creando oraciones históricamente precisas sintéticas.

Alicia
Espera, déjame asegurarme de que estoy siguiendo esto. Están usando una IA para escribir frases históricas falsas.

Beto
Esencialmente, sí. Usan un modelo generativo para crear usos plausibles y específicos del sentido de una palabra histórica basados en los datos limitados que tienen.

Alicia
De acuerdo.

Beto
Y esto crea un conjunto de datos de entrenamiento artificial robusto para llenar los vacíos archivísticos. Luego usan ese conjunto de datos sintético para entrenar el modelo codificador para que pueda analizar correctamente los textos históricos reales.

Alicia
Mi mente está un poco volada, pero tengo que oponerme agresivamente a esa metodología.

Beto
Adelante.

Alicia
¿Qué significa esto para la verdad fundamental de la investigación?

Si estamos usando IA moderna para leer física de la década de 1920, y luego usando otra IA para generar datos falsos de la década de 1920 para entrenar a la primera IA, a saber cómo leer.

Beto
Ya sé para dónde vas con esto.

Alicia
¿Estamos creando solo una cámara de eco masiva? Como si estuviéramos mapeando la ficción de una computadora de cómo cree que sonaba el pasado.

Beto
Tu escepticismo está totalmente justificado. Y resalta la vulnerabilidad crítica exacta por la que los expertos en el campo están preocupados. Este ciclo de generación de datos sintéticos podría divorciar la investigación de la realidad histórica fácilmente.

Alicia
Así que, ¿cómo evitan eso?

Beto
La salvaguarda contra esta cámara de eco es un requisito estricto para la triangulación.

Alicia
La "triangulación", que significa traer los ojos humanos de vuelta a la ecuación.

Beto
Sí. La validación cualitativa humana no es negociable aquí. No puedes simplemente pasar archivos históricos a través de un LLM, mirar las nubes de datos cambiantes y publicar los resultados como un descubrimiento.

Alicia
Correcto. Porque la computadora podría estar inventándolo basándose en sus propios datos falsos.

Beto
Exacto. Las salidas del aprendizaje automático solo tienen valor si un académico humano entra en las pruebas reales y verifica que el cambio matemático en el algoritmo corresponde a un debate histórico documentado real.

Alicia
Eso tiene sentido.

Beto
La IA sigue siendo un asistente para ayudar a detectar patrones a escala. No es un oráculo.

Alicia
De acuerdo, bueno, eso trae mucha tranquilidad. Todavía necesitamos expertos en la materia en el círculo para fundamentar las matemáticas en la realidad.

Beto
Absolutamente.

Alicia
Pero incluso si aislamos perfectamente el sesgo moderno y verificamos cuidadosamente cada pieza de datos sintético, parece haber un límite fundamental a todo este enfoque basado en texto.

Beto
¿Cuál es eso?

Alicia
Estamos confiando completamente en las palabras, y la ciencia no está hecha solo de texto.

Beto
Ah, sí. Acabas de tocar el punto ciego definitivo de toda esta metodología. En la filosofía de la ciencia, esto se conoce como "el problema semiótico material". Algo que Rheinberger señaló en 1997.

Alicia
El problema semiótico material. ¿Qué significa eso?

Beto
El argumento es que el significado no está simplemente ubicado en el vocabulario. El concepto de un gen, o una peculiaridad, o una partícula virtual, es activamente construido por el equipo de laboratorio físico, las fórmulas matemáticas, las tablas y los diagramas utilizados por la ciencia.

Alicia
Oh, es interesante.

Beto
Sí, el mundo material y el lenguaje están inextricablemente ligados.

Alicia
Bueno, no puedes aprender a montar en bicicleta solo leyendo un manual.

Beto
Exacto.

Alicia
El acto físico es parte del conocimiento. Así que si estamos digitalizando estos viejos papeles pero desechando todos los gráficos, las configuraciones de laboratorio experimentales y las fórmulas matemáticas de los datos, estamos básicamente revisando una película leyendo solo el guión.

Beto
Eso es exactamente lo que está sucediendo. La realidad actual de preparar datos para estos modelos es que elimina todo ese contexto no textual.

Sí. Cuando digitalizas un gran corpus de revistas científicas históricas para alimentarlo a un modelo basado en texto, las ecuaciones se convierten en caracteres garabateados, los diagramas desaparecen por completo y las complejas tablas de datos se pierden en la traducción.

Alicia
Eso es terrible.

Beto
La IA es totalmente ciega a la realidad visual y material que realmente prueba la ciencia.

Alicia
Eso se siente como un fallo devastador. ¿Estamos simplemente aceptando que la IA solo puede darnos el guión y no la película?

Beto
Para nada. El campo ya está apuntando hacia el horizonte para resolver esto. La próxima frontera importante para la historia conceptual radica en los modelos de lenguaje grandes multimodales.

Alicia
Multimodales, lo que significa que pueden mirar más que solo texto.

Beto
Exacto. Estos son sistemas diseñados para ingerir imágenes, diagramas complejos y ecuaciones matemáticas en bruto junto con los párrafos de texto.

Alicia
Así que en lugar de solo leer la palabra "entrelazamiento", el modelo analiza realmente el diagrama del detector de fotones que dibujó el científico en la siguiente página.

Beto
Sí. Los historiadores del futuro no solo van a estar alimentando palabras en la máquina. Van a estar alimentando las pruebas matemáticas y los bocetos de los instrumentos de laboratorio. Esa entrada multisensorial es lo que finalmente nos permitirá construir una imagen verdaderamente holística de cómo evoluciona un concepto científico.

Alicia
Dar un paso atrás para mirar el viaje que acabamos de hacer es notable, honestamente.

Beto
Ha sido un salto masivo en un tiempo relativamente corto.

Alicia
Porque empezamos en las edades oscuras de contar simplemente citas, asumiendo que dos artículos estaban conceptualmente vinculados.

Beto
Correcto.

Alicia
Y luego pasamos a modelos estáticos tempranos que mezclaron cada significado matizado de una palabra en una sola coordenada confusa.

Beto
Una sopa de polisemia.

Alicia
Correcto. La sopa. Luego vino la revolución de los modelos bidireccionales como BERT, donde la IA puede leer la oración y distinguir matemáticamente al astronauta del panadero.

Beto
Exacto.

Alicia
Pero luego navegamos los peligros muy reales de esa tecnología, los sesgos modernos proyectando anacronismos en el pasado, y esas cámaras de eco inquietantes de datos sintéticos.

Beto
Y todo eso lleva a la comprensión de que el futuro no se trata solo de leer mejor el texto. Se trata de ver los diagramas, las matemáticas y la realidad material de la ciencia, a través de sistemas multimodales.

Alicia
Es increíble. Así que, para ustedes, que están escuchando, la próxima vez que escuchen una palabra de moda científica en las noticias, ya sea "entrelazamiento cuántico", "epigenética" o "redes neuronales", quiero que hagan una pausa por un segundo.

Beto
Sí, piensen de verdad en ello.

Alicia
Imaginen la historia invisible, estratificada y ferozmente debatida empaquetada dentro de esa única palabra. No es solo una definición de diccionario. Es un artefacto vivo del consenso humano, moldeado durante décadas.

Beto
Es una realización profunda.

Pero antes de cerrar el libro de esta inmersión profunda, había una implicación subyacente a esta tecnología que va mucho más allá de solo cómo analizamos la historia.

Alicia
Oh.

Beto
Sí, toca la infraestructura del conocimiento mismo.

Alicia
La infraestructura. De acuerdo, ¿cuál es el giro final aquí?

Beto
La investigación que estamos explorando hoy, específicamente destacada por académicos como Valleriani en 2025, advierte sobre un problema que se acerca rápidamente en relación con las dinámicas de poder de la propiedad de la IA.

Alicia
Dinámicas de poder.

Beto
Sí, ejecutar estos modelos masivos, especialmente adaptarlos para analizar millones de documentos históricos, incurre en costos astronómicos, ambientales y financieros. La capacidad computacional requerida es simplemente asombrosa.

Alicia
Oh, correcto. Significa que este tipo de investigación histórica profunda depende cada vez más de las pocas organizaciones que pueden realmente permitirse construir y ejecutar las máquinas. Empresas tecnológicas masivas, propiedad corporativa y a menudo completamente opacas.

Beto
Correcto. Nos deja con una pregunta crítica y ligeramente inquietante para considerar a medida que esta tecnología escale. Si estos algoritmos masivos de propiedad corporativa se convierten en las herramientas indispensables para interpretar la historia del conocimiento humano, ¿la corporación que posee el modelo es la que realmente posee nuestra historia intelectual?

Alicia
Vaya.

Beto
¿Quién controla en última instancia la memoria de la ciencia?

Alicia
Eso es increíblemente denso para pensarlo. Te hace darte cuenta de que rastrear la historia de una palabra nunca es solo un ejercicio académico sobre el pasado. Es una batalla muy real por quién tiene las llaves de la máquina del tiempo. Y de repente, la definición de la palabra "cool" se siente como lo menos de nuestras preocupaciones.

jueves, 4 de junio de 2026

Crowdsourcing en la era de LLMs

 
 

Este estudio examina cómo el auge de los grandes modelos lingüísticos está impactando la recopilación de datos mediante crowdsourcing, centrándose específicamente en los desafíos del uso no identificado de IA por parte de los participantes. Tras encuestar a 155 investigadores, los autores revelan que el 44 % de los profesionales ha detectado respuestas generadas por grandes modelos lingüísticos, lo que genera importantes preocupaciones sobre la integridad y homogeneidad de los datos, así como la pérdida de perspectivas humanas auténticas. Si bien las señales de detección comunes incluyen tiempos de respuesta inusualmente rápidos y patrones específicos de estilo textual, muchos investigadores aún no tienen claro cuáles son las estrategias de mitigación más efectivas. El artículo clasifica la aceptabilidad de la asistencia de IA en uso restringido, controlado y no restringido, según los objetivos específicos de la investigación. Finalmente, los autores ofrecen consideraciones prácticas para ayudar a la comunidad científica a mantener la validez y la transparencia en los estudios centrados en el ser humano dentro de un entorno digital cada vez más automatizado.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Can Crowdsourcing Survive the LLM Era? A Community Survey on Human Data Collection", por Aswathy Velutharambath, y colegas. Publicado el 3 de Junio de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Imagina la ironía moderna absoluta y definitiva. Eres una empresa de tecnología enorme, ¿verdad?

Alicia
Bien.

Beto
Y necesitas entrenar tu nuevo sistema de IA multimillonario.

Alicia
Lo que significa que necesitas datos humanos auténticos.

Beto
Exacto. Necesitas las formas desordenadas, caóticas y muy específicas en que solo las personas reales escriben y piensan.

Alicia
Correcto. La cosa de verdad.

Beto
Sí. Así que entras en línea y contratas a miles de trabajadores de plataforma para generar estos datos humanos para ti. Pero hay un truco.

Alicia
Siempre hay una trampa.

Beto
Resulta que una gran parte de esos trabajadores humanos están usando secretamente IA para hacer el trabajo por ellos.

Alicia
Vaya.

Beto
Sí. Estás pagando el precio más alto por la capacidad cerebral humana, pero en realidad solo estás obteniendo máquinas hablando entre ellas.

Alicia
Quiero decir, es realmente la serpiente digital que se come la cola. Básicamente llegamos a un punto en el que los datos sintéticos se están haciendo pasar por esfuerzo humano.

Beto
Y las personas que pagan por ello están básicamente a ciegas. Pero se vuelve aún más gracioso o, bueno, quizás más trágico, si lo piensas.

Alicia
Oh no, ¿de qué se trata?

Beto
Hay un fascinante artículo académico de 2026 que investiga esta crisis exacta. Los investigadores encuestaron a 155 de sus colegas para preguntarles sobre este problema.

Alicia
Correcto. Expertos que literalmente estudian a los trabajadores de plataforma que usan IA.

Beto
Exacto. Y de esos 155 investigadores que hicieron una encuesta sobre los peligros de usar IA para completar formularios, casi el 6% de esos investigadores usan IA generativa para llenar la encuesta.

Alicia
Es una locura. Incluso los científicos que estudian el problema no pudieron resistir la tentación de dejar que un modelo de lenguaje hiciera su tarea por ellos.

Beto
Correcto.

Alicia
Simplemente ilustra perfectamente lo fluida y omnipresente que se ha vuelto este comportamiento en todos los niveles de la tecnología y la academia.

Beto
Totalmente lo hace.

Así que bienvenidos a este análisis profundo. Hoy, nuestra misión es desgranar este fenómeno exacto.

Alicia
Estamos examinando un artículo brillante titulado: "¿Puede sobrevivir el crowdsourcing a la era de los LLM (Modelos de Lenguaje Grande)?"

Beto
Sí. Es un esfuerzo conjunto de investigadores de la Universidad de Stuttgart, la Universidad de Harvard y la Universidad de Copenhague.

Alicia
Instituciones importantes.

Beto
Definitivamente. Y si estás escuchando esto ahora mismo, déjame decirte exactamente por qué debes preocuparte por esto.

Alicia
Porque afecta a prácticamente todo el mundo.

Beto
Literalmente a todos, ya sea que uses un asistente de IA en el trabajo para redactar tus correos electrónicos o dependas de estudios académicos de psicología o simplemente consumas contenido digital.

Alicia
Todo está construido sobre una base de datos humana.

Beto
Exacto. Pero si esa base es en realidad solo una salida sintética, si son solo algoritmos, entrenando algoritmos, entonces las herramientas y la ciencia en las que dependes todos los días podrían ser fundamentalmente defectuosas.

Alicia
Lo cual es un gran problema.

Beto
Correcto.

Crowdsourcing_in_the_AI_Era_1024
Puede el Crowdsourcing Sobrevivir la Era de los LLMs?

Bien, desglosémoslo.

Alicia
Para realmente captar la escala del problema, creo que necesitamos establecer cómo se ve realmente el "crowdsourcing" en el terreno.

Beto
Correcto. Cómo funciona realmente.

Alicia
Sí. Durante años, los investigadores y desarrolladores de tecnología han utilizado plataformas en línea para recopilar respuestas humanas. Estamos hablando de tareas como el análisis de sentimiento, la formación de procesamiento de lenguaje natural, ...

Beto
... o incluso cuestionarios psicológicos masivos, ¿correcto?

Alicia
Exacto. Y la suposición fundamental de este modelo completo es que tú, el investigador, estás capturando aportes humanos independientes y auténticos.

Beto
Quieres la hermosa variedad del pensamiento humano.

Alicia
Lo quieres. Realmente lo necesitas.

Beto
Correcto. Pero luego la IA generativa entró en escena y destrozó por completo esa suposición. Los datos en este artículo son una locura.

Alicia
Realmente lo son.

Beto
Descubrieron que casi la mitad, como el 44%, de todos los investigadores que recopilan respuestas de texto libre informan estar observando que los modelos de lenguaje grandes están siendo utilizados por sus trabajadores de plataforma.

Alicia
Lo cual es una cifra asombrosa.

Beto
Y aquí está el punto clave: casi todos ellos, más del 90%, anticiparon que esto iba a suceder. Vieron la tormenta acercarse.

Alicia
Pero sobre la mitad de ellos admitieron que no tenían absolutamente ninguna idea de qué precauciones tomar.

Beto
Sí. Simplemente estaban viendo cómo subían las aguas de la inundación.

Alicia
Están sentados con un conjunto de datos que se supone que representa a seres humanos reales tratando de descubrir cómo detectar al impostor.

Beto
Y las maneras en que están atrapando a estos trabajadores son francamente muy entretenidas.

Alicia
Oh, totalmente. Cuando miras la ciencia que los investigadores están usando para señalar a la IA, casi dos tercios de ellos señalan respuestas que se completan imposiblemente rápido.

Beto
Correcto. Estamos hablando de un trabajador escribiendo un ensayo matizado de tres párrafos sobre sus recuerdos de infancia en como seis segundos planos.

Alicia
Una señal completamente obvia.

Beto
Físicamente no puedes escribir tan rápido a menos que tengas manos robóticas.

Alicia
Exacto. Y otra gran señal de alerta, que de nuevo, sobre la que dependen dos tercios de los investigadores, es el estilo de escritura de IA distintivo.

Beto
Oh, conozco cuál.

Alicia
Bien. Demasiado fluido, genérico, increíblemente cortés.

Beto
Muchas frases de transición como "en conclusión" o "es importante señalar".

Alicia
Sí. Pero la señal absolutamente más innegable, de la que informó casi un tercio de los investigadores, es que atrapan a los trabajadores dejando formato de marcado ("markup") literal en sus respuestas.

Beto
Sí. El formato de marcado. Esta es mi parte favorita del artículo.

Alicia
Es tan gracioso. Estamos hablando de trabajadores pegando texto que todavía tiene las etiquetas en negrita o las pequeñas estrellas que usa ChatGPT para formatear sus listas con viñetas.

Alicia
Ni siquiera se molestan en limpiarlo.

Beto
Es el equivalente moderno de un estudiante que entrega un informe de libro impreso donde los enlaces de Wikipedia todavía están visiblemente azules y subrayados.

Alicia
Eso es exactamente lo que es. Ni siquiera se molestaron en leer lo que copiaron y pegaron.

Beto
Tan fácil.

Alicia
Pero, lo fascinante aquí, es la estructura de incentivos subyacente que impulsa este comportamiento.

Beto
¿Qué quieres decir?

Alicia
Bueno, tenemos que mirar la mecánica de por qué está sucediendo, en lugar de simplemente culpar a los trabajadores. Los trabajadores de plataforma en estas plataformas son trabajadores por contrato ("gig workers").

Beto
Correcto.

Alicia
Casi siempre son incentivados por la velocidad y el volumen, recibiendo literalmente centavos por tarea completada.

Beto
Okay. Eso tiene sentido.

Alicia
Si tu sustento depende de cuántos formularios digitales puedes llenar en una hora y de repente alguien te da una herramienta gratuita que genera texto perfecto de alta calidad al instante, ...

Beto
... es económicamente irracional no usarla.

Alicia
Precisamente.

Beto
Están optimizando su flujo de trabajo. Si yo fuera pagado tres centavos por una encuesta, probablemente lo automatizaría también.

Alicia
La mayoría de la gente lo haría.

Beto
Pero espera, permíteme que desafíe esto un poco. Tenemos empresas de tecnología multimillonarias construyendo detectores de IA ahora mismo. Las universidades los usan para atrapar a los estudiantes que hacen trampa.

Alicia
Correcto.

Beto
Así que si los investigadores saben que esto está sucediendo, ¿por qué se están sentando a cazar manualmente pequeñas estrellas y etiquetas en negrita? ¿Por qué no simplemente pasar todo el texto a través de una herramienta de detección y prohibir automáticamente a los bots?

Alicia
Bueno, eso parece el siguiente paso lógico, ¿verdad? Pero el artículo se adentra en por qué eso simplemente no funciona en la práctica.

Beto
¿Por qué no?

Alicia
Porque las herramientas de detección de IA automatizadas disponibles ahora son notoriamente poco fiables.

Vamos a desglosar cómo funcionan realmente.

Beto
Okay.

Alicia
Un detector estándar, como un clasificador basado en transformador, en realidad no está leyendo por el significado. Está buscando la probabilidad matemática de las elecciones de palabras.

Beto
Ah.

Alicia
Porque la IA predice la siguiente palabra más lógica. Escribe de una manera muy estadísticamente predecible.

Beto
Correcto. Pero los humanos no hacen eso.

Alicia
Exacto. Los humanos escriben de forma extraña. Usamos frases raras. Nos desviamos por temas aleatorios. Elegimos adjetivos inesperados.

Beto
Así que el detector busca ese patrón matemático predecible.

Okay. Entonces, si el detector está buscando matemáticas predecibles, ¿cómo están los trabajadores de plataforma superándolo?

Alicia
Con algo llamado "ataque de parafraseo".

Beto
Un ataque de parafraseo.

Alicia
Sí. Si un trabajador genera una respuesta con IA y luego solo cambia tres o cuatro palabras, tal vez intercambia un adjetivo o le pide a la IA que reescriba el párrafo en un tono casual, entonces la predictibilidad matemática cae por completo.

Beto
¿De verdad? Solo con unas pocas palabras.

Alicia
Solo con unas pocas palabras, la curva de probabilidad se desplaza. Y el detector queda instantáneamente ciego.

Beto
Así que una pequeña cantidad de esfuerzo elude por completo la seguridad.

Alicia
Y ese es solo un punto de fallo. Estas herramientas también fallan dramáticamente en lo que los investigadores llaman "configuraciones fuera de dominio".

Beto
¿Qué significa eso?

Alicia
Bueno, si entrenas un detector de IA en miles de ensayos académicos largos y formales, aprende cómo se ve un ensayo generado por IA.

Beto
Tiene sentido.

Alicia
Pero si luego le pides a ese mismo detector que analice una respuesta conversacional de cinco palabras en una encuesta de comentarios de clientes, no tiene ni idea de lo que está mirando.

Beto
Porque el contexto no está completamente equivocado.

Alicia
Exacto. Así que falla.

Beto
Sí. Eso tiene mucho sentido. Es como si un sistema entrenado para detectar una pintura falsa no fuera muy bueno detectando una escultura falsa.

Alicia
Esa es una gran analogía.

Y eso nos lleva al mayor obstáculo técnico de todos, que es detectar texto co-escrito.

Beto
Co-escrito, como humano e IA juntos.

Alicia
Sí. Aquí es donde un humano usa IA para generar un borrador, pero luego lo edita en gran medida él mismo, mezclando su voz humana auténtica con la salida de las máquinas.

Beto
Oh, eso suena imposible de detectar.

Alicia
Lo es. El artículo declara explícitamente que distinguir de manera confiable la autoría humana e IA mezclada es prácticamente imposible ahora mismo.

Beto
Así que la solución de alta tecnología es efectivamente inútil para este problema específico. Si un investigador pasa sus datos de encuesta a través de un detector, solo va a estar adivinando.

Alicia
Y si adivina mal, las consecuencias son graves.

Beto
Correcto. Debido a los falsos positivos.

Alicia
Sí. Si un investigador confía en un detector de IA defectuoso y rechaza la entrega de un trabajador basándose en un falso positivo, está penalizando a un trabajador honesto.

Beto
Retiene el pago a alguien que realmente hizo el trabajo simplemente porque esa persona escribió de una manera ligeramente genérica.

Alicia
Exacto. Además, el investigador pierde datos humanos válidos.

Beto
Lo que explica todas las correcciones improvisadas y torpes que los investigadores están tratando en su lugar.

Alicia
Oh, las soluciones alternativas son salvajes.

Beto
Sí. La encuesta enumera algunas de estas maniobras de desesperación: casi un tercio de los investigadores están literalmente deshabilitando la función de copiar y pegar en sus formularios web.

Alicia
Solo para intentar detener físicamente a la gente.

Beto
Correcto. Al deshabilitar atajos del teclado.

Y otra gran porción, alrededor del 20%, están lanzando pegatinas de mayúsculas en medio de las encuestas.

Alicia
Lo cual es muy molesto para los trabajadores.

Beto
Totalmente. Y una gran mayoría, más de dos tercios, están confiando en declaraciones de advertencia explícitas. Básicamente están escribiendo en letras grandes y rojas: "Por favor, no usen IA para responder a estas preguntas".

Alicia
Y la brillantez del artículo es cómo resalta la ironía total de esas declaraciones de advertencia.

Beto
¿Como es eso?

Alicia
Pues, añadir una advertencia de no usar IA podría, de hecho, provocar o recordar al trabajador para que la use.

Beto
Oh, es el problema del "no pienses en un elefante".

Alicia
Exacto. Tienes un trabajador que podría haber estado perfectamente dispuesto a simplemente escribir una respuesta rápida y auténtica. Luego lee tu advertencia y de repente piensa, "Oh, cierto. Tengo una pestaña abierta con un modelo de lenguaje. Eso sería mucho más rápido. Gracias por el recordatorio."

Beto
Eso es muy cómico. Tiene exactamente el efecto contrario al pretendido.

Alicia
A menudo. Sí.

Beto
Aquí es donde se pone realmente interesante, sin embargo. Veamos la salida real. Déjame jugar de abogado del diablo, por un segundo.

Alicia
OK, hazlo.

Beto
Digamos que soy un investigador. Quiero saber cómo la gente resuelve un problema doméstico en particular. Un trabajador de plataforma usa IA para escribir su respuesta en lugar de escribirla él mismo.

Alicia
Correcto.

Beto
Honestamente. Entonces, ¿qué? La IA es probablemente más gramaticalmente correcta de lo que habría sido el humano. La ortografía es perfecta. Las oraciones fluyen hermosamente. Si el texto es de mayor calidad en un nivel superficial, ¿realmente importa de dónde vino?

Alicia
Importa inmensamente. Y aquí es donde entramos en las enormes consecuencias posteriores para la ciencia y la tecnología.

Beto
Okay. ¿Por qué es tan importante?

Alicia
Porque esto no se trata solo de mala gramática. Se trata de la pérdida completa de información del mundo real. Más de la mitad de los investigadores encuestados citaron graves consecuencias posteriores, particularmente la pérdida de validez del resultado.

Beto
Ah. Porque ya no estás midiendo la realidad.

Alicia
Exacto.

Beto
Ya no estás midiendo el comportamiento humano real. Estás midiendo la programación predeterminada de la IA.

Alicia
Y esa programación predeterminada está muy sanitizada.

El artículo extrae algunos detalles escalofriantes sobre esto.

Beto
¿Como qué?

Alicia
Las salidas de los LLM exhiben una menor diversidad léxica. Dependen del mismo vocabulario y las mismas estructuras de oración, una y otra vez.

Beto
Lo que hace que todo suene igual.

Alicia
Correcto. Y además, están programadas por empresas de tecnología para ser útiles, inofensivas y corteses, lo que significa que naturalmente se inclinan hacia un sentimiento alegre y positivo.

Beto
Oh, tiene sentido. No se les permite ser negativas.

Alicia
Correcto. Literalmente no se les permite ser tan irritables, cínicas, raras o matizadas como los humanos reales.

Beto
Pierdes todos los casos extremos.

Alicia
Pierdes todos ellos. El resultado es una homogeneización masiva de los datos.

Beto
Que se vuelve uniforme.

Alicia
Exacto. Cuando los trabajadores de plataforma usan IA, el conjunto de datos pierde su rica y desordenada variación humana. Y fundamentalmente, suprime las perspectivas poco convencionales o minoritarias.

Beto
Permíteme poner un ejemplo concreto para eso. Imagina que estás haciendo una encuesta pidiendo a la gente un truco de cocina inusual.

Alicia
Okay, perfecto.

Beto
Un ser humano real podría decir: trituro galletas de papa viejas y las usa en lugar de pan rallado.

Alicia
Correcto. Lo cual es una pieza de datos extraña, muy específica y extremadamente humana.

Beto
Exacto. Pero una IA, que está entrenada en el promedio estadístico de todo internet, va a soltar la respuesta más promedio y segura posible.

Alicia
Simplemente va a decir algo como: "Recomiendo usar pan rallado Panko para un crujido delicioso".

Beto
Sí. Los datos humanos extraños son completamente tapados.

Alicia
Eso es una ilustración perfecta. De hecho, un investigador en la encuesta describió francamente este fenómeno como "añadir lodo a los datos".

Beto
Lodo. Esa es una palabra tan visceral.

Alicia
Encaja perfectamente, sin embargo. Es texto que parece información, pero no contiene conocimiento único real.

Beto
Lodo. Me encanta eso. Realmente me recuerda al concepto del "colapso del modelo", que los investigadores hicieron referencia en el texto, señalando un estudio de 2024, de Shumailov y colegas.

Alicia
Correcto. La teoría del colapso del modelo.

Beto
Sí. Si lo piensas, es como tomar una fotocopia de un documento. La primera fotocopia se ve bastante bien, ¿verdad? Puedes leer el texto.

Alicia
Claro.

Beto
Pero si tomas una fotocopia de la fotocopia y luego una fotocopia de esa fotocopia, eventualmente la imagen se degrada en estática pura. Pierde todos sus detalles.

Alicia
Y en el ámbito de la ciencia de datos, esos detalles se denominan "diversidad epistémica".

Beto
Diversidad epistémica.

Alicia
Sí. "Epistémica" simplemente significa relacionarse con el conocimiento. Así que la diversidad epistémica es tener una gran piscina amplia de diferentes tipos de conocimiento y puntos de vista.

Beto
Y la IA colapsa eso.

Alicia
Sí. La IA colapsa esa vasta piscina en un charco superficial.

Beto
Vaya.

Así que, si los sistemas de IA del futuro se están entrenando con datos que actualmente están siendo generados por los sistemas de IA de hoy, ...

Alicia
... el sistema eventualmente colapsa sobre sí mismo.

Beto
Pierde su conexión con la realidad humana real.

Alicia
Exacto.

Beto
Y para ti, oyente, esta es la razón por la cual importa en tu vida diaria. La asistencia de IA en la que confías para hacer lluvias de ideas o escribir informes o resumir tus correos electrónicos, solo son tan inteligentes como los datos humanos diversos en los que están entrenados.

Alicia
Los cuales están siendo corrompidos actualmente.

Beto
Correcto. Si seguimos alimentándoles esta lodo sintético, tus propias herramientas se volverán cada vez más insípidas, repetitivas y, en última instancia, inútiles.

Alicia
La señal humana genuina está siendo totalmente ahogada por el ruido de la máquina.

Beto
Es aterrador.

Alicia
Y como estos modelos de lenguaje alucinan hechos y codifican una homogeneización sistemática, tratar estas respuestas sintéticas como texto humano auténtico envenena activamente el pozo de la futura investigación.

Beto
Estamos construyendo nuestra tecnología futura sobre una base de arena.

Alicia
Eso es exactamente lo que está sucediendo.

Beto
Así que estamos encarando el barril de una crisis de datos masiva, pero no podemos meter el genio de la IA generativa de nuevo en la botella.

Alicia
No. Esto ya está sucediendo aquí hoy.

Beto
Está en nuestros teléfonos. Está integrado en nuestros navegadores. Está en todas partes. No podemos simplemente prohibirla. Entonces, ¿cuál es la guía de supervivencia? ¿Cómo sobrevive el crowdsourcing a esta era?

Alicia
Bueno, el artículo ofrece un marco muy práctico para seguir adelante. En lugar de solo entrar en pánico, trazan una taxonomía de aceptabilidad.

Beto
¿Una taxonomía de aceptabilidad?

Alicia
Sí. Sugieren tres posturas diferentes que los investigadores deben adoptar, dependiendo enteramente de lo que intentan lograr con sus datos.

Beto
Okay. ¿Cuál es la primera postura?

Alicia
La primera postura se llama "uso restringido".

Beto
Esto sería para situaciones donde absolutamente debes tener la señal humana auténtica, ¿correcto?

Alicia
Sí.

Beto
Como medir emociones personales, o pedir esas extrañas recetas de cocinar de papas.

Alicia
Exacto. Para estudios con experiencia humana subjetiva, ese es el punto principal. Como lo expresó brillantemente un encuestado, "si la salida generada por un LLM es suficiente, no hay razón para hacer crowdsourcing en primer lugar".

Beto
Correcto. Si solo quieres una respuesta genérica, pídele al agente directamente, gratis.

Alicia
Precisamente.

Beto
Pero si necesitas el alma humana, tienes que restringir la IA.

Pero ya sabemos que las advertencias simples y el copiar y pegar no funcionan. Entonces, ¿cómo hacen los investigadores para hacer cumplir el uso restringido?

Alicia
Requiere cambiar completamente la metodología. Los investigadores tienen que alejarse de las plataformas en línea anónimas y baratas.

Beto
¿Y hacer qué a cambio?

Alicia
Deben pasar a equipos internos más pequeños y estrictamente supervisados. O, como una solución alternativa técnica muy inteligente, pueden exigir participación solo con dispositivos móviles.

Beto
Oh, porque es más difícil en un teléfono.

Alicia
Exacto. Es significativamente más difícil y molesto cambiar entre aplicaciones, copiar texto de un chatbot y pegarlo en un navegador en el smartphone, que hacerlo en una configuración de escritorio con doble monitor.

Beto
Estás creando artificialmente fricción.

Alicia
Solo estás haciendo que sea tedioso.

Beto
Hacer más difícil y molesto el engañar, que simplemente hacer el trabajo honestamente.

Alicia
Exacto.

Beto
Okay. Así que la fricción funciona, si necesitas pura emoción humana. Pero ¿qué pasa si soy un investigador que solo necesita que alguien resuma un montón de fechas históricas de un libro de texto? No necesito sus sentimientos más profundos por eso. Solo necesito precisión.

Alicia
Eso nos lleva a la segunda categoría en su taxonomía, que es "el uso controlado".

Beto
Uso controlado. Okay.

Alicia
Esto es cuando los sistemas de IA son realmente aceptables, pero solo bajo condiciones controladas específicas. Piensa en la edición de gramática o en tareas de recuperación de datos fácticos y no subjetivos.

Beto
Okay. Eso tiene sentido.

Alicia
Más de la mitad de sus encuestados sintieron que este era un compromiso completamente viable.

Pero la regla de oro absoluta para el uso controlado es la divulgación.

Beto
Lo que significa que los trabajadores tienen que admitir que la usaron.

Alicia
Sí. Los trabajadores deben divulgar explícitamente que usaron una IA, qué herramienta específica usaron y cuánto confiaron en ella para generar su respuesta.

Beto
Y eso ayuda enormemente al investigador.

Alicia
Inmensamente. Si el investigador sabe sobre el uso de la IA desde el principio, puede tenerlo en cuenta en su análisis estadístico como una variable contextual en lugar de dejar que corrompa sus datos base.

Beto
Eso requiere una inmensa cantidad de confianza entre el investigador y el trabajador por contrato.

Alicia
Lo hace.

Beto
Pero lleva a un cambio profundo en cómo vemos la fuerza laboral moderna.

Alicia
¿Cómo es eso?

Beto
Bueno, si estamos permitiendo el uso controlado, esencialmente estamos pasando de un mundo donde los humanos generan los datos desde cero a un mundo donde los humanos verifican los datos que genera la máquina.

Alicia
Oh, absolutamente.

Beto
El papel humano cambia de creador a editor.

Alicia
Ese es el cambio de paradigma que está ocurriendo ahora mismo. Estamos convirtiéndonos en supervisores de la salida sintética.

Beto
Fascinante.

Alicia
Y finalmente, esto nos lleva a la tercera postura en el marco, que es el "uso sin restricciones".

Beto
Que suena como un descontrol total.

Alicia
Suena caótico, pero tiene perfecto sentido en el contexto. El uso sin restricciones es el escenario donde el uso de IA está totalmente bien, generalmente porque el punto real del estudio es ver cómo interactúan los humanos con los modelos de lenguaje, para empezar.

Beto
Oh, está bien.

Alicia
Si eres un investigador que estudia cómo la gente escribe indicaciones (prompts) o cómo funciona la colaboración humano-IA, entonces obviamente quieres que tus trabajadores de plataforma usen las herramientas tanto como sea posible.

Beto
No es un error. Es la característica central del estudio.

Alicia
Exacto. Y si conectamos esto con la imagen más amplia, lo que toda esta taxonomía nos dice es que la vieja era de la recopilación de datos está oficialmente muerta.

Beto
Se acabó.

Alicia
El crowdsourcing solo puede sobrevivir si fundamentalmente dejamos de tratarlo como un método barato y ultrarrápido para succionar datos.

Beto
Los incentivos económicos tienen que cambiar.

Alicia
Lo hacen. Si quieres esfuerzo humano auténtico y de alta calidad, tienes que ofrecer un pago justo. Tienes que diseñar tareas significativas y atractivas que los humanos realmente quieran hacer, en lugar de formularios sin sentido y repetitivos que prácticamente ruegan por ser automatizados.

Beto
Obtienes exactamente lo que pagas por ello. Si pagas unos pocos centavos por mano de obra robótica barata, vas a obtener datos robóticos y baratos.

Alicia
Exacto. La comunidad de investigación y el mundo en general, tiene que tratar el uso de IA generativa, no como un fallo temporal para ser parchado, sino como una variable sistémica permanente, en todo comportamiento humano, de ahora en adelante.

Beto
Esa es una forma fenomenal de sintetizar este artículo.

Así que hagamos un breve resumen de nuestro viaje en esta inmersión profunda.

Alicia
Suena bien.

Beto
Comenzamos mirando la increíble ironía de los trabajadores de plataforma usando IA para generar datos humanos para sistemas de entrenamiento de IA.

Alicia
La serpiente que se come la cola.

Beto
Correcto. Y miramos el frenesí del juego del ratón que están jugando los investigadores, buscando etiquetas en negrita sobrantes e intentando bloquear el copiar y pegar, porque los detectores de IA automatizados dependen de matemáticas predecibles y fallan constantemente contra ataques de parafraseo.

Alicia
Simplemente no funcionan.

Beto
Exploramos los efectos posteriores devastadores de esto, la homogeneización de nuestros datos, la pérdida de esos casos extremos únicos humanos, y la aterradora perspectiva del colapso del modelo donde nuestros sistemas se ahogan en lodo sintético.

Alicia
El peor escenario posible.

Beto
Y finalmente, miramos la guía de supervivencia, adaptando nuestros estudios para restringir, controlar, o abrazar la IA, dependiendo de este objetivo específico, y dándonos cuenta de que tenemos que empezar a pagar por calidad, sobre cantidad.

Entonces, ¿qué significa todo esto?

Alicia
Bueno, nos deja con una pregunta verdaderamente fascinante y quizás ligeramente inquietante a largo plazo para reflexionar.

Beto
Oh, ¿cuál es?

Alicia
A medida que la IA generativa se integra completamente y sin problemas en nuestras vidas diarias, escribiendo nuestros correos electrónicos, terminando nuestros mensajes de texto, esbozando nuestros informes corporativos, nuestros propios estilos de escritura humana van a adaptarse.

Beto
Oh, vaya.

Alicia
Poco a poco vamos a internalizar la cadencia cortés y genérica de las máquinas. ¿En qué punto nuestra escritura humana real comenzará a imitar a la IA?

Beto
Eso es un pensamiento loco.

Alicia
Si avanzamos diez años y un investigador está usando señales textuales para filtrar el texto que suena a IA, ¿filtrará accidentalmente a los humanos reales? Simplemente porque todos hemos aprendido inconscientemente a sonar exactamente como las herramientas que usamos todos los días.

Beto
Vaya. Lentamente nos convertimos en los bots que construimos. Es la difuminación definitiva de la línea entre creador y creación.

Alicia
Realmente lo es.

Beto
Y nos trae de vuelta a donde empezamos, esa ironía alucinante de que los humanos y las máquinas se enreden y se entrenen mutuamente. Ya no puedes saber quién estaba tirando de los hilos.

Alicia
Exacto.

Beto
Si los investigadores están usando IA para llenar encuestas sobre IA, el futuro ya está aquí y es increíblemente desordenado.

Muchas gracias por acompañarnos en esta inmersión profunda. Sigan cuestionando los datos a su alrededor. Estén atentos a esos asteriscos sobrantes y nos encontraremos la próxima vez.