Este estudio examina cómo el auge de los grandes modelos lingüísticos está impactando la recopilación de datos mediante crowdsourcing, centrándose específicamente en los desafíos del uso no identificado de IA por parte de los participantes. Tras encuestar a 155 investigadores, los autores revelan que el 44 % de los profesionales ha detectado respuestas generadas por grandes modelos lingüísticos, lo que genera importantes preocupaciones sobre la integridad y homogeneidad de los datos, así como la pérdida de perspectivas humanas auténticas. Si bien las señales de detección comunes incluyen tiempos de respuesta inusualmente rápidos y patrones específicos de estilo textual, muchos investigadores aún no tienen claro cuáles son las estrategias de mitigación más efectivas. El artículo clasifica la aceptabilidad de la asistencia de IA en uso restringido, controlado y no restringido, según los objetivos específicos de la investigación. Finalmente, los autores ofrecen consideraciones prácticas para ayudar a la comunidad científica a mantener la validez y la transparencia en los estudios centrados en el ser humano dentro de un entorno digital cada vez más automatizado.
Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "Can Crowdsourcing Survive the LLM Era? A Community Survey on Human Data Collection", por Aswathy Velutharambath, y colegas. Publicado el 3 de Junio de 2026.
El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.
El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.
Resumen
Beto
Imagina la ironía moderna absoluta y definitiva. Eres una empresa de tecnología enorme, ¿verdad?
Alicia
Bien.
Beto
Y necesitas entrenar tu nuevo sistema de IA multimillonario.
Alicia
Lo que significa que necesitas datos humanos auténticos.
Beto
Exacto. Necesitas las formas desordenadas, caóticas y muy específicas en que solo las personas reales escriben y piensan.
Alicia
Correcto. La cosa de verdad.
Beto
Sí. Así que entras en línea y contratas a miles de trabajadores de plataforma para generar estos datos humanos para ti. Pero hay un truco.
Alicia
Siempre hay una trampa.
Beto
Resulta que una gran parte de esos trabajadores humanos están usando secretamente IA para hacer el trabajo por ellos.
Alicia
Vaya.
Beto
Sí. Estás pagando el precio más alto por la capacidad cerebral humana, pero en realidad solo estás obteniendo máquinas hablando entre ellas.
Alicia
Quiero decir, es realmente la serpiente digital que se come la cola. Básicamente llegamos a un punto en el que los datos sintéticos se están haciendo pasar por esfuerzo humano.
Beto
Y las personas que pagan por ello están básicamente a ciegas. Pero se vuelve aún más gracioso o, bueno, quizás más trágico, si lo piensas.
Alicia
Oh no, ¿de qué se trata?
Beto
Hay un fascinante artículo académico de 2026 que investiga esta crisis exacta. Los investigadores encuestaron a 155 de sus colegas para preguntarles sobre este problema.
Alicia
Correcto. Expertos que literalmente estudian a los trabajadores de plataforma que usan IA.
Beto
Exacto. Y de esos 155 investigadores que hicieron una encuesta sobre los peligros de usar IA para completar formularios, casi el 6% de esos investigadores usan IA generativa para llenar la encuesta.
Alicia
Es una locura. Incluso los científicos que estudian el problema no pudieron resistir la tentación de dejar que un modelo de lenguaje hiciera su tarea por ellos.
Beto
Correcto.
Alicia
Simplemente ilustra perfectamente lo fluida y omnipresente que se ha vuelto este comportamiento en todos los niveles de la tecnología y la academia.
Beto
Totalmente lo hace.
Así que bienvenidos a este análisis profundo. Hoy, nuestra misión es desgranar este fenómeno exacto.
Alicia
Estamos examinando un artículo brillante titulado: "¿Puede sobrevivir el crowdsourcing a la era de los LLM (Modelos de Lenguaje Grande)?"
Beto
Sí. Es un esfuerzo conjunto de investigadores de la Universidad de Stuttgart, la Universidad de Harvard y la Universidad de Copenhague.
Alicia
Instituciones importantes.
Beto
Definitivamente. Y si estás escuchando esto ahora mismo, déjame decirte exactamente por qué debes preocuparte por esto.
Alicia
Porque afecta a prácticamente todo el mundo.
Beto
Literalmente a todos, ya sea que uses un asistente de IA en el trabajo para redactar tus correos electrónicos o dependas de estudios académicos de psicología o simplemente consumas contenido digital.
Alicia
Todo está construido sobre una base de datos humana.
Beto
Exacto. Pero si esa base es en realidad solo una salida sintética, si son solo algoritmos, entrenando algoritmos, entonces las herramientas y la ciencia en las que dependes todos los días podrían ser fundamentalmente defectuosas.
Alicia
Lo cual es un gran problema.
Beto
Correcto.

Puede el Crowdsourcing Sobrevivir la Era de los LLMs?
Bien, desglosémoslo.
Alicia
Para realmente captar la escala del problema, creo que necesitamos establecer cómo se ve realmente el "crowdsourcing" en el terreno.
Beto
Correcto. Cómo funciona realmente.
Alicia
Sí. Durante años, los investigadores y desarrolladores de tecnología han utilizado plataformas en línea para recopilar respuestas humanas. Estamos hablando de tareas como el análisis de sentimiento, la formación de procesamiento de lenguaje natural, ...
Beto
... o incluso cuestionarios psicológicos masivos, ¿correcto?
Alicia
Exacto. Y la suposición fundamental de este modelo completo es que tú, el investigador, estás capturando aportes humanos independientes y auténticos.
Beto
Quieres la hermosa variedad del pensamiento humano.
Alicia
Lo quieres. Realmente lo necesitas.
Beto
Correcto. Pero luego la IA generativa entró en escena y destrozó por completo esa suposición. Los datos en este artículo son una locura.
Alicia
Realmente lo son.
Beto
Descubrieron que casi la mitad, como el 44%, de todos los investigadores que recopilan respuestas de texto libre informan estar observando que los modelos de lenguaje grandes están siendo utilizados por sus trabajadores de plataforma.
Alicia
Lo cual es una cifra asombrosa.
Beto
Y aquí está el punto clave: casi todos ellos, más del 90%, anticiparon que esto iba a suceder. Vieron la tormenta acercarse.
Alicia
Pero sobre la mitad de ellos admitieron que no tenían absolutamente ninguna idea de qué precauciones tomar.
Beto
Sí. Simplemente estaban viendo cómo subían las aguas de la inundación.
Alicia
Están sentados con un conjunto de datos que se supone que representa a seres humanos reales tratando de descubrir cómo detectar al impostor.
Beto
Y las maneras en que están atrapando a estos trabajadores son francamente muy entretenidas.
Alicia
Oh, totalmente. Cuando miras la ciencia que los investigadores están usando para señalar a la IA, casi dos tercios de ellos señalan respuestas que se completan imposiblemente rápido.
Beto
Correcto. Estamos hablando de un trabajador escribiendo un ensayo matizado de tres párrafos sobre sus recuerdos de infancia en como seis segundos planos.
Alicia
Una señal completamente obvia.
Beto
Físicamente no puedes escribir tan rápido a menos que tengas manos robóticas.
Alicia
Exacto. Y otra gran señal de alerta, que de nuevo, sobre la que dependen dos tercios de los investigadores, es el estilo de escritura de IA distintivo.
Beto
Oh, conozco cuál.
Alicia
Bien. Demasiado fluido, genérico, increíblemente cortés.
Beto
Muchas frases de transición como "en conclusión" o "es importante señalar".
Alicia
Sí. Pero la señal absolutamente más innegable, de la que informó casi un tercio de los investigadores, es que atrapan a los trabajadores dejando formato de marcado ("markup") literal en sus respuestas.
Beto
Sí. El formato de marcado. Esta es mi parte favorita del artículo.
Alicia
Es tan gracioso. Estamos hablando de trabajadores pegando texto que todavía tiene las etiquetas en negrita o las pequeñas estrellas que usa ChatGPT para formatear sus listas con viñetas.
Alicia
Ni siquiera se molestan en limpiarlo.
Beto
Es el equivalente moderno de un estudiante que entrega un informe de libro impreso donde los enlaces de Wikipedia todavía están visiblemente azules y subrayados.
Alicia
Eso es exactamente lo que es. Ni siquiera se molestaron en leer lo que copiaron y pegaron.
Beto
Tan fácil.
Alicia
Pero, lo fascinante aquí, es la estructura de incentivos subyacente que impulsa este comportamiento.
Beto
¿Qué quieres decir?
Alicia
Bueno, tenemos que mirar la mecánica de por qué está sucediendo, en lugar de simplemente culpar a los trabajadores. Los trabajadores de plataforma en estas plataformas son trabajadores por contrato ("gig workers").
Beto
Correcto.
Alicia
Casi siempre son incentivados por la velocidad y el volumen, recibiendo literalmente centavos por tarea completada.
Beto
Okay. Eso tiene sentido.
Alicia
Si tu sustento depende de cuántos formularios digitales puedes llenar en una hora y de repente alguien te da una herramienta gratuita que genera texto perfecto de alta calidad al instante, ...
Beto
... es económicamente irracional no usarla.
Alicia
Precisamente.
Beto
Están optimizando su flujo de trabajo. Si yo fuera pagado tres centavos por una encuesta, probablemente lo automatizaría también.
Alicia
La mayoría de la gente lo haría.
Beto
Pero espera, permíteme que desafíe esto un poco. Tenemos empresas de tecnología multimillonarias construyendo detectores de IA ahora mismo. Las universidades los usan para atrapar a los estudiantes que hacen trampa.
Alicia
Correcto.
Beto
Así que si los investigadores saben que esto está sucediendo, ¿por qué se están sentando a cazar manualmente pequeñas estrellas y etiquetas en negrita? ¿Por qué no simplemente pasar todo el texto a través de una herramienta de detección y prohibir automáticamente a los bots?
Alicia
Bueno, eso parece el siguiente paso lógico, ¿verdad? Pero el artículo se adentra en por qué eso simplemente no funciona en la práctica.
Beto
¿Por qué no?
Alicia
Porque las herramientas de detección de IA automatizadas disponibles ahora son notoriamente poco fiables.
Vamos a desglosar cómo funcionan realmente.
Beto
Okay.
Alicia
Un detector estándar, como un clasificador basado en transformador, en realidad no está leyendo por el significado. Está buscando la probabilidad matemática de las elecciones de palabras.
Beto
Ah.
Alicia
Porque la IA predice la siguiente palabra más lógica. Escribe de una manera muy estadísticamente predecible.
Beto
Correcto. Pero los humanos no hacen eso.
Alicia
Exacto. Los humanos escriben de forma extraña. Usamos frases raras. Nos desviamos por temas aleatorios. Elegimos adjetivos inesperados.
Beto
Así que el detector busca ese patrón matemático predecible.
Okay. Entonces, si el detector está buscando matemáticas predecibles, ¿cómo están los trabajadores de plataforma superándolo?
Alicia
Con algo llamado "ataque de parafraseo".
Beto
Un ataque de parafraseo.
Alicia
Sí. Si un trabajador genera una respuesta con IA y luego solo cambia tres o cuatro palabras, tal vez intercambia un adjetivo o le pide a la IA que reescriba el párrafo en un tono casual, entonces la predictibilidad matemática cae por completo.
Beto
¿De verdad? Solo con unas pocas palabras.
Alicia
Solo con unas pocas palabras, la curva de probabilidad se desplaza. Y el detector queda instantáneamente ciego.
Beto
Así que una pequeña cantidad de esfuerzo elude por completo la seguridad.
Alicia
Y ese es solo un punto de fallo. Estas herramientas también fallan dramáticamente en lo que los investigadores llaman "configuraciones fuera de dominio".
Beto
¿Qué significa eso?
Alicia
Bueno, si entrenas un detector de IA en miles de ensayos académicos largos y formales, aprende cómo se ve un ensayo generado por IA.
Beto
Tiene sentido.
Alicia
Pero si luego le pides a ese mismo detector que analice una respuesta conversacional de cinco palabras en una encuesta de comentarios de clientes, no tiene ni idea de lo que está mirando.
Beto
Porque el contexto no está completamente equivocado.
Alicia
Exacto. Así que falla.
Beto
Sí. Eso tiene mucho sentido. Es como si un sistema entrenado para detectar una pintura falsa no fuera muy bueno detectando una escultura falsa.
Alicia
Esa es una gran analogía.
Y eso nos lleva al mayor obstáculo técnico de todos, que es detectar texto co-escrito.
Beto
Co-escrito, como humano e IA juntos.
Alicia
Sí. Aquí es donde un humano usa IA para generar un borrador, pero luego lo edita en gran medida él mismo, mezclando su voz humana auténtica con la salida de las máquinas.
Beto
Oh, eso suena imposible de detectar.
Alicia
Lo es. El artículo declara explícitamente que distinguir de manera confiable la autoría humana e IA mezclada es prácticamente imposible ahora mismo.
Beto
Así que la solución de alta tecnología es efectivamente inútil para este problema específico. Si un investigador pasa sus datos de encuesta a través de un detector, solo va a estar adivinando.
Alicia
Y si adivina mal, las consecuencias son graves.
Beto
Correcto. Debido a los falsos positivos.
Alicia
Sí. Si un investigador confía en un detector de IA defectuoso y rechaza la entrega de un trabajador basándose en un falso positivo, está penalizando a un trabajador honesto.
Beto
Retiene el pago a alguien que realmente hizo el trabajo simplemente porque esa persona escribió de una manera ligeramente genérica.
Alicia
Exacto. Además, el investigador pierde datos humanos válidos.
Beto
Lo que explica todas las correcciones improvisadas y torpes que los investigadores están tratando en su lugar.
Alicia
Oh, las soluciones alternativas son salvajes.
Beto
Sí. La encuesta enumera algunas de estas maniobras de desesperación: casi un tercio de los investigadores están literalmente deshabilitando la función de copiar y pegar en sus formularios web.
Alicia
Solo para intentar detener físicamente a la gente.
Beto
Correcto. Al deshabilitar atajos del teclado.
Y otra gran porción, alrededor del 20%, están lanzando pegatinas de mayúsculas en medio de las encuestas.
Alicia
Lo cual es muy molesto para los trabajadores.
Beto
Totalmente. Y una gran mayoría, más de dos tercios, están confiando en declaraciones de advertencia explícitas. Básicamente están escribiendo en letras grandes y rojas: "Por favor, no usen IA para responder a estas preguntas".
Alicia
Y la brillantez del artículo es cómo resalta la ironía total de esas declaraciones de advertencia.
Beto
¿Como es eso?
Alicia
Pues, añadir una advertencia de no usar IA podría, de hecho, provocar o recordar al trabajador para que la use.
Beto
Oh, es el problema del "no pienses en un elefante".
Alicia
Exacto. Tienes un trabajador que podría haber estado perfectamente dispuesto a simplemente escribir una respuesta rápida y auténtica. Luego lee tu advertencia y de repente piensa, "Oh, cierto. Tengo una pestaña abierta con un modelo de lenguaje. Eso sería mucho más rápido. Gracias por el recordatorio."
Beto
Eso es muy cómico. Tiene exactamente el efecto contrario al pretendido.
Alicia
A menudo. Sí.
Beto
Aquí es donde se pone realmente interesante, sin embargo. Veamos la salida real. Déjame jugar de abogado del diablo, por un segundo.
Alicia
OK, hazlo.
Beto
Digamos que soy un investigador. Quiero saber cómo la gente resuelve un problema doméstico en particular. Un trabajador de plataforma usa IA para escribir su respuesta en lugar de escribirla él mismo.
Alicia
Correcto.
Beto
Honestamente. Entonces, ¿qué? La IA es probablemente más gramaticalmente correcta de lo que habría sido el humano. La ortografía es perfecta. Las oraciones fluyen hermosamente. Si el texto es de mayor calidad en un nivel superficial, ¿realmente importa de dónde vino?
Alicia
Importa inmensamente. Y aquí es donde entramos en las enormes consecuencias posteriores para la ciencia y la tecnología.
Beto
Okay. ¿Por qué es tan importante?
Alicia
Porque esto no se trata solo de mala gramática. Se trata de la pérdida completa de información del mundo real. Más de la mitad de los investigadores encuestados citaron graves consecuencias posteriores, particularmente la pérdida de validez del resultado.
Beto
Ah. Porque ya no estás midiendo la realidad.
Alicia
Exacto.
Beto
Ya no estás midiendo el comportamiento humano real. Estás midiendo la programación predeterminada de la IA.
Alicia
Y esa programación predeterminada está muy sanitizada.
El artículo extrae algunos detalles escalofriantes sobre esto.
Beto
¿Como qué?
Alicia
Las salidas de los LLM exhiben una menor diversidad léxica. Dependen del mismo vocabulario y las mismas estructuras de oración, una y otra vez.
Beto
Lo que hace que todo suene igual.
Alicia
Correcto. Y además, están programadas por empresas de tecnología para ser útiles, inofensivas y corteses, lo que significa que naturalmente se inclinan hacia un sentimiento alegre y positivo.
Beto
Oh, tiene sentido. No se les permite ser negativas.
Alicia
Correcto. Literalmente no se les permite ser tan irritables, cínicas, raras o matizadas como los humanos reales.
Beto
Pierdes todos los casos extremos.
Alicia
Pierdes todos ellos. El resultado es una homogeneización masiva de los datos.
Beto
Que se vuelve uniforme.
Alicia
Exacto. Cuando los trabajadores de plataforma usan IA, el conjunto de datos pierde su rica y desordenada variación humana. Y fundamentalmente, suprime las perspectivas poco convencionales o minoritarias.
Beto
Permíteme poner un ejemplo concreto para eso. Imagina que estás haciendo una encuesta pidiendo a la gente un truco de cocina inusual.
Alicia
Okay, perfecto.
Beto
Un ser humano real podría decir: trituro galletas de papa viejas y las usa en lugar de pan rallado.
Alicia
Correcto. Lo cual es una pieza de datos extraña, muy específica y extremadamente humana.
Beto
Exacto. Pero una IA, que está entrenada en el promedio estadístico de todo internet, va a soltar la respuesta más promedio y segura posible.
Alicia
Simplemente va a decir algo como: "Recomiendo usar pan rallado Panko para un crujido delicioso".
Beto
Sí. Los datos humanos extraños son completamente tapados.
Alicia
Eso es una ilustración perfecta. De hecho, un investigador en la encuesta describió francamente este fenómeno como "añadir lodo a los datos".
Beto
Lodo. Esa es una palabra tan visceral.
Alicia
Encaja perfectamente, sin embargo. Es texto que parece información, pero no contiene conocimiento único real.
Beto
Lodo. Me encanta eso. Realmente me recuerda al concepto del "colapso del modelo", que los investigadores hicieron referencia en el texto, señalando un estudio de 2024, de Shumailov y colegas.
Alicia
Correcto. La teoría del colapso del modelo.
Beto
Sí. Si lo piensas, es como tomar una fotocopia de un documento. La primera fotocopia se ve bastante bien, ¿verdad? Puedes leer el texto.
Alicia
Claro.
Beto
Pero si tomas una fotocopia de la fotocopia y luego una fotocopia de esa fotocopia, eventualmente la imagen se degrada en estática pura. Pierde todos sus detalles.
Alicia
Y en el ámbito de la ciencia de datos, esos detalles se denominan "diversidad epistémica".
Beto
Diversidad epistémica.
Alicia
Sí. "Epistémica" simplemente significa relacionarse con el conocimiento. Así que la diversidad epistémica es tener una gran piscina amplia de diferentes tipos de conocimiento y puntos de vista.
Beto
Y la IA colapsa eso.
Alicia
Sí. La IA colapsa esa vasta piscina en un charco superficial.
Beto
Vaya.
Así que, si los sistemas de IA del futuro se están entrenando con datos que actualmente están siendo generados por los sistemas de IA de hoy, ...
Alicia
... el sistema eventualmente colapsa sobre sí mismo.
Beto
Pierde su conexión con la realidad humana real.
Alicia
Exacto.
Beto
Y para ti, oyente, esta es la razón por la cual importa en tu vida diaria. La asistencia de IA en la que confías para hacer lluvias de ideas o escribir informes o resumir tus correos electrónicos, solo son tan inteligentes como los datos humanos diversos en los que están entrenados.
Alicia
Los cuales están siendo corrompidos actualmente.
Beto
Correcto. Si seguimos alimentándoles esta lodo sintético, tus propias herramientas se volverán cada vez más insípidas, repetitivas y, en última instancia, inútiles.
Alicia
La señal humana genuina está siendo totalmente ahogada por el ruido de la máquina.
Beto
Es aterrador.
Alicia
Y como estos modelos de lenguaje alucinan hechos y codifican una homogeneización sistemática, tratar estas respuestas sintéticas como texto humano auténtico envenena activamente el pozo de la futura investigación.
Beto
Estamos construyendo nuestra tecnología futura sobre una base de arena.
Alicia
Eso es exactamente lo que está sucediendo.
Beto
Así que estamos encarando el barril de una crisis de datos masiva, pero no podemos meter el genio de la IA generativa de nuevo en la botella.
Alicia
No. Esto ya está sucediendo aquí hoy.
Beto
Está en nuestros teléfonos. Está integrado en nuestros navegadores. Está en todas partes. No podemos simplemente prohibirla. Entonces, ¿cuál es la guía de supervivencia? ¿Cómo sobrevive el crowdsourcing a esta era?
Alicia
Bueno, el artículo ofrece un marco muy práctico para seguir adelante. En lugar de solo entrar en pánico, trazan una taxonomía de aceptabilidad.
Beto
¿Una taxonomía de aceptabilidad?
Alicia
Sí. Sugieren tres posturas diferentes que los investigadores deben adoptar, dependiendo enteramente de lo que intentan lograr con sus datos.
Beto
Okay. ¿Cuál es la primera postura?
Alicia
La primera postura se llama "uso restringido".
Beto
Esto sería para situaciones donde absolutamente debes tener la señal humana auténtica, ¿correcto?
Alicia
Sí.
Beto
Como medir emociones personales, o pedir esas extrañas recetas de cocinar de papas.
Alicia
Exacto. Para estudios con experiencia humana subjetiva, ese es el punto principal. Como lo expresó brillantemente un encuestado, "si la salida generada por un LLM es suficiente, no hay razón para hacer crowdsourcing en primer lugar".
Beto
Correcto. Si solo quieres una respuesta genérica, pídele al agente directamente, gratis.
Alicia
Precisamente.
Beto
Pero si necesitas el alma humana, tienes que restringir la IA.
Pero ya sabemos que las advertencias simples y el copiar y pegar no funcionan. Entonces, ¿cómo hacen los investigadores para hacer cumplir el uso restringido?
Alicia
Requiere cambiar completamente la metodología. Los investigadores tienen que alejarse de las plataformas en línea anónimas y baratas.
Beto
¿Y hacer qué a cambio?
Alicia
Deben pasar a equipos internos más pequeños y estrictamente supervisados. O, como una solución alternativa técnica muy inteligente, pueden exigir participación solo con dispositivos móviles.
Beto
Oh, porque es más difícil en un teléfono.
Alicia
Exacto. Es significativamente más difícil y molesto cambiar entre aplicaciones, copiar texto de un chatbot y pegarlo en un navegador en el smartphone, que hacerlo en una configuración de escritorio con doble monitor.
Beto
Estás creando artificialmente fricción.
Alicia
Solo estás haciendo que sea tedioso.
Beto
Hacer más difícil y molesto el engañar, que simplemente hacer el trabajo honestamente.
Alicia
Exacto.
Beto
Okay. Así que la fricción funciona, si necesitas pura emoción humana. Pero ¿qué pasa si soy un investigador que solo necesita que alguien resuma un montón de fechas históricas de un libro de texto? No necesito sus sentimientos más profundos por eso. Solo necesito precisión.
Alicia
Eso nos lleva a la segunda categoría en su taxonomía, que es "el uso controlado".
Beto
Uso controlado. Okay.
Alicia
Esto es cuando los sistemas de IA son realmente aceptables, pero solo bajo condiciones controladas específicas. Piensa en la edición de gramática o en tareas de recuperación de datos fácticos y no subjetivos.
Beto
Okay. Eso tiene sentido.
Alicia
Más de la mitad de sus encuestados sintieron que este era un compromiso completamente viable.
Pero la regla de oro absoluta para el uso controlado es la divulgación.
Beto
Lo que significa que los trabajadores tienen que admitir que la usaron.
Alicia
Sí. Los trabajadores deben divulgar explícitamente que usaron una IA, qué herramienta específica usaron y cuánto confiaron en ella para generar su respuesta.
Beto
Y eso ayuda enormemente al investigador.
Alicia
Inmensamente. Si el investigador sabe sobre el uso de la IA desde el principio, puede tenerlo en cuenta en su análisis estadístico como una variable contextual en lugar de dejar que corrompa sus datos base.
Beto
Eso requiere una inmensa cantidad de confianza entre el investigador y el trabajador por contrato.
Alicia
Lo hace.
Beto
Pero lleva a un cambio profundo en cómo vemos la fuerza laboral moderna.
Alicia
¿Cómo es eso?
Beto
Bueno, si estamos permitiendo el uso controlado, esencialmente estamos pasando de un mundo donde los humanos generan los datos desde cero a un mundo donde los humanos verifican los datos que genera la máquina.
Alicia
Oh, absolutamente.
Beto
El papel humano cambia de creador a editor.
Alicia
Ese es el cambio de paradigma que está ocurriendo ahora mismo. Estamos convirtiéndonos en supervisores de la salida sintética.
Beto
Fascinante.
Alicia
Y finalmente, esto nos lleva a la tercera postura en el marco, que es el "uso sin restricciones".
Beto
Que suena como un descontrol total.
Alicia
Suena caótico, pero tiene perfecto sentido en el contexto. El uso sin restricciones es el escenario donde el uso de IA está totalmente bien, generalmente porque el punto real del estudio es ver cómo interactúan los humanos con los modelos de lenguaje, para empezar.
Beto
Oh, está bien.
Alicia
Si eres un investigador que estudia cómo la gente escribe indicaciones (prompts) o cómo funciona la colaboración humano-IA, entonces obviamente quieres que tus trabajadores de plataforma usen las herramientas tanto como sea posible.
Beto
No es un error. Es la característica central del estudio.
Alicia
Exacto. Y si conectamos esto con la imagen más amplia, lo que toda esta taxonomía nos dice es que la vieja era de la recopilación de datos está oficialmente muerta.
Beto
Se acabó.
Alicia
El crowdsourcing solo puede sobrevivir si fundamentalmente dejamos de tratarlo como un método barato y ultrarrápido para succionar datos.
Beto
Los incentivos económicos tienen que cambiar.
Alicia
Lo hacen. Si quieres esfuerzo humano auténtico y de alta calidad, tienes que ofrecer un pago justo. Tienes que diseñar tareas significativas y atractivas que los humanos realmente quieran hacer, en lugar de formularios sin sentido y repetitivos que prácticamente ruegan por ser automatizados.
Beto
Obtienes exactamente lo que pagas por ello. Si pagas unos pocos centavos por mano de obra robótica barata, vas a obtener datos robóticos y baratos.
Alicia
Exacto. La comunidad de investigación y el mundo en general, tiene que tratar el uso de IA generativa, no como un fallo temporal para ser parchado, sino como una variable sistémica permanente, en todo comportamiento humano, de ahora en adelante.
Beto
Esa es una forma fenomenal de sintetizar este artículo.
Así que hagamos un breve resumen de nuestro viaje en esta inmersión profunda.
Alicia
Suena bien.
Beto
Comenzamos mirando la increíble ironía de los trabajadores de plataforma usando IA para generar datos humanos para sistemas de entrenamiento de IA.
Alicia
La serpiente que se come la cola.
Beto
Correcto. Y miramos el frenesí del juego del ratón que están jugando los investigadores, buscando etiquetas en negrita sobrantes e intentando bloquear el copiar y pegar, porque los detectores de IA automatizados dependen de matemáticas predecibles y fallan constantemente contra ataques de parafraseo.
Alicia
Simplemente no funcionan.
Beto
Exploramos los efectos posteriores devastadores de esto, la homogeneización de nuestros datos, la pérdida de esos casos extremos únicos humanos, y la aterradora perspectiva del colapso del modelo donde nuestros sistemas se ahogan en lodo sintético.
Alicia
El peor escenario posible.
Beto
Y finalmente, miramos la guía de supervivencia, adaptando nuestros estudios para restringir, controlar, o abrazar la IA, dependiendo de este objetivo específico, y dándonos cuenta de que tenemos que empezar a pagar por calidad, sobre cantidad.
Entonces, ¿qué significa todo esto?
Alicia
Bueno, nos deja con una pregunta verdaderamente fascinante y quizás ligeramente inquietante a largo plazo para reflexionar.
Beto
Oh, ¿cuál es?
Alicia
A medida que la IA generativa se integra completamente y sin problemas en nuestras vidas diarias, escribiendo nuestros correos electrónicos, terminando nuestros mensajes de texto, esbozando nuestros informes corporativos, nuestros propios estilos de escritura humana van a adaptarse.
Beto
Oh, vaya.
Alicia
Poco a poco vamos a internalizar la cadencia cortés y genérica de las máquinas. ¿En qué punto nuestra escritura humana real comenzará a imitar a la IA?
Beto
Eso es un pensamiento loco.
Alicia
Si avanzamos diez años y un investigador está usando señales textuales para filtrar el texto que suena a IA, ¿filtrará accidentalmente a los humanos reales? Simplemente porque todos hemos aprendido inconscientemente a sonar exactamente como las herramientas que usamos todos los días.
Beto
Vaya. Lentamente nos convertimos en los bots que construimos. Es la difuminación definitiva de la línea entre creador y creación.
Alicia
Realmente lo es.
Beto
Y nos trae de vuelta a donde empezamos, esa ironía alucinante de que los humanos y las máquinas se enreden y se entrenen mutuamente. Ya no puedes saber quién estaba tirando de los hilos.
Alicia
Exacto.
Beto
Si los investigadores están usando IA para llenar encuestas sobre IA, el futuro ya está aquí y es increíblemente desordenado.
Muchas gracias por acompañarnos en esta inmersión profunda. Sigan cuestionando los datos a su alrededor. Estén atentos a esos asteriscos sobrantes y nos encontraremos la próxima vez.