domingo, 28 de septiembre de 2025

Agentes de IA que escuchan

Hoy les traigo un artículo científico interesante, que menciona la utilidad de agentes converzacionales de inteligencia artificial, que potencialmente tienen muchas aplicaciones útiles, pero también cuestiona los puntos de vista éticos, porque, mal usados, podrían convertirse en agentes de vigilancia.

El artículo fue publicado el 19 de Septiembre de 2025, y escrito por Andrew Zhu and Chris Callison-Burch, de la Universidad de Pensilvania (EEUU).

El enlace al artículo original, en inglés, es el siguiente:

Overhearing LLM Agents:
A Survey, Taxonomy, and Roadmap

El artículo fue resumido, transcrito y traducido, utilizando herramientas de software de Inteligencia Artificial.

El resumen se presenta como un diálogo entre dos personajes ficticios (sintéticos), que llamaremos Alicia y Beto.


Resumen

Beto:
Bien, desgranemos esto. Durante muchísimo tiempo, cuando pensamos en IA, todo ha girado en torno a la interacción, ¿no?

Alicia:
Sí. Escribes algo, hablas con algo.

Beto:
Exacto. Le das un prompt a un chatbot, usas una palabra de activación para tu altavoz inteligente. Es activo. Necesita tu atención.

Alicia:
Esa es la forma común en la que nuestras fuentes llaman "agentes conversacionales". Pero hoy nos adentramos en algo bastante diferente, este campo emergente:
agentes LLM que escuchan de fondo.

Beto:
“Overhearing”. Sí, el nombre ya suena un poco a vigilancia, quizá. Pero los casos de uso potenciales son, bueno, enormes.

Alicia:
Definitivamente.

Beto:
Hablamos de IA que no necesita que chatees con ella ni que la despiertes. Simplemente escucha lo que ocurre en el entorno.

Alicia:
Sí.

Beto:
Conversaciones humanas, tipeos, incluso lo que haces físicamente.

Alicia:
Sí, monitorea esa actividad ambiental y luego proporciona ayuda contextual cuando cree que la necesitas. Y la clave es que lo hace en silencio, sin interrumpir tu flujo. Así que toda la misión de este análisis profundo es sintetizar una nueva forma de pensar esto, una taxonomía para este concepto. Queremos mostrar cómo podrían funcionar estos agentes, cómo podrían mejorar lo que haces sin exigir tu atención explícita e inmediata.

Beto:
Porque el poder está en anticipar la necesidad, no solo en reaccionar a un comando.

Alicia:
Precisamente.

Beto:
Y los escenarios que mencionan las fuentes realmente dan vida a esta idea, la hacen muy atractiva.

Alicia:
Vale, piensa en educación por un segundo. Imagínate una discusión en clase, ¿vale? Y los estudiantes se atascan con, no sé, algo como el ciclo de Krebs. Bien. El agente, que está funcionando tranquilamente en segundo plano, capta la confusión, quizá los términos que usan incorrectamente. Y en el momento justo, ¡pum!, encola un diagrama aclaratorio en la pizarra inteligente.

Beto:
Sin que el profesor tenga que parar, buscar o trastear con la tecnología.

Alicia:
Exacto. Es como el asistente silencioso perfecto.

Beto:
O imagina en casa:
estás cenando y hablando sobre planes para el fin de semana. Y todos empiezan a inclinarse por, digamos, ir de excursión a ese nuevo sendero. El agente nota que se está formando ese consenso, ...

Alicia:
... pero no interrumpe,

Beto:
¿vale? En su lugar, con discreción, recupera el pronóstico del tiempo para la ruta, quizá algunas valoraciones de dificultad, y lo encola para que lo consultes más tarde en tu teléfono.

Alicia:
Está anticipando el siguiente paso. Y en situaciones de mucho riesgo, como una consulta médica, es aún más claro.

Beto:
¿Cómo es eso?

Alicia:
Pues el médico está escuchando atento los síntomas del paciente. Mientras tanto, el agente que escucha de fondo está procesando esa conversación. Podría recuperar casos previos relevantes o los artículos de investigación más recientes sobre esos síntomas ...

Beto:
... y mostrárselos.

Alicia:
Sí, pero de forma no intrusiva, quizá en la tablet del médico a un lado. Así que tienen la información más actual sin perder la concentración.

Beto:
Espera. ¿Cómo sabe el agente qué se necesita? Sin que se lo digas directamente, eso parece la diferencia principal con un chatbot estándar.

Alicia:
Esa es absolutamente la dificultad central. Es fascinante porque, como dicen las fuentes, el agente tiene que establecer creencias sobre las intenciones del usuario sin la capacidad de preguntarlas directamente.

Beto:
Exacto. Un chatbot recibe “reservar un vuelo”. Sencillo.

Alicia:
Correcto. Pero el agente que escucha de fondo tiene que inferir esa necesidad a partir de la realidad desordenada de una conversación. Tiene que captar pausas, tonos, quizá quién está de acuerdo con quién —mucho, mucho más difícil. Y esa dificultad, esa ambigüedad, nos lleva de lleno a la primera parte de la taxonomía:
cómo el agente decide cuándo empezar a escuchar o a asistir. Llamamos a esto iniciativa.

Beto:
Vale, el cuándo, y acertar aquí parece crítico. Si no, podría resultar en sugerencias molestas por saturación.

Alicia:
Totalmente. Llaman al enfoque “siempre activo” el más básico, pero quizá el más problemático.

Beto:
Significa que simplemente siempre está escuchando.

Alicia:
Sí, el punto a favor es obvio:
nunca se pierde la oportunidad de ayudar.

Beto:
Los contras, procesamiento constante y enormes preocupaciones de privacidad, ¿verdad?

Alicia:
Masivas. Y como dijiste, sin un filtrado muy inteligente de relevancia, acabarías abrumado con sugerencias inútiles. Tiene que saber que no debe sugerir una receta cada vez que mencionas “cena”.

Beto:
Entonces, ¿cuál es la alternativa? Las fuentes mencionan un estudio clave.

Alicia:
Sí, un estudio comparó directamente “siempre activo” con un enfoque iniciado por el usuario.

Beto:
Es decir, el usuario lo activa de alguna forma, pero sutilmente.

Alicia:
Exacto. No un comando de voz, sino quizá un toque rápido de botón, un gesto específico, algo no intrusivo. Y la diferencia fue enorme. El modo iniciado por el usuario dio solo una quinta parte de activaciones en comparación con siempre activo.

Beto:
Vaya, una quinta parte. Eso es una gran reducción de la posible molestia.

Alicia:
No es solo molestia; es carga cognitiva. Hacer que el usuario dé ese pequeño paso para decir “vale, presta atención ahora”, incluso de forma subconsciente, parece reducir mucho la fatiga mental de sentirse constantemente observado o interrumpido.

Beto:
Es un intercambio entonces. Puedes perderte algo pero ganas tranquilidad.

Alicia:
Precisamente. Como Wordcraft, la herramienta de escritura:
solo sugiere continuaciones de texto cuando se lo pides, no constantemente.

Beto:
Bien, siempre activo o iniciado por el usuario. ¿Qué más?

Alicia:
Luego está el análisis posconversación. Esto significa que el procesamiento ocurre después de que la conversación ha terminado.

Beto:
Ah, pierdes la ayuda en tiempo real.

Alicia:
Sí, pero ganas la capacidad de analizar todo el contexto. Piensa en esos tomadores de notas por IA para reuniones.

Beto:
Claro. Resumen y extracción de tareas después de que termina la llamada de Zoom.

Alicia:
Exacto. A menudo subes la grabación explícitamente. Sacrificas inmediatez a cambio de un análisis potencialmente mucho más sofisticado y preciso.

Beto:
Y el último para el cuándo:

Alicia:
Activación basada en reglas. Esto se dispara por señales ambientales específicas. Como entrar en una sala de conferencias georreferenciada o cuando empieza una reunión concreta en tu calendario.

Beto:
Ah, como la inteligencia proactiva de Apple que actúa cuando un modo de concentración está activado.

Alicia:
Es un ejemplo perfecto. El disparador no es el contenido de la conversación; es una regla predefinida.

Beto:
Vale, eso es el cuándo. ¿Y el qué? ¿A qué tipo de entradas están escuchando estas cosas? Modalidad de entrada.

Alicia:
La más obvia y quizá más rica es el audio.

Beto:
Porque es conversación natural.

Alicia:
Sí, pero es más que las palabras:
obtienes tono, pausas, vacilaciones, todas esas señales implícitas que dicen mucho más que la transcripción.

Beto:
Aunque la mayoría de los sistemas aún transcriben primero.

Alicia:
Históricamente sí, pero hay mucho trabajo tratando de usar esas señales de audio crudas más directamente ahora.

Beto:
Bien, audio. Y está el texto.

Alicia:
Que se ve mucho en situaciones de un solo usuario:
escribir código, trabajar en un documento, quizá en una app de chat.

Beto:
La ventaja es clara.

Alicia:
Precisión perfecta, obviamente. Sin errores de transcripción. Y el contexto suele estar ya en el código en el que trabajas o en el párrafo que acabas de escribir.

Beto:
Tiene sentido. Y la última ...

Alicia:
Video. Esto permite entender señales no verbales y acciones físicas.

Beto:
Ver a alguien cocinar, por ejemplo.

Alicia:
Exacto. Existen grandes conjuntos de datos de investigación ahora, como ego exo 4d, que se centran en entender actividad humana desde video. Un agente podría verte terminar un paso de una receta y automáticamente iniciar el temporizador para el siguiente paso solo al ver tus acciones. No hacen falta palabras.

Beto:
Aquí es donde se pone realmente interesante. Bien, ya sabemos cuándo y qué podrían escuchar. Ahora pasamos al interior del agente:
básicamente su arquitectura, las cosas que puede hacer. Empecemos con la dimensión de estado. Solo lectura versus lectura/escritura.

Alicia:
Correcto. Las tareas de solo lectura son relativamente simples. Son sin estado.

Beto:
Significa ...

Alicia:
Es decir, no cambian nada a largo plazo. El agente recupera alguna información y te la muestra. Eso es todo.

Beto:
Como consultar la disponibilidad de alguien cuando intentas programar una reunión.

Alicia:
Ejemplo perfecto:
recupera la info, la muestra, tarea hecha, no altera el calendario.

Beto:
Ah, pero lectura/escritura sí altera cosas. Es con estado.

Alicia:
Exacto. Esto exige que el agente entienda el estado a largo plazo de las cosas y, críticamente, que modifique ese estado.

Beto:
Siguiendo con el ejemplo de la reunión:

Alicia:
Si el agente oye a todos acordar el martes a las 14:
00, un agente lectura/escritura no se quedaría solo en mostrar el consenso “martes 14:
00”; realmente añadiría ese evento a tu calendario.

Beto:
Vale, es un gran salto. Toma acción, cambia el entorno.

Alicia:
Pasa de recuperación pasiva de información a ejecución activa basada en su comprensión. Ese cambio de estado también afecta tareas futuras.

Beto:
Lo que conecta bien con la siguiente dimensión:
oportunidad (timeliness). Tiempo real versus asincrónico.

Alicia:
Sí, las tareas en tiempo real o síncronas son aquellas donde la velocidad importa. Su utilidad decae rápidamente si hay retraso.

Beto:
Como mostrar el siguiente paso de una receta mientras cocinas.

Alicia:
O realizar una búsqueda web rápida por un término que alguien acaba de mencionar en medio de una discusión:
tiene que ocurrir ahora. Asincrónico.

Beto:
Estas son tareas que no son críticas en tiempo; pueden ocurrir en segundo plano, tardar más y revisas los resultados después.

Alicia:
Tal como ...

Beto:
Podría ser lanzar un análisis complejo que lleve tiempo, como generar un informe grande. O escribir en su memoria a largo plazo algo que aprendió para usarlo después.

Alicia:
Bien, y la última dimensión aquí es interactividad:
primer plano versus segundo plano. Y esto implica que el agente hace una especie de pensamiento interno.

Beto:
Buena forma de decirlo. El agente usa la salida de su modelo de lenguaje interno, su proceso de pensamiento, para decidir qué hacer. La interactividad en primer plano es cuando decide mostrarte algo ...

Alicia:
una sugerencia, una notificación, una ventana emergente en pantalla.

Beto:
Exacto. Está interactuando con el usuario.

Alicia:
Mientras que en segundo plano es completamente silencioso.

Beto:
Totalmente silencioso para el usuario. Sí. Pero podría estar haciendo mucho internamente. Podría hacer múltiples llamadas a distintas herramientas, consultar bases de datos, actualizar su propia comprensión del mundo.

Alicia:
Como por ejemplo, recuperar notas de una reunión previa sobre el mismo tema para entender mejor la actual. Precisamente. Está haciendo la tarea, refinando su modelo interno, todo sin molestarte hasta que tenga algo realmente relevante para el primer plano. Si conectamos todo esto con el panorama general, la adopción realmente depende de dos cosas enormes.

Beto:
Déjame adivinar:
privacidad y utilidad.

Alicia:
Lo has adivinado. Privacidad y asegurar que la calidad de la interacción sea realmente útil, no solo ruido.

Beto:
El ángulo de la privacidad se siente enorme aquí. Por definición, estas cosas están grabando y procesando datos ambientales, a menudo en espacios muy privados.

Alicia:
Es intrínsecamente arriesgado. Hablamos de posible vigilancia generalizada, grabación accidental de IIP.

Beto:
IIP significa información de identificación personal:
nombres, direcciones, ese tipo de cosas.

Alicia:
Correcto. Y esa IIP grabada podría incluso quedar sujeta a descubrimiento legal más adelante. Es una preocupación seria.

Beto:
Entonces, ¿cuáles son las mejores prácticas para intentar gestionar eso?

Alicia:
Bueno, primero, los sistemas deben intentar redactar o anonimizar automáticamente la IIP. Hay herramientas para ello.

Beto:
¿Como cuáles? ¿Puedes dar un ejemplo?

Alicia:
Claro. Las fuentes mencionan herramientas como Microsoft Presidio; su trabajo es básicamente escanear flujos de datos y enmascarar o eliminar información sensible antes de que siquiera llegue a procesarla el modelo principal de IA.

Beto:
Bien, esa es una capa.

Alicia:
Luego, cualquier dato grabado localmente necesita un cifrado fuerte cuando está en reposo. Los usuarios también deberían tener la opción de procesamiento en el dispositivo, usando modelos más pequeños, lo que mantiene los datos locales.

Beto:
Más seguro, menos posibilidad de fugas.

Alicia:
Definitivamente. Y quizá lo más importante, desde un punto de vista ético, es el consentimiento claro. Y no solo del usuario principal, sino informar a todos los implicados cuando hay grabación o análisis en curso; eso es crucial.

Beto:
El consentimiento es complicado. Pero suponiendo que manejas la privacidad, aún queda el problema de la utilidad. Estos agentes están adivinando, ¿no? Así que a veces se equivocarán.

Alicia:
Los falsos positivos son inevitables, lo que significa que la forma de interactuar con las sugerencias tiene que ser absolutamente sin fricción.

Beto:
Si no, las acabarás ignorando. Terminaremos apagando la función.

Alicia:
Exacto. Así que principios clave:
las sugerencias deben ser verificables de un vistazo. Con una mirada rápida debes entenderlas, sin leer mucho.

Beto:
Entendido. Información rápida.

Alicia:
Tienen que poder descartarse sin fricción. Deslizar para descartarlas, listo, sin menús ni complicaciones.

Beto:
Tiene sentido.

Alicia:
Y especialmente para esas acciones de lectura/escritura, deben ser reversibles. Si añade ese evento al calendario, necesitas un botón de deshacer igual de fácil.

Beto:
El deshacer es crítico, sí.

Alicia:
Y por último, todas estas posibles sugerencias necesitan un sistema de cola inteligente.

Beto:
Con sentido.

Alicia:
Debe priorizar. Las cosas sensibles al tiempo, como ese documento que alguien acaba de mencionar que necesitas, deben aparecer ahora. Las cosas menos urgentes, quizá la generación de un informe, pueden fijarse o guardarse para que lo veas después. No puede ser simplemente un flujo aleatorio de ocurrencias del AI.

Beto:
Ahora, inevitablemente con tecnología potente, nos topamos con la pared de la ética. El potencial de uso indebido. Y ya ha habido un ejemplo concreto, ¿no? Ese incidente en la Universidad de Columbia (EEUU).

Alicia:
Sí, la controversia donde un estudiante aparentemente usó algún tipo de herramienta multimodal pasiva durante entrevistas de programación remotas.

Beto:
Básicamente hacer trampa, recibir respuestas en tiempo real.

Alicia:
Esa fue la acusación. Y realmente subraya la cuerda floja ética por la que caminamos. El argumento en el material fuente es que este caso de uso cambia fundamentalmente el rol del agente. Pasa de ayudar a tu enfoque y creatividad ...

Beto:
Que es todo un propósito.

Alicia:
... a reemplazar el trabajo intelectual central. Y los estudios aparentemente muestran que cuando la IA simplemente sustituye el pensamiento, los resultados tienden a ser menos originales, más genéricos.

Beto:
Así que la línea está entre ser copiloto y ser sustituto.

Alicia:
Asistencia versus sustitución:
esa parece ser la distinción crítica que trazan. Y esto plantea una pregunta muy importante:
¿cuáles son los mayores obstáculos técnicos para hacerlo bien? ¿Qué necesitan resolver los investigadores?

Beto:
Vale, reto número uno que identifican:
predecir los puntos de intervención.

Alicia:
Es decir, encontrar ese momento exacto.

Beto:
Sí, dentro de este flujo continuo de audio o video, ¿cómo hace el agente para señalar los perfectos milisegundos para ofrecer ayuda sin llegar demasiado pronto, demasiado tarde o de forma torpe? Eso es difícil.

Alicia:
Muy difícil. Reto número dos:
rendimiento multimodal. Procesar todo ese audio y video continuo en tiempo real exige muchísimo computo.

Beto:
¿Cómo lo optimizas?

Alicia:
Una idea que se explora es un esquema de tokenización de tasa variable.

Beto:
Tasa variable, quiere decir ...

Alicia:
Que en lugar de procesar datos por fragmentos a una tasa fija, se adapta según la densidad de información. Así que hablar rápido en una sala ruidosa usaría muchos tokens por segundo.

Beto:
Pero silencio o ruido de fondo ...

Alicia:
... emplearía muy pocos tokens. Se adapta a la riqueza de la entrada, lo que podría hacer el procesamiento en tiempo real mucho más eficiente.

Beto:
Ingenioso. Y el tercer gran reto. Este suena como un campo minado legal y social:
consentimiento multi-partícipe.

Alicia:
Sí, quizá este es el más espinoso. Si tú te beneficias de que el agente escuche, perfecto, pero ¿y todas las demás personas en la habitación o en la conversación? ¿Cómo obtienes su consentimiento?

Beto:
¿Saben siquiera lo que ha pasado?

Alicia:
Exacto. ¿Debe el sistema por defecto ser súper restrictivo, exigir que todos opten explícitamente? ¿O podemos desarrollar tecnología lo bastante inteligente como para ignorar o anonimizar selectivamente datos de personas que no han consentido, manteniéndose útil para el usuario principal?

Beto:
Eso suena increíblemente complejo de implementar de forma fiable.

Alicia:
Sí.

Beto:
Para cerrar:
los agentes que escuchan de fondo parecen una dirección realmente potente para la IA:
moverla de algo con lo que interactuamos activamente a algo que opera en silencio en segundo plano.

Alicia:
Sí, proporcionando esa ayuda contextual silenciosa uniendo entradas de audio, texto, video e incluso tomando acciones con estado, todo mientras intenta mantenerse fuera de tu línea de vista directa.

Beto:
La promesa es enorme:
integración fluida, menos fricción al tener que pedirle explícitamente las cosas a nuestros dispositivos.

Alicia:
Podría cambiar cómo interactuamos con la tecnología día a día.

Beto:
Lo que nos deja con el pensamiento provocador final para ti, oyente. Hemos visto el beneficio potencial:
asistencia increíble para el médico, el docente, quizá simplemente organizar planes familiares. Pero también hemos visto los riesgos de privacidad muy reales y serios, sobre todo cuando hay varias personas implicadas.

Alicia:
La pregunta es, ¿cuál es el estándar justo y ético de consentimiento aquí? ¿Deben estos sistemas por defecto usar siempre la configuración de privacidad más estricta, la opción menos permisiva, aunque eso implique perderse algunas de las aplicaciones más valiosas?

Beto:
¿O sería de otra manera? ¿Dónde trazarías la línea entre una asistencia de fondo genuinamente útil y una vigilancia no deseada en tu propia vida? Algo en qué pensar.