Mostrando entradas con la etiqueta código. Mostrar todas las entradas
Mostrando entradas con la etiqueta código. Mostrar todas las entradas

miércoles, 15 de abril de 2026

Informe Stanford 2026: IA en Ciencia

 
 

El texto presentado describe la rápida integración de la inteligencia artificial en diversos campos científicos, destacando 2025 como un año clave para los flujos de trabajo de investigación autónomos. Si bien la IA tradicionalmente ha ayudado en el análisis de datos, ahora está evolucionando hacia sistemas multiagente capaces de generar hipótesis, diseñar experimentos e incluso producir artículos revisados por pares. Se observan avances significativos en biología estructural, predicción meteorológica y ciencia de los materiales, impulsados por nuevos conjuntos de datos masivos y modelos fundamentales especializados. A pesar de estos avances, evaluaciones rigurosas revelan una brecha persistente entre los resultados generados por la IA y la fiabilidad de los expertos humanos, particularmente en la replicación de investigaciones complejas. Además, el informe subraya que la validación experimental sigue siendo un obstáculo crítico, ya que la capacidad de la IA para proponer descubrimientos supera actualmente la capacidad de la comunidad científica para ponerlos a prueba. En definitiva, el panorama está cambiando hacia una infraestructura de IA colaborativa, impulsada principalmente por instituciones académicas y gubernamentales, en lugar de solo por la industria.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: AI Index Report 2026 - Chapter 5 - Science. Publicado el 13 de Abril de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Alicia
Ya sabes, normalmente cuando imaginamos un avance científico, nos imaginamos este momento muy específico, casi cinematográfico.

Beto
Oh, totalmente.

Alicia
Claro. Como que te imaginas al investigador exhausto con la bata blanca. Está encorvado sobre un microscopio a las dos de la mañana y de repente jadea porque por fin ha encontrado esa pieza faltante del rompecabezas. Es una imagen profundamente humana.

Beto
Sí. Es el clásico momento "Eureka". Innatamente vemos la ciencia como un esfuerzo profundamente humano impulsado totalmente por la intuición humana, noches sin dormir y pura perseverancia.

Alicia
Verdad. Pero a partir de abril de 2026, esa imagen está efectivamente muerta.

Beto
De verdad lo está.

Alicia
Bienvenidos al análisis profundo de hoy. Hoy abrimos el informe AI Index 2026 de Stanford HAI recién publicado. Nos vamos a centrar en el capítulo cinco, que está enteramente dedicado al estado de la ciencia. Y los datos que estamos viendo gritan una cosa innegable: la IA ya no es sólo el microscopio. Se está convirtiendo en el investigador.


IA en Ciencia en 2025: Surge el colega científico de IA

Beto
El cambio de paradigma aquí es monumental. Es enorme. Y para realmente situarlo, deberíamos mirar brevemente hacia atrás cómo llegamos a este punto exacto, porque no surgió de la nada.

Alicia
No, para nada.

Beto
La comunidad científica realmente pasó a una marcha completamente nueva tras el Premio Nobel de Química de 2024.

Alicia
Oh, claro. Por el plegamiento de proteínas.

Beto
Exacto. Cuando Demis Hassabis, John Jumper, y David Baker ganaron ese premio por su trabajo en la predicción de estructuras proteicas impulsada por IA, fue un momento totalmente trascendental. El comité Nobel esencialmente validó la IA no sólo como un truco computacional interesante, sino como un motor fundamental del descubrimiento biológico.

Alicia
Fue un enorme sello de aprobación.

Beto
Lo fue. Y si combinas esa inmensa validación con cosas como el Centro Europeo de Pronósticos Meteorológicos a Medio Plazo desplegando con éxito modelos meteorológicos de IA en operaciones diarias, pues tienes la base para la absoluta explosión de progreso que estamos viendo ahora mismo.

Alicia
Así que retrocedamos un poco. Porque antes de meternos en los avances específicos y salvajes de este informe, necesitamos comprender el volumen físico de integración de IA que está ocurriendo en todas las disciplinas.

Beto
Las cifras son asombrosas.

Alicia
De verdad son una avalancha. Por ejemplo, sólo en 2025, el número de publicaciones relacionadas con IA en las ciencias naturales alcanzó aproximadamente 80,150.

Beto
Vaya.

Alicia
Sí, eso es un incremento del 26% respecto a 2024.

Beto
Un cuarto del campo moviéndose en un solo año. Es una locura. Y cuando miras la producción total, dependiendo del campo específico, la IA ahora representa entre el 5.8% y el 8.8% de toda la investigación científica publicada globalmente.

Alicia
Lo que no suena a mucho hasta que miras la historia.

Beto
Para poner esa escala en perspectiva, en 2010 ese número estaba por debajo del 1%.

Alicia
Literalmente un error de redondeo.

Beto
Exactamente. Entonces era una metodología de nicho. Ahora es el motor.

Alicia
Lo que realmente me sorprendió del informe, sin embargo, es quién está liderando ese avance. Habría apostado por física pura o, no sé, ciencias de la computación. Pero las Ciencias de la Tierra actualmente tienen la mayor tasa de penetración de IA con un 8.8%.

Beto
Lo cual en realidad tiene perfecto sentido si consideras la mecánica cruda de las Ciencias de la Tierra.

Alicia
¿Cómo es eso?

Beto
Campos como la meteorología y la climatología dependen de estas redes globales de satélites y sensores que han estado volcando petabytes de datos estructurados a servidores durante décadas.

Alicia
Oh, y a la IA le encanta los datos estructurados.

Beto
Se alimenta de ellos. El informe de Stanford destaca algo mucho más fundamental que está pasando con todos estos datos. Nos estamos alejando de usar la IA para optimizar pasos individuales aislados en una tubería.

Alicia
Como solo limpiar imágenes de satélite o detectar un patrón aislado.

Beto
Exacto. Estamos pasando, de eso, a usar la IA para ejecutar todo el flujo de trabajo científico de extremo a extremo.

Alicia
El informe cita nuestro trabajo meteorológico para esto y el contraste es asombroso. Tradicionalmente, la predicción numérica del tiempo depende de una tubería masiva y compleja con docenas de pasos discretos diseñados por humanos.

Beto
Sí, muchas piezas móviles.

Alicia
Claro. Tienes ecuaciones de física, dinámica de fluidos y termodinámica todo ensamblado meticulosamente. Pero ArtVark Weather llegó y completamentó barrió esa tubería tradicional. La reemplazaron por un único sistema de aprendizaje automático.

Beto
Simplemente mira los datos meteorológicos pasados y predice los datos meteorológicos futuros de un solo golpe.

Alicia
Exacto. La diferencia entre mejorar una línea de montaje de una fábrica con trabajadores humanos más rápidos frente a derribar toda la fábrica y reemplazarla con una sola impresora 3D masiva que escupe el producto terminado.

Beto
Es una gran manera de decirlo. Elude por completo los pasos físicos diseñados por humanos y simplemente encuentra los patrones estadísticos subyacentes en la atmósfera.

Alicia
Lo que en realidad me lleva a una objeción importante que tuve al leer sobre estos reemplazos de flujo de trabajo. Si la IA está tomando sistemas enteros de extremo a extremo, ¿los científicos humanos van a convertirse simplemente en gestores de laboratorios para software?

Beto
Esa es una preocupación muy común.

Alicia
Quiero decir, ¿nos vamos a quedar sentados supervisando racks de servidores mientras la IA hace la ciencia real?

Beto
Esa es la ansiedad máxima en el campo ahora mismo. Pero pasa por alto una matización crucial sobre cómo aprenden realmente estos sistemas.

Alicia
OK. ¿Cuál es la matización?

Beto
Bueno, los avances más claros e innegables están ocurriendo en dominios científicos que ya poseen una enorme, profundamente organizada infraestructura de datos. Hablamos de campos como la biología estructural, la física y la química, donde los seres humanos han pasado generaciones catalogando las reglas de la realidad.

Alicia
Exacto. Las ciencias duras.

Beto
Sí. La IA no está generando marcos conceptuales totalmente novedosos de la nada. No está inventando las matemáticas de una nueva dimensión.

Alicia
Está sintetizando lo que ya existe.

Beto
Exacto. Está sintetizando las enormes cantidades de datos que ya hemos estructurado. En escala y velocidad, algo que físicamente no podemos igualar.

Alicia
Así que necesita que la mesa esté puesta antes de poder comerse el banquete.

Beto
Precisamente. Acelera la síntesis de datos existentes, en lugar de reemplazar la capacidad humana para saltos conceptuales fundamentales.

Alicia
Aquí es donde se pone realmente interesante, porque el informe desglosa exactamente dónde está ocurriendo esta aceleración. Y hay una sorpresa enorme escondida en la sección de biología.

Beto
Oh, esto es fascinante.

Alicia
En el mundo tecnológico más amplio, constantemente nos dicen que los modelos de IA más grandes siempre son mejores. Más grande es mejor, ¿no? En biología molecular ahora mismo, modelos más pequeños están superando activamente a los enormes.

Beto
Esto cambia por completo la narrativa de fuerza bruta computacional que hemos estado escuchando durante años.

Alicia
Exacto. Miremos el benchmark ProteinGym, que prueba qué tan bien una IA puede predecir los efectos de mutaciones en proteínas. Un modelo llamado MSA Pairformer ocupó el primer lugar. Ahora, si pensamos en parámetros como las conexiones digitales o sinapsis en el cerebro de una IA, las vías que usa para procesar información, MSA Pairformer sólo tiene 111 millones de ellas.

Beto
Eso es diminuto en términos actuales.

Alicia
Es minúsculo. Y aun así venció a métodos significativamente más grandes anteriores. Y vemos exactamente lo mismo en genómica con un modelo llamado GPN-STAR. Opera con apenas 200 millones de parámetros. Y superó por completo a un modelo masivo que corría con 40 mil millones de parámetros.

Beto
El mecanismo detrás de esto es simplemente genial. Cuando entrenas un modelo de lenguaje de propósito general para escribir correos o, no sé, poesía, el lenguaje humano es increíblemente desordenado.

Alicia
Oh, totalmente. Jerga, modismos, todo eso.

Beto
Está lleno de matices, ambigüedad y contexto cultural. Para entender todo ese desorden, la IA necesita un cerebro de miles de millones de parámetros. Pero los datos biológicos como el ADN y las secuencias de aminoácidos funcionan mucho más como un alfabeto finito y altamente estructurado.

Alicia
Las reglas de la biología molecular son estrictas.

Beto
Muy estrictas. Tener una arquitectura muy refinada y datos biológicos increíblemente limpios y curados importa mucho más que simplemente lanzar miles de millones de parámetros al problema.

Alicia
Esa eficiencia biológica está impulsando lo que parece ser la frontera más emocionante en las ciencias de la vida ahora mismo: la célula virtual.

El informe de Stanford destaca modelos como Evo 2 del ARC Institute y AlphaGenome de DeepMind. Evo 2 por sí solo fue entrenado en Open Genome 2, que es un conjunto de datos que contiene 9.3 billones de pares de bases de ADN curado de todos los dominios de la vida.

Beto
La ambición de la célula virtual no es sólo mapear el ADN. Es predecir las respuestas celulares a cosas como fármacos nuevos o mutaciones genéticas enteramente in silico.

Alicia
Probablemente debamos definir eso un segundo porque se oye mucho "wet lab" e "in silico" en este espacio.

"Wet lab" es tu ciencia física tradicional. Estás en una sala con pipetas, placas de Petri, reactivos químicos y células vivas reales.

Beto
Te ensucias las manos.

Alicia
Exacto. Mientras que "in silico" significa realizar el experimento completamente dentro de una simulación por computador.

Beto
Y si puedes simular con precisión cómo una célula compleja reaccionará a un nuevo compuesto químico in silico antes de poner un pie en un wet lab, la velocidad a la que podemos descubrir nuevos medicamentos se vuelve exponencial.

Alicia
Evitas meses de prueba y error físico.

Beto
Exacto.

Alicia
Y las implicaciones de velocidad son simplemente asombrosas en todos los frentes.

Volviendo a las Ciencias de la Tierra, hablamos de cómo tiene la mayor penetración de IA y los modelos fundacionales que están construyendo son aterradoramente rápidos.

Beto
Realmente lo son.

Alicia
El informe detalla FourCastNet 3. Este sistema genera un pronóstico global del tiempo a 60 días con un detalle bastante fino, como resolución de 2.5 grados, en menos de 4 minutos.

Beto
Utilizando sólo una GPU, una sola unidad de procesamiento gráfico.

Alicia
Esa es la parte más loca. Los enfoques anteriores requerían supercomputadoras del tamaño de una sala que trabajaban durante horas para hacer esto. FourCastNet 3 corre entre 8 y 60 veces más rápido que esos métodos tradicionales.

Beto
La ganancia de eficiencia es casi difícil de comprender.

Alicia
Podrías literalmente sentarte en tu escritorio, ejecutar docenas de posibles escenarios meteorológicos globales de dos meses para seguir la trayectoria potencial de un huracán y terminar antes de que tu café de la mañana se enfríe.

Beto
Y la astronomía está viendo un salto de infraestructura muy similar. El campo acaba de lanzar AION-1, que opera como el primer modelo fundacional de la astronomía.

Alicia
Oh, wow.

Beto
Sí, lo entrenaron con más de 200 millones de objetos celestes extraídos de cinco grandes encuestas astronómicas. Así que en lugar de que cada universidad construya sus propias herramientas aisladas, todo el campo se está moviendo hacia construir infraestructura fundacional de IA compartida a la que cualquier investigador pueda acceder.

Alicia
Pero si hablamos de capacidad bruta, mi dato favorito absoluto está en la sección de física. Es un agente de IA llamado Physics Supernova.

Beto
Oh, este es salvaje.

Alicia
Este agente literalmente participó en la Olimpiada Internacional de Física 2025. Ahora, estos no son solo ecuaciones de enchufar y resolver. Estos problemas requieren razonamiento lógico en múltiples pasos, conciencia espacial y aplicación conceptual profunda de las leyes de la física.

Beto
Son notoriamente difíciles para los humanos.

Alicia
Claro. Y Physics Supernova obtuvo 23.5 de 30. Quedó en el puesto 14 de 406 participantes humanos alcanzando el equivalente del nivel de medalla de oro.

Beto
Es simplemente increíble.

Alicia
Ahora tenemos una IA que puede razonablemente superar a algunos de los estudiantes de física más brillantes del planeta en problemas complejos.

Beto
Es una demostración asombrosa de procesamiento lógico. Creo que realmente necesitamos pisar el freno aquí.

Alicia
OK, para el tren del hype. Lo entiendo. Porque si estás sentado oyendo que la IA está ganando olimpiadas de física y prediciendo con precisión dos meses de clima global en cuatro minutos, tienes que preguntarte por qué no ha curado todas las enfermedades importantes y ha resuelto la fusión fría a estas alturas.

Beto
Exacto. Lo fascinante aquí es el enorme correctivo de realidad que exponen los benchmarks de 2025. Cuando miras debajo del capó de estos sistemas de extremo a extremo, hay una brecha evidente entre producción científica plausible y trabajo científico fiable.

Alicia
Sí, no son perfectos.

Beto
Los modelos pueden realizar actos aislados brillantes de cálculo, pero tropiezan violentamente cuando se trata de consistencia básica.

Alicia
Esto trae a colación la paradoja ChemBench, que honestamente me voló la cabeza. ChemBench es un benchmark de evaluación que contiene más de 2700 pares de preguntas y respuestas a través de distintas disciplinas de la química.

Beto
Una prueba muy exhaustiva.

Alicia
Claro. Y los modelos de vanguardia, los mejores que tenemos, en realidad superaron el promedio de expertos humanos en estas preguntas. Están superando a químicos profesionales en conjunto.

Beto
En las cosas realmente difíciles.

Alicia
Sí. Pero inexplicablemente, fallan de forma consistente en las tareas más básicas y fundamentales de la química. Me gusta pensarlo como contratar a un chef con estrella Michelin que puede ejecutar a la perfección un soufflé complejo, delicado y con muchas capas, pero que de alguna manera consigue activar la alarma de humo quemando una tostada todas las mañanas.

Beto
El fenómeno del "tostar-pan quemado" es la manera perfecta de visualizarlo. Y el mecanismo detrás de por qué ocurre esto es crucial. Los grandes modelos de lenguaje operan prediciendo el siguiente token más probable basándose en sus datos de entrenamiento.

Alicia
En realidad, no saben lo que están diciendo.

Beto
Exacto. No entienden inherente las propiedades físicas de los químicos de los que hablan. Así que una IA podría recitar fácilmente una vía de síntesis compleja porque memorizó un artículo avanzado específico de sus datos de entrenamiento.

Alicia
Claro.

Beto
Pero si le preguntas una cuestión de estequiometría ligeramente novedosa que requiere una comprensión fundamentada básica de la masa física, alucina completamente una respuesta, porque le falta un modelo fundamental de la realidad física.

Alicia
Y esa falta de anclaje físico, causa problemas enormes cuando pedimos a la IA hacer ciencia de extremo a extremo.

Beto
Realmente lo hace.

Alicia
El informe destaca un benchmark llamado ReplicationBench, que prueba la capacidad de una IA para replicar los hallazgos de artículos de astrofísica computacional. Los modelos de frontera puntúan por debajo del 20%.

Beto
Menos de uno de cada cinco intentos tiene éxito.

Alicia
Eso es terrible.

Beto
Lo es. Y vemos la misma falla estructural en Univert, que evalúa agentes de grandes modelos de lenguaje en preguntas de observación terrestre. Los agentes sólo alcanzaron un 33% de precisión. Peor aún, cuando estos agentes intentaron escribir el código Python necesario para procesar los datos de satélite, su código falló el 58% de las veces. La máquina literalmente rompe su propia tubería.

Alicia
Espera, más de la mitad de las veces el software simplemente se cae.

Beto
Sí. Y esto resalta una diferencia estructural profunda, en cómo se está desarrollando la IA para la ciencia, comparada con la IA en nuestros teléfonos. Los modelos fundacionales de propósito general, los que escriben correos o generan arte, están dominados por gigantes tecnológicas que raspan internet entero.

Alicia
Cierto. Tienen datos infinitos.

Beto
Pero los modelos de IA para la ciencia, provienen principalmente de instituciones académicas y gubernamentales. Los conjuntos de datos de ciencias de la Tierra, por ejemplo, provienen casi íntegramente de agencias espaciales públicas y universidades.

Alicia
Que es un grupo más pequeño.

Beto
Lo es. Estos datos son altamente especializados, increíblemente densos y fuertemente escrutados. Cuando una IA de propósito general alucina una línea en un poema, se considera creativa.

Alicia
Cierto.

Beto
Cuando una IA científica pierde un signo menos y una línea de código destinada a procesar datos de presión atmosférica, toda la tubería de investigación multimillonaria se colapsa. La precisión aquí no es negociable.

Alicia
Entonces, si los modelos individuales son estas entidades brillantes, pero tremendamente poco fiables, que siguen quemando la tostada, ¿cómo está la comunidad científica arreglando esto realmente? Porque el informe muestra que claramente están progresando a pesar de esas enormes tasas de fallo.

Beto
Bueno, el campo se dio cuenta de que confiar en un único agente de IA es un callejón sin salida. La solución a la que están llegando es flujos de trabajo multiagente.

Alicia
OK. Esencialmente es armar una cuadrilla tipo "Ocean's Eleven", pero para investigación científica.

Beto
En realidad es una analogía bastante precisa.

Alicia
Bien. Así que en lugar de pedirle a una IA solitaria que tenga la idea, escriba el código, y analice los datos, activas un equipo de agentes de IA especializados. Asignas a un agente a no hacer otra cosa que rastrear los últimos 20 años de literatura científica.

Beto
Exacto.

Alicia
Un segundo agente escribe el código Python basado en esa literatura.

Un tercer agente diseña los parámetros experimentales.

Y un cuarto agente simplemente actúa como escéptico revisando constantemente el trabajo de los otros tres y señalando errores lógicos.

Beto
Y esa especialización cambia por completo la dinámica de fiabilidad. El ejemplo más destacado de los datos de 2025 es el co-Scientist de IA de Google. Utiliza un marco que llaman "Generate-Debate-Evolve" loop.

Alicia
Generate-Debate-Evolve. ¿Cómo funciona eso?

Beto
El Agente A genera una hipótesis biológica basada en un conjunto de datos. El Agente B inmediatamente la debate, intentando activamente destruir la hipótesis comprobándola contra las leyes conocidas de la física y la biología.

Alicia
Hace de abogado del diablo.

Beto
Exacto. El Agente A toma esa crítica y evoluciona la hipótesis. Es un bucle iterativo a alta velocidad que imita el riguroso proceso de revisión por pares de un laboratorio humano.

Alicia
¿Y funciona mejor?

Beto
Los resultados son innegables. El co-científico de Google alcanzó un 78.4% de precisión en el conjunto GPQA Diamond, que es una de las pruebas de nivel doctoral más notoriamente difíciles que existen.

Alicia
Vaya, casi un 80%.

Beto
Y mejor aún, sus hipótesis fueron validadas en tres áreas biomédicas reales y distintas.

Alicia
Lo que suena fenomenal. Pero luego miras otro benchmark importante en el informe llamado PaperArena. PaperArena es una prueba que evalúa a estos agentes en preguntas reales y complejas de investigación, requiriéndoles buscar literatura, usar herramientas computacionales y llegar a respuestas novedosas.

Beto
Es una prueba muy práctica.

Alicia
Sí. En una configuración multiagente, Gemini 2.5 Pro tuvo el mejor desempeño, pero sólo alcanzó una tasa de acierto del 38.8%. Cuando leí eso por primera vez pensé: espera, ¿38.8%? Eso suena completamente desastroso para un sistema al que llamamos co-científico. ¿Se considera eso bueno?

Beto
Sé que suena bajo, pero para entender por qué los investigadores consideran el 38.8% una victoria enorme, tienes que mirar la línea base. La línea base de expertos PhD humanos en ese mismo benchmark es 83.5%.

Alicia
OK. Así que el mejor sistema de IA del mundo, con múltiples agentes, todavía está alcanzando menos de la mitad de lo que un experto PhD humano logra en estas tareas científicas de extremo a extremo.

Beto
Exacto. La IA definitivamente no está reemplazando al PhD humano por ahora. Sin embargo, lo que PaperArena probó más allá de toda duda es el poder de la arquitectura.

Alicia
El enfoque de la cuadrilla de atraco.

Beto
Exacto. En todos los frentes, las configuraciones multiagente superaron consistentemente a los agentes solitarios por dos a cuatro puntos porcentuales. La cuadrilla es demostrablemente más fiable que el operativo solitario, aunque todavía falle la mayoría de las veces.

Alicia
Y estamos viendo hitos enormes que prueban que esta arquitectura multiagente es el plano para el futuro. El informe detalla AI Scientist V2, de Sakana. Este sistema produjo el primer artículo totalmente generado por IA que fue aceptado en un taller académico revisado por pares, ICLR.

Beto
Eso es un gran logro.

Alicia
Realmente lo es. Y no usó plantillas codificadas por humanos. La IA generó la idea original, escribió el código experimental, ejecutó las pruebas, interpretó los datos y redactó el manuscrito final.

Beto
Totalmente de forma autónoma.

Alicia
Pero me dejó aún más sorprendida otro sistema llamado Kosmos. Kosmos no sólo escribió un artículo. Básicamente vivió en el laboratorio. Pusieron en marcha este sistema multiagente y corrió de forma autónoma hasta 12 horas seguidas.

Beto
Y en esa media jornada ejecutó 42,000 líneas de código. Estuvo constantemente leyendo, iterando y depurando su propio software, mientras simultáneamente analizaba 1,500 artículos científicos diferentes.

Alicia
Los colaboradores humanos que monitoreaban a Cosmos declararon que una sola corrida de 12 horas aproximaba seis meses de esfuerzo de investigación humana tradicional.

Beto
Condensar medio año de iteración en una sola tarde.

Alicia
Entonces, ¿qué significa todo esto cuando nos detenemos y miramos el tablero completo?

Si miramos el capítulo cinco del informe AI Index de Stanford, la conclusión central es absoluta: la IA está haciendo con éxito el salto de ser una herramienta analítica a convertirse en el motor fundamental del flujo de trabajo de la ciencia moderna.

Beto
Indudablemente.

Alicia
Estamos presenciando saltos asombrosos en velocidad, escala y la mera capacidad de procesar billones de pares de bases biológicos o mapear cientos de millones de galaxias. El experto humano sigue siendo el ancla crucial.

Beto
Todavía nos necesitan.

Alicia
Definitivamente necesitamos al PhD humano para diseñar los parámetros y supervisar los bucles de debate multiagente. Y, lo más importante, para atrapar la tostada quemada antes de que prenda fuego al laboratorio. Los sistemas no pueden confiarse por completo para operar de extremo a extremo de forma aislada todavía.

Beto
Si conectamos esto con la imagen más amplia del progreso humano, nos topamos con el cuello de botella inmóvil definitivo. Y ese cuello de botella, no es la potencia informática, ni el almacenamiento de datos.

Alicia
¿Qué es?

Beto
El cuello de botella es el mundo físico mismo.

Alicia
El "wet lab", la realidad material.

Beto
Exacto. La IA puede proponer computacionalmente cinco millones de estructuras moleculares nuevas para mañana por la mañana. Puede hipotetizar reacciones celulares totalmente nuevas o sugerir cientos de dianas farmacológicas desconocidas en una tarde in silico.

Alicia
Claro.

Beto
Pero la validación experimental, tomar esa brillante hipótesis digital y probar que funciona en un wet lab físico, o realizar ensayos clínicos humanos de varios años para asegurar que un fármaco sea seguro, sigue siendo increíblemente caro, tedioso y sujeto a las inmutables leyes del tiempo.

Alicia
No puedes avanzar el tiempo.

Beto
No, no puedes. El informe de Stanford apunta específicamente que mientras sistemas como AI Scientist V2 pueden escribir un flujo interminable de artículos plausibles, la lista de descubrimientos de IA, que han sido realmente confirmados experimentalmente, en el mundo real, sigue siendo sorprendentemente corta.

Alicia
Porque físicamente no podemos probar las cosas tan rápido como la IA las inventa. En descubrimiento de fármacos, puedes simular un enlace proteína-ligando en milisegundos. Pero los ensayos clínicos para determinar si esa molécula realmente cura a un paciente sin efectos secundarios siempre tomarán años. Simplemente no puedes acelerar la biología humana.

Beto
Estamos logrando cerrar la brecha entre la ideación digital y la realidad física. Pero la realidad física tiene un límite de velocidad estricto.

Alicia
Lo que nos deja con una tensión realmente fascinante. Y quiero dejarte con un pensamiento final para que lo mastiques mientras digieres todos estos números.

Si un sistema multiagente como Kosmos ahora puede literalmente condensar seis meses de codificación de investigación humana en una sola ejecución de 12 horas, ¿qué pasa cuando el principal cuello de botella para el progreso humano ya no sea nuestra falta de ideas?

Beto
Es una pregunta profunda.

Alicia
¿Qué le ocurre a la sociedad cuando nuestro mayor obstáculo es simplemente nuestra incapacidad física para probar el enorme volumen de teorías brillantes que nuestras máquinas están vomitando antes de la hora del almuerzo? ¿Vamos a ahogarnos en genialidad no verificada?

Beto
Hemos pasado siglos tanteando en la oscuridad, buscando desesperadamente una sola pieza brillante del rompecabezas. Ahora la máquina está tirando un millón de piezas brillantes sobre la mesa cada día.

Alicia
De repente, ese investigador solitario, a las dos de la mañana, ya no está luchando por encontrar un avance, está enterrado bajo una montaña de ellos.

Beto
Muchas gracias por acompañarnos en este análisis profundo del informe AI Index de Stanford.

Sigue leyendo, sigue explorando y sigue cuestionando los datos que te rodean. Nos vemos la próxima vez.

lunes, 13 de abril de 2026

Informe Stanford 2026: Rendimiento Técnico

 
 

Este informe técnico describe la rápida aceleración de las capacidades de la IA a lo largo de 2025, destacando que los modelos de vanguardia superan con frecuencia el rendimiento humano. Si bien los indicadores técnicos muestran una reducción de la brecha entre los principales competidores globales y una convergencia del rendimiento entre los proveedores más importantes, los investigadores advierten que estas pruebas se están saturando o volviendo poco fiables. El informe documenta avances significativos en tareas lingüísticas especializadas, comprensión de vídeo y agentes autónomos, aunque señala que estos sistemas aún enfrentan desafíos en cuanto a la fiabilidad en el mundo físico y el razonamiento complejo. Los modelos están evolucionando desde simples generadores de texto hasta agentes capaces y sistemas multimodales que comienzan a simular leyes físicas. A pesar de estos avances, la "inteligencia irregular" sigue siendo un obstáculo, ya que los modelos pueden sobresalir en matemáticas avanzadas, pero fallar en tareas sencillas y de sentido común, como leer la hora. En definitiva, el ritmo de la innovación en IA está superando actualmente los marcos utilizados para evaluar y gestionar estas potentes tecnologías.

Enlace al reporte científico, para aquellos interesados en profundizar sobre el tema: "AI Index Report 2026 - Chapter 2 - Technical Performance". Publicado el 13 de Abril de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Ahora mismo existe una IA que puede ganar una medalla de oro en la Olimpiada Internacional de Matemáticas.

Alicia
Lo cual es una locura pensarlo.

Beto
Lo es. Quiero decir, literalmente podría resolver física a nivel de posgrado.

Alicia
Sí.

Beto
Pero si le pides a esa misma supercomputadora que, ya sabes, mire una foto de un reloj de pared estándar.

Alicia
Correcto. Un reloj analógico.

Beto
Sí. Y que te diga la hora, falla el 50 % de las veces. Es como lanzar una moneda.

Alicia
Literalmente una tirada de moneda.

Beto
Bien. Bienvenidos a nuestro análisis profundo del material fuente.

Alicia
Ajá.

Beto
Hoy vamos a diseccionar el informe recién publicado del Stanford AI Index para 2026 para entender realmente esta extraña realidad contradictoria de lo que la IA puede hacer ahora mismo.

Alicia
Sí. Porque es abril de 2026. Y vivimos firmemente en esta era de lo que el informe llama "inteligencia irregular".

Beto
Sí, me gusta esa frase.

Alicia
Es muy acertada. Estamos viendo a estos modelos de frontera realizar hazañas de razonamiento aparentemente imposibles, casi divinas. Pero al mismo tiempo se colapsan en tareas espaciales y lógicas que un niño humano haría sin pensarlo dos veces.

Así que nuestra misión hoy es cortar todo el ruido y el bombo incesante de la industria. Queremos trazar la verdadera frontera de capacidad para ustedes, enfocándonos específicamente en los datos del capítulo dos.

Beto
Que es la sección sobre desempeño técnico.

Alicia
Exacto.


Indice IA 2026: La Era de la Convergencia e Integración con el Mundo Real

Beto
Vale. Desgranémoslo porque, ya sabes, si sigues este espacio al menos un poco, la velocidad es abrumadora. Parece imposible mantenerse al día.

Alicia
Oh, totalmente.

Beto
Hablamos de algoritmos invisibles que por la mañana pueden mover mercados de billones de dólares, y por la tarde están manejando robots humanoides en fábricas automotrices físicas.

Alicia
Sí, el alcance es masivo.

Beto
Es como intentar medir la velocidad de un cohete con un radar de mano. Las herramientas que tenemos se están rompiendo ante la rapidez del avance.

Alicia
Sí.

Beto
Pero para entender lo que estos sistemas son genuinamente capaces de hacer, primero tenemos que mirar la imagen macro.

Alicia
Bien, hay que mirar la propia carrera.

Beto
Exacto.

Alicia
Sí.

Beto
El panorama competitivo, que se ha reconfigurado por completo en los últimos 12 meses.

Alicia
De verdad que sí. La brecha competitiva entre los actores principales no solo se ha estrechado. Prácticamente ha desaparecido.

Beto
Desaparecido. Como totalmente.

Alicia
Prácticamente. Quiero decir, si miras la tabla de clasificación de Arena, que, para quien no lo sepa, clasifica modelos según preferencia humana usando un sistema de puntuación ELO estilo ajedrez emparejado, los cuatro principales están actualmente agrupados dentro de apenas 25 puntos entre sí.

Beto
25 puntos.

Alicia
Sí. A marzo de 2026, Anthropic está en 1.503 puntos.

Beto
OK.

Alicia
Y siguiéndole por fracciones literales tienes a XAI en 1.495.

Beto
Así que una diferencia de ocho puntos.

Alicia
Correcto. Google está en 1.494.

Beto
Wow.

Alicia
Y OpenAI está en 1.481.

Beto
Esas márgenes son prácticamente inexistentes. Es una llegada muy ajustada.

Alicia
Sí, ya no hay un vencedor claramente despegado.

Beto
Y no son solo los grandes gigantes tecnológicos estadounidenses agrupados en la cima. La división geográfica en la que antes nos centrábamos tanto, eso esencialmente se ha cerrado.

Alicia
Se ha evaporado por completo. A lo largo de principios de 2025, los mejores modelos de EE. UU. y de China intercambiaban rutinariamente la primera posición.

Beto
Correcto.

Alicia
Actualmente, el mejor modelo estadounidense, que es Claude Opus 4.6, lidera al mejor modelo chino, Dola-Seed-2.0 Preview, por apenas un margen del 2,7 %.

Beto
2,7 %. Eso no es nada. Y tenemos que hablar del catalizador de ese cierre de brecha.

Alicia
Oh, absolutamente. El momento de febrero de 2025.

Beto
Sí, en febrero de 2025, cuando el Deepseek R1 de China temporalmente igualó al mejor modelo estadounidense. Pero la onda expansiva no fue solo que alcanzaran la cima, ¿verdad? El pánico en la industria vino del mecanismo subyacente de cómo entrenaron su capacidad de razonamiento.

Alicia
Exacto. Utilizaron un enfoque de aprendizaje por refuerzo llamado GRPO.

Beto
OK, explícanos eso. ¿Por qué GRPO cambió todo el panorama?

Alicia
Bueno, tienes que ver cómo se entrenaba el razonamiento antes. Históricamente, requería enormes cantidades de datos etiquetados por humanos, extremadamente caros.

Beto
Como pagar a doctorados para que escribieran soluciones de matemáticas paso a paso.

Alicia
Sí. O necesitabas un modelo crítico separado, muy complejo, para evaluar constantemente la salida de la IA durante el entrenamiento. Ambos enfoques consumen muchísimos recursos.

Beto
Correcto.

Alicia
GRPO evitó todo eso. Entrenó la habilidad de razonamiento generando grupos de salidas y comparándolos contra reglas objetivas predefinidas. Eliminaron por completo los cuellos de botella humanos más costosos en la cadena de entrenamiento.

Beto
OK, para usar una analogía, es básicamente como en vez de contratar a un tutor privado caro, para que esté encima de un estudiante corrigiendo cada línea de su tarea de matemáticas, simplemente le das al estudiante una rúbrica. Le dices, oye, intenta estas 10 maneras diferentes de resolver el problema. El camino que te dé la respuesta matemáticamente correcta al final, recuerda esos pasos.

Alicia
Esa es una forma perfecta de visualizarlo. Para eliminar la necesidad del tutor humano por completo.

Beto
Wow.

Alicia
Y cuando el mercado en general se dio cuenta de que el estado del arte en razonamiento podía alcanzarse sin gastar miles de millones en esos pipelines de datos etiquetados por humanos, la reacción fue violenta.

Beto
Oh, provocó una caída temporal de 1 billón de dólares en el valor del mercado bursátil tecnológico de EE. UU.

Alicia
Un billón de dólares. Simplemente borrado.

Beto
Porque los inversores, de repente, entendieron que los modelos de negocio masivamente intensivos en capital, de estos grandes, podían verse severamente socavados por esta nueva eficiencia.

Alicia
Exacto. El voto se fue.

Beto
Pero bien, aquí es donde se pone realmente interesante. Voy a cuestionar esto un poco. Si los modelos COP4 están separados por menos de 30 puntos y los modelos de peso abierto, donde la arquitectura subyacente está disponible libremente para desarrolladores, solo están a un 3,3 % por detrás de los modelos propietarios de peso cerrado ...

Alicia
Sí.

Beto
¿Qué están vendiendo realmente estas compañías?

Alicia
Esa es la pregunta de un millón de dólares.

Beto
¿Cómo compites cuando todo el mundo básicamente tiene una A+ en razonamiento?

Alicia
Sí.

Beto
¿No significa eso que la parte de inteligencia se está convirtiendo en una commoditiy? ¿Ahora competimos solo en quién lo hace más barato?

Alicia
Honestamente, sí. Estamos viendo un giro fundamental alejándose de la capacidad bruta como diferenciador principal.

Porque los modelos están funcionalmente empatados en inteligencia pura, la carrera se ha desplazado hacia la eficiencia operativa.

Beto
Eficiencia.

Alicia
Los proveedores ahora compiten en costo, latencia, confiabilidad y utilidad específica por dominio.

Beto
Así que ya no se trata de ser el más inteligente.

Alicia
No. La pregunta definitiva para un negocio, no es quién tiene el modelo más inteligente. Es quién puede ejecutar este pipeline específico más barato, más rápido y con menos alucinaciones.

Beto
Pero si todos están tan juntos en la cima de la curva de capacidad, ¿cómo medimos su inteligencia con precisión? Quiero decir, si las diferencias son fraccionales, parece que los benchmarks tradicionales que usamos para probarlos simplemente se están rompiendo.

Alicia
Se están rompiendo por completo. Los marcos de evaluación se están saturando mucho más rápido de lo que los investigadores pueden inventarlos.

Beto
Dame un ejemplo.

Alicia
OK. Considera un benchmark que literalmente se llama "Humanities Last Exam".

Beto
Humanities Last Exam, suena ominoso.

Alicia
Correcto. Fue deliberadamente diseñado para ser increíblemente difícil para la IA, apoyándose en profundo conocimiento humano y casos límite extraños.

Beto
Bien.

Alicia
Aún así, en un solo año, los modelos de frontera subieron 30 puntos porcentuales en esta prueba.

Beto
30 puntos en un año.

Alicia
Sí, ahora están en 38,3 %. Y además, estamos descubriendo que las pruebas en sí a menudo están estructuralmente defectuosas.

Beto
¿Qué quieres decir con defectuosas? ¿Que las preguntas están mal?

Alicia
A veces, sí. Una revisión muy profunda reciente reveló que hasta el 42 % de las preguntas en un benchmark ampliamente usado para matemáticas, llamado GSM 8K, eran en realidad inválidas. O bien, por mala redacción, o simplemente por indicios de respuesta incorrectos.

Beto
Espera, casi la mitad del test está roto.

Alicia
Exacto.

Beto
Los investigadores están esencialmente intentando medir un objetivo en movimiento con herramientas que literalmente se les están desmoronando en las manos.

Alicia
Es una crisis total de benchmarks.

Beto
Pero incluso con benchmarks defectuosos, la escala de la capacidad es innegable. Quiero decir, mira los resultados en la Olimpiada de Matemáticas.

Alicia
Ah, la ejecución de Gemini DeepThink.

Beto
Sí. En 2025, Gemini DeepThink de Google sacó 35 puntos para ganar la medalla de oro en la Olimpiada Internacional de Matemáticas. Eso viene de una plata el año anterior, ¿no?

Alicia
Síp. Salto masivo.

Beto
No se limitó a hacer pattern matching de soluciones existentes. Funcionó de extremo a extremo en lenguaje natural. Produjo pruebas matemáticas rigurosas paso a paso dentro de un límite de tiempo estricto.

Alicia
Es brillante en eso. Pero, y este es el gran pero, volvemos a la paradoja de la inteligencia irregular.

Beto
La curva de capacidad dentada.

Alicia
Correcto. Sí. Porque ese mismo sistema que puede sintetizar una prueba matemática a nivel de olimpiada, se desmorona por completo en un benchmark llamado "Clock Bench".

Beto
Clock Bench. Que es solo leer un reloj.

Alicia
Simplemente leer un reloj. Cuando a humanos se les pide leer un reloj analógico correctamente formateado en este benchmark, alcanzan un 90,1 % de precisión.

Beto
Bien. Tiene sentido.

Alicia
El mejor modelo de IA actualmente solo alcanza un 50,1 %.

Beto
Básicamente una tirada de moneda.

Alicia
Exacto.

Beto
Y al observar los datos en el informe, la naturaleza del fallo es lo que me parece tan extraño. Cuando un humano lee mal un reloj, puede estar equivocado por, ¿dos o tres minutos? Porque juzgamos mal las pequeñas marcas de los ticks.

Alicia
Sí. Un error visual menor.

Beto
Pero el informe muestra que el error mediano de la IA está entre una y tres horas.

Alicia
Las horas, sí.

Beto
¿Cómo un sistema con la potencia computacional para resolver física de posgrado comete un error fundamental tan gigantesco?

Alicia
Se reduce al mecanismo del fallo. Tienes que ver cómo los modelos multimodales procesan información visual y aritmética simultáneamente.

Beto
OK.

Alicia
Leer un reloj analógico requiere que el modelo identifique visualmente la manecilla de la hora y la de los minutos, calcule sus ángulos respectivos y luego traduzca esa geometría a un valor numérico de hora.

Beto
Correcto. Es combinar percepción y matemáticas.

Alicia
Exacto. Y si el modelo comete un pequeño error visual, por ejemplo, confunde la manecilla de la hora por la de los minutos debido a sutiles diferencias de píxeles, no solo falla en los minutos.

Beto
Su razonamiento espacial se derrumba.

Alicia
Falla en cascada completa. El error se propaga a través de todo el cálculo matemático, resultando en una discrepancia de varias horas; pierde por completo la lógica fundamental de la fase del reloj.

Beto
Así que es exactamente como tener un amigo que puede resolver complejas ecuaciones de física cuántica en su cabeza, pero luego pasa cinco minutos empujando una puerta con barra.

Alicia
Eso es exactamente a lo que se parece.

Beto
Realmente te obliga a cuestionar si puedes confiar en estos modelos para tareas básicas y cotidianas, incluso si tiene una medalla de oro en razonamiento.

Alicia
Tienes que ser cuidadoso.

Beto
Porque si se pierde completamente al leer la fase de un reloj porque la estructura visual lo enredó, ¿qué pasa cuando mira un desordenado documento fiscal corporativo de 200 páginas que no coincide perfectamente con sus datos de entrenamiento?

Alicia
Y esa es la advertencia crucial aquí. Esta irregularidad no es solo una falla curiosa con relojes. No puedes asumir que la competencia en un dominio altamente abstracto y complejo se transferirá de forma suave a la realidad estructurada y anclada. La inteligencia irregular significa que la curva de capacidad no es una pendiente predecible. Se caracteriza por acantilados abruptos. Y esos acantilados se convierten en pasivos enormes cuando pasas de benchmarks académicos al mundo profesional.

Beto
Bien, sigamos ese acantilado en el mundo profesional entonces. Porque todos queremos una IA que pueda ingerir documentos masivos y manejar trabajo de cuello blanco.

Alicia
Ese es el sueño.

Beto
Y estructuralmente tienen la capacidad. Hemos visto ventanas de contexto —que es la cantidad de texto que una IA puede mantener en su memoria activa— crecer 30 veces al año.

Alicia
Es enorme ahora.

Beto
Sí, tenemos modelos capaces de ingerir un millón de tokens, libros enteros, bases de código enteras.

Alicia
Pero la suposición en el sector empresarial siempre ha sido que memoria masiva equivale a comprensión profunda. Y el benchmark LongBench V2 expone la falla en esa suposición. Esta prueba evalúa la comprensión a nivel experto de documentos largos bajo un límite de tiempo.

Beto
OK, ¿cómo les va?

Alicia
Bueno, los expertos humanos obtuvieron 53,7 %. El mejor modelo de IA solo obtuvo 57,7 %.

Beto
Espera, ¿así que la IA apenas supera a los humanos?

Alicia
Apenas.

Beto
Lo que significa que tener una ventana de contexto de un millón de tokens no es como tener un súper cerebro analizando un libro. Es más como tener un millón de notas adhesivas esparcidas por un escritorio enorme.

Alicia
Esa es una gran forma de decirlo.

Beto
Encontrar una nota específica, como una aguja en un pajar, es increíblemente fácil para la IA. Pero si le pides a la IA que escriba un resumen coherente de cómo todas esas notas se relacionan lógicamente entre sí, se sobrecarga por completo.

Alicia
Exacto. Porque esa síntesis requiere aplicar lógica condicional compleja sobre enormes cantidades de texto simultáneamente.

Beto
Y no lo hacen bien.

Alicia
No, los modelos tienen grandes dificultades con este tipo de síntesis espacial y lógica a menos que los forces meticulosamente a procesar la información paso a paso.

Beto
Lo cual es lento.

Alicia
Hace que el proceso sea computacionalmente caro y muy lento.

Beto
Y los números duros en dominios profesionales de alto riesgo reflejan perfectamente esta lucha. Quiero decir, campos como impuestos, procesamiento hipotecario, finanzas corporativas, la IA está teniendo problemas para cruzar la línea de meta.

Alicia
Sí, las estadísticas son duras.

Beto
En el CorpFin Benchmark que analiza complejos acuerdos de crédito corporativo de 200 páginas, el mejor modelo, Kimi K 2.5, solo logró un 68,26 % de precisión.

Alicia
Lo cual no es bueno para finanzas.

Beto
No. Y en hipotecas y impuestos, donde se extrae información condicional específica de certificados fiscales complejos, Gemini 3.1 Pro Preview se queda en 64,49 %.

Alicia
Y oye, una tasa de precisión del 68 % en finanzas corporativas no es una solución. Es una responsabilidad grave. Para entender el mecanismo de por qué fallan en estas tareas, tenemos que mirar un benchmark llamado Plan Bench.

Beto
OK, ¿qué prueba Plan Bench?

Alicia
Evalúa la capacidad de la IA para secuenciar acciones para lograr un objetivo específico. Entendiendo condiciones altamente reconocibles, los modelos se desempeñan muy bien. Pero los investigadores hicieron algo interesante. Ofuscaron la prueba.

Beto
¿Qué significa eso? Ocultaron los datos.

Alicia
Tomaron el mismo problema lógico exacto, pero describieron la estructura de forma diferente. Reemplazaron términos familiares por palabras sin sentido.

Beto
Oh, interesante.

Alicia
Y los modelos se colapsaron. Deepseek R1 bajó de resolver 28 de 45 tareas en el dominio Blox World a solo tres de 45.

Beto
Espera, solo por cambiar el vocabulario del prompt.

Alicia
Sí, de 28 a tres.

Beto
Es una caída asombrosa. Me dice que si una IA tiene solo un 68 % de exactitud leyendo un documento hipotecario, ¿no está en realidad creando más trabajo para el humano que tiene que revisar meticulosamente cada línea?

Alicia
A menudo, sí.

Beto
¿No estamos confundiendo completamente una enorme capacidad de memoria con verdadera inteligencia generalizada?

Alicia
En muchas aplicaciones profesionales, sí, lo estamos haciendo. El fallo del Plan Bench prueba que los modelos de lenguaje no son planificadores clásicos.

Beto
OK, ¿qué es un planificador clásico?

Alicia
Un planificador clásico busca sistemáticamente una solución lógica paso a paso. Los modelos de lenguaje, sin embargo, generan planes basándose en patrones estadísticos aprendidos de sus datos de entrenamiento.

Beto
Oh, así que es solo reconocimiento de patrones.

Alicia
Sí, básicamente. Cuando disfrazas el problema o cuando el documento hipotecario se desvía ligeramente del formato estándar, ese reconocimiento de patrones se rompe.

Beto
La falta subyacente de razonamiento lógico generalizado queda completamente expuesta.

Alicia
Exacto. Y si la verificación humana toma más tiempo que la generación de la IA, la herramienta pierde su utilidad en la empresa.

Beto
Wow. Así que hemos establecido que la IA tiene problemas para navegar perfectamente el mundo digital profesional cuando el patrón estadístico se rompe. Llevémoslo aún más lejos.

Alicia
OK.

Beto
¿Qué pasa cuando la desatamos en el mundo físico, desordenado y completamente no mapeado en el que vivimos realmente? ¿Cuál es el estado real de agentes, autonomía y robots en 2026?

Alicia
Bien, empecemos con las buenas noticias. Si miramos entornos puramente de software, los agentes digitales están teniendo éxito a un ritmo impresionante.

Beto
En ordenadores.

Alicia
Correcto. En WebArena, que prueba navegación autónoma web, los agentes han alcanzado una tasa de éxito del 74,3 %.

Beto
Eso está bastante cerca de la línea base humana, ¿no?

Alicia
Muy cerca. La línea base humana es 78,2 %.

Y en OSWorld, que prueba la habilidad para navegar un sistema operativo de ordenador, Claude Sonnet 4.6 está alcanzando el 72,1 %.

Beto
Así que pueden navegar una hoja de cálculo, gestionar archivos o reservar un vuelo en línea relativamente bien.

Alicia
Sí, el reino digital se está solidificando.

Beto
Pero cuando miramos fuera del monitor del ordenador, los avances se vuelven salvajes. Hay una sección en este informe de Stanford sobre generación de vídeo que cambia fundamentalmente cómo pensamos sobre estos modelos.

Alicia
Los datos Veo 3.

Beto
Sí. Veo 3 de Google DeepMind. No estaba solo generando imágenes hiperrealistas ya. Cuando se testó en 18.000 vídeos, los investigadores encontraron que el modelo estaba aprendiendo física fundamental real.

Alicia
Y el punto crítico aquí es que fue zero-shot.

Beto
Es decir, no fue entrenado explícitamente en eso.

Alicia
Correcto. El modelo nunca fue entrenado explícitamente en ecuaciones de física o dinámica de cuerpos rígidos. Simplemente, procesando millones de horas de píxeles de vídeo, aprendió a simular flotabilidad, gravedad e incluso resolver laberintos visuales.

Beto
Solo por ver moverse los píxeles.

Alicia
Exacto. Basado en lo que los investigadores llaman "razonamiento en cadena de fotogramas", "chain-of-frames reasoning", predice cómo una escena física debe evolucionar lógicamente paso a paso en base a leyes físicas. El modelo está esencialmente construyendo un modelo interno del mundo, una comprensión fundacional de cómo funciona la física.

Beto
Eso es alucinante. Pero un modelo interno del mundo que existe en un enorme centro de datos es completamente distinto de una máquina de metal intentando operar físicamente en tu salón.

Alicia
Totalmente distinto.

Beto
El chequeo de la realidad robótica en este informe es genuinamente brutal.

Alicia
Lo es. Si miras el benchmark Behavior-1K, que prueba manipulación al alcance en ambientes domésticos realistas, los robots aún fallan el 88 % de las veces.

Beto
¿88 %?

Alicia
Sí. El mejor equipo solo logró una tasa de éxito completa del 12,4 % en tareas domésticas estándar.

Beto
¿Y la seguridad?

Alicia
Tampoco bien. En ResponsibleRobotBench, que evalúa la seguridad, incluso el mejor modelo absoluto, que es GPT-4o, opera de forma segura solo el 64 % del tiempo.

Beto
Realmente subraya una realidad marcada. El mundo físico es infinitamente más caótico, impredecible y despiadado que un entorno digital curado o un vídeo simulado.

Alicia
Definitivamente.

Beto
¿Qué significa todo esto para la línea de tiempo de la autonomía? Porque tenemos excepciones evidentes donde la autonomía física funciona a escala.

Alicia
Las tenemos. Coches y fábricas.

Beto
Waymo está registrando 450.000 viajes semanales sin conductor en ciudades de EE. UU. En China, Baidu Apollo Go alcanzó 11 millones de viajes totalmente sin conductor solo en 2025. Eso es un aumento del 175 %.

Alicia
Escala masiva.

Beto
Y en manufactura, el robot humanoide de Figure AI, el Figure O2, pasó 11 meses en la planta de BMW, cargando con éxito 90.000 piezas en vehículos.

Alicia
Sí.

Beto
Entonces mi pregunta es: ¿por qué una IA puede navegar perfectamente, por una calle caótica y lluviosa, en un coche sin conductor en San Francisco, pero no puede doblar mi ropa, sin una probabilidad del 88 % de fallar? ¿Cuál es el eslabón perdido aquí?

Alicia
El eslabón perdido es el cuello de botella de datos.

Beto
El cuello de botella de datos.

Alicia
Sí. Piénsalo. Los modelos de lenguaje escalaron exponencialmente porque pudimos alimentarlos con miles de millones de páginas de texto, scrapeadas de Internet.

Beto
Bien. Datos fáciles.

Alicia
Los modelos visión-lenguaje-acción, que son la arquitectura subyacente requerida para robots de propósito general, necesitan datos físicos espaciales.

Beto
Oh, ya veo.

Alicia
No puedes raspar de Internet la resistencia táctil de doblar una toalla o el par preciso necesario para abrir un frasco específico. Cada pieza de datos de entrenamiento requiere un robot físico realizando la tarea o una simulación de alta fidelidad y muy compleja.

Beto
Entonces, ¿por qué funcionan coches y fábricas?

Alicia
Porque los coches autónomos y los robots de fábrica operan en entornos mapeados y fuertemente restringidos donde las empresas han pasado una década recopilando datos espaciales altamente especializados; tu salón no está mapeado completamente. Es infinitamente variable. Le falta ese dato fundacional de entrenamiento.

Beto
Wow. Así que siempre vuelve a la irregularidad de la curva de capacidad.

Alicia
Así es.

Beto
Sinteticemos todo esto. El panorama de la IA en 2026 es una paradoja increíble.

Alicia
Realmente lo es.

Beto
Es más rápido, más barato y los modelos principales convergen en sus capacidades brutas. Vemos sistemas que pueden ganar una medalla de oro en una olimpiada de matemáticas, internalizar las leyes de la física solo viendo cómo se mueven los píxeles y conducirte de forma segura en un taxi aéreo autónomo.

Pero no puedes confiar ciegamente en que lea un reloj analógico. Cometerá errores lógicos críticos al analizar un documento hipotecario complejo.

Alicia
Sí.

Beto
Y ciertamente no puede ordenar tu cocina.

Alicia
Que es precisamente por lo que entender el mecanismo de la inteligencia irregular es tan crítico para ti ahora mismo. A medida que integras estas herramientas en tu vida diaria, o en tus flujos de trabajo profesionales, debes permanecer como supervisor humano.

Beto
No puedes simplemente programarlo y olvidarte.

Alicia
Exacto. Puedes aprovechar la IA para síntesis masiva, para lluvia de ideas rápida o para ayuda en programación, pero debes verificar de forma independiente la lógica fundamental. Tienes que anticipar esos acantilados repentinos donde el reconocimiento de patrones falla.

Beto
Porque puede resolver la parte matemática más compleja de tu trabajo perfectamente y luego fallar en un detalle espacial básico que un niño de cinco años detectaría instintivamente.

Alicia
Precisamente. Y quiero dejarte con un pensamiento final para que lo explores por tu cuenta.

Beto
OK. Vamos.

Alicia
Hablamos de cómo los modelos de generación de vídeo están construyendo modelos internos del mundo de la física solo procesando píxeles.

Beto
Correcto. El Veo 3.

Alicia
Sabes que la robótica general está actualmente constreñido por una severa falta de datos táctiles físicos.

Beto
El cuello de botella de datos.

Alicia
Correcto. Bueno, ¿qué pasa cuando los millones de nuevos robots humanoides que están entrando en fábricas comiencen a transmitir continuamente datos espaciales y táctiles del mundo real de vuelta a estos modelos fundacionales masivos?

Beto
Oh, wow.

Alicia
¿Estamos al borde de ver la inteligencia física anclada escalar con la misma trayectoria explosiva que los modelos de lenguaje experimentaron hace unos años?

Beto
Esa es una pregunta fascinante a considerar a medida que estos sistemas pasan del reino digital a nuestros espacios físicos.

Alicia
Van a ser unos años salvajes.

Beto
Realmente lo serán. Recuerda, solo porque la curva de capacidad parezca un cohete no significa que vuele en línea recta.

Sigue cuestionando las salidas. Sigue verificando la lógica subyacente y sigue explorando los mecanismos detrás del bombo.

Gracias por acompañarnos en este análisis profundo del material fuente. Nos vemos la próxima vez.

domingo, 12 de abril de 2026

La Adopción de IA en Programación Científica

 
 

Este artículo de investigación examina cómo los científicos utilizan la IA generativa para facilitar las tareas de programación, analizando específicamente las tasas de adopción y la productividad percibida. Basado en una encuesta a 868 investigadores, el estudio revela que los científicos noveles y aquellos con menos experiencia en programación son los usuarios más frecuentes de estas herramientas. La mayoría de los participantes prefiere las interfaces conversacionales de propósito general, como ChatGPT, a los programas especializados para desarrolladores integrados en sus entornos de programación. Los datos sugieren un riesgo potencial de dependencia excesiva, ya que quienes no siguen prácticas de validación estándar —como las pruebas de código o la revisión por pares— reportaron la mayor sensación de productividad. La alta eficiencia percibida también se relacionó fuertemente con la aceptación de grandes bloques de código a la vez, lo que indica que los usuarios pueden valorar más el volumen de resultados que la verificación. En definitiva, los autores destacan la tensión existente entre el atractivo de la IA para ahorrar tiempo y la necesidad crítica de precisión en el software científico.

Enlace al artículo científico, para aquellos interesados en profundizar en el tema: "A survey of generative AI adoption and perceived productivity among scientists who program", por Gabrielle O’Brien y colegas. Publicado el 9 de Abril de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Imagina el complejo software científico que predice nuestros modelos climáticos globales. O el código que analiza esos enormes ensayos contra el cáncer que salvan vidas.

Alicia
Ajá.

Beto
O incluso esos guiones realmente intrincados que se usan para descubrir física completamente nueva a nivel cuántico.

Alicia
Lo realmente fundamental.

Beto
Exacto. Cuando te imaginas a las personas que escriben ese código, probablemente piensas en salas llenas de ingenieros de software veteranos tecleando meticulosamente en entornos de desarrollo altamente especializados.

Alicia
Sí, esa es la imagen habitual.

Beto
Pero cada vez más, ese código en realidad está siendo generado por ChatGPT.

Alicia
Sí.

Beto
Y lo están pidiendo estudiantes de posgrado con una formación formal mínima en programación.

Así que hoy vamos a mirar algo que afecta la base literal del conocimiento humano moderno, incluso si nunca escribes ni una sola línea de código tú mismo.

Alicia
Porque el software del que hablamos forma los bloques de construcción de la investigación científica moderna. Quiero decir, antes los artículos científicos eran solo teoría y experimentos físicos.

Beto
Correcto. Tubos de ensayo y pizarras.

Alicia
Exacto. Pero hoy, casi cada gran avance está respaldado por miles de líneas de código a medida. Y, si ese código tiene fallos, la ciencia está fallada. Estamos en medio de esta transición masiva, totalmente descoordinada, sobre cómo se construye realmente esa infraestructura científica crítica.

Beto
Es un cambio enorme. Y nuestro texto fundacional para entender este cambio es este reciente artículo en arXiv de O’Brien, Parker, Icede y Carver.

Alicia
Sí, es un gran estudio.

Beto
De verdad que lo es. Realizaron una encuesta exhaustiva a 868 personas que clasifican como "científicos que programan".

Alicia
Lo cual es una distinción importante.

Beto
Muy importante. Así que nuestra misión en este análisis profundo es descubrir cómo la IA generativa está transformando la investigación científica desde sus cimientos. Vamos a ver qué significa para la calidad de los descubrimientos en los que confiamos. Y por qué sentirse increíblemente productivo en el trabajo podría en realidad ser una enorme señal de alarma.

La Paradoja de la IA en Programación Científica

Alicia
Oh, absolutamente. Porque históricamente, la comunidad científica ha tenido muchos problemas con la validación del software. Es un punto débil bien documentado.

Beto
Porque son científicos, no desarrolladores.

Alicia
Claro. Los incentivos en la ciencia están estructurados en torno a publicar artículos, no a mantener repositorios de software robustos. Así que estamos tomando una población que ya tiene dificultades para probar sistemáticamente su código. Y les estamos entregando una herramienta capaz de generar enormes cantidades de código, no probado, en cuestión de segundos.

Beto
Bien, vamos a desenmarañar esto mirando quién sostiene exactamente esa herramienta. Cuando los investigadores dicen “científicos que programan”, las demografías de la encuesta muestran una distribución increíblemente diversa.

Alicia
Sí, no es solo informática.

Beto
Para nada. Hablamos de gente de las ciencias de la vida, ingeniería, ciencias sociales. Lo crucial a entender aquí es que la gran mayoría de estas personas no son ingenieros de software profesionales.

Alicia
No, no lo son.

Beto
Son asistentes de investigación de posgrado, postdocs y docentes que usan el código puramente como un medio para un fin.

Alicia
Pues la demanda de procesamiento de datos en la ciencia moderna ha superado por completo la formación real que reciben estos científicos. Quiero decir, piensa en un biólogo marino hoy. Podría recopilar terabytes de datos acústicos del fondo del océano. Para darle sentido, literalmente tiene que enseñarse Python o R.

Beto
Porque no lo aprendió en la clase de biología.

Alicia
Exacto. Informan educación formal y desarrollo de software inadecuados. Porque su experiencia principal es la biología. No la informática. Básicamente están parchando scripts solo para poner sus datos en un formato legible.

Beto
Así que si queremos entender el impacto de la IA generativa en la ciencia, realmente tenemos que mirar las herramientas específicas que estos expertos de dominio están adoptando. Y los datos muestran que el uso es muy heterogéneo, pero está fuertemente sesgado hacia científicos en etapas tempranas de su carrera.

Alicia
Oh, por lo menos sesgado.

Beto
Sí, los asistentes de investigación de posgrado son los adoptantes más numerosos. La encuesta reveló una relación inversa directa entre la experiencia en programación y el uso de IA.

Alicia
Lo cual es muy revelador.

Beto
Exacto. Es decir, cuantos menos años de experiencia programando tiene alguien, con más frecuencia depende de las herramientas de IA generativa.

Alicia
Pues claro, cuanta menos competencia tenga alguien con la mecánica real de codificar, más atractivo es externalizar esa carga cognitiva, ¿no?

Beto
Tiene todo el sentido.

Alicia
Y las elecciones que hacen sobre qué herramientas de IA usar son profundamente reveladoras. Hay una enorme preferencia por los chatbots de propósito general frente a herramientas realmente construidas y optimizadas para desarrolladores de software.

Beto
Y esta es la parte que cambió completamente mi visión de todo el asunto. Tenemos un 77.5% de estos científicos confiando en herramientas como ChatGPT.

Alicia
Que es simplemente un chatbot web estándar.

Beto
Exacto. Y es el favorito abrumador con un 64.2%. También están usando Google Gemini y Claude. Y acceden a estos modelos de IA a través de un navegador web estándar.

Alicia
Sí. Simplemente una pestaña en Chrome o Safari.

Beto
Sí. Solo el 14.4% de estos científicos están usando herramientas integradas dedicadas para desarrolladores, como GitHub Copilot o Cursor.

Alicia
Y la demografía de esa división cuenta una historia profunda sobre la computación científica.

Beto
Oh, totalmente.

Alicia
Y porque ese 14.4% que usa herramientas dedicadas para desarrolladores, son predominantemente hombres en casi un 73%.

Beto
Sí.

Alicia
Poseen altos niveles de experiencia en programación y están muy concentrados en informática y servicios de información.

Beto
Básicamente, gente de software usando herramientas de software.

Alicia
Exacto. Mientras tanto, los usuarios de los chatbots de propósito general están mucho más repartidos por género. Tienen muchos menos años de experiencia programando y están distribuidos en campos como ciencias de la vida, psicología, química.

Beto
Honestamente es como hacer una cirugía delicada usando una navaja suiza. Solo porque está en tu bolsillo y ya sabes cómo abrirla.

Alicia
Esa es una gran metáfora.

Beto
Exacto. En lugar de usar un bisturí quirúrgico especializado, simplemente porque el bisturí requiere formación especializada para saber siquiera cómo sostenerlo.

Alicia
Exacto. Tienes que aprender primero a usar el IDE.

Beto
Exacto. Tienes biólogos copiando y pegando código de análisis de datos muy complejo entre ventanas del navegador. En lugar de tener una IA integrada directamente en su entorno de programación real, donde podría ver las estructuras de datos.

Alicia
Lo fascinante aquí es que estos científicos dependen de herramientas que por casualidad soportan programación en lugar de herramientas diseñadas específicamente para ella.

Un chatbot web está fundamentalmente diseñado para mantener una conversación. Quiero decir, claro, puede generar código en Python, pero no está integrado en el sistema de archivos del usuario.

Beto
No puede ver los archivos reales.

Alicia
Cierto. No puede ejecutar comandos de terminal de forma nativa para probar si el código funciona. No entiende la arquitectura más amplia del proyecto de investigación de la forma en que lo hace un entorno de desarrollo integrado (IDE).

Beto
¿Así que está ciego al contexto?

Alicia
Totalmente ciego. Pero si miramos el contexto más amplio de cómo se forman los científicos, este comportamiento tiene perfecto sentido. Si nunca recibiste formación formal en arquitectura de software, ni siquiera pensarías en buscar una herramienta diseñada para integrarse con esa arquitectura.

Beto
Cierto. No sabes lo que no sabes.

Alicia
Exacto. Solo quieres una ventana de chat que escupa un script para finalmente ejecutar tus datos e irte a casa.

Beto
Pero si estás sacando código de un chatbot construido para conversación, ¿cómo validas que el código realmente procesa los datos correctamente? Quiero decir, estábamos hablando de programadores inexpertos que dependen de bots de propósito general.

Alicia
Que es una combinación arriesgada.

Beto
Extremadamente. Y esto nos lleva a un hallazgo contraintuitivo en el artículo sobre cómo estos científicos perciben su propia productividad.

Alicia
Sí, la productividad percibida es clave aquí. Para medir esa percepción, los investigadores utilizan la escala SPACE.

Beto
Cierto.

Alicia
Es un marco establecido para medir la productividad percibida en diferentes dimensiones. Entonces "satisfacción" ("Satisfaction"), "desempeño" ("Performance"), "actividad" ("Activity"), "comunicación" ("Communication") y "eficiencia" ("Efficiency").

Beto
Entendido.

Alicia
Exacto. Querían una forma estandarizada de ver quién se sentía más productivo al introducir la IA generativa en su flujo de trabajo.

Beto
Pero antes de poder medir el impacto de la IA en la productividad, realmente tuvieron que establecer una línea de base sobre cómo estos científicos escriben código en primer lugar.

Alicia
Cierto. ¿Cuáles son sus hábitos?

Beto
Sí. Así que miraron la adopción de prácticas formales de desarrollo de software. Hablamos de cosas como control de versiones, revisión de código y pruebas sistemáticas del código. Específicamente, pruebas unitarias, pruebas de regresión, y pruebas del sistema.

Alicia
Y la adopción de esas redes de seguridad fundamentales es alarmantemente baja en la comunidad científica.

Beto
Da miedo.

Alicia
Así es. Aproximadamente el 65% de los científicos encuestados estaba familiarizado con control de versiones, como usar GitHub, para rastrear cambios en sus scripts, a lo largo del tiempo.

Beto
Bueno, eso no está mal.

Alicia
No, pero aquí está el problema. Casi una quinta parte de todo el grupo no estaba familiarizado con ninguna práctica formal de desarrollo. Ninguna.

Beto
¿En serio, un 20%?

Alicia
Sí. Y la integración continua es el ejemplo más claro aquí. En la industria tecnológica comercial, la integración continua es una práctica estándar. Es donde el código se prueba automáticamente en una canalización cada vez que se hace un cambio.

Beto
Cada vez.

Alicia
Claro. Pero entre los científicos, solo el 26.3% siquiera había oído hablar del concepto.

Beto
Vaya. Así que tienes a toda una generación de investigadores básicamente volando sin red.

Alicia
Prácticamente.

Beto
Y los investigadores descubrieron esta paradoja central en los datos. La productividad percibida con la IA generativa está negativamente asociada, tanto con la experiencia en programación, como con el uso de esas prácticas formales de desarrollo.

Alicia
Sí, esa es la parte salvaje.

Beto
Exacto. Las personas que se sienten más productivas usando IA son las que tienen menos experiencia y utilizan menos controles de seguridad.

Alicia
El efecto de interacción en los datos lo ilustra de forma preciosa, honestamente. Para los científicos que utilizan intensamente pruebas y revisiones de código obligatorias, su nivel de experiencia no cambia drásticamente cómo se sienten productivos con la IA.

Beto
Porque aún tienen que hacer todas las pruebas.

Alicia
Exacto. El gráfico de su productividad percibida se mantiene relativamente plano independientemente de su formación. Pero para los científicos que omiten por completo los controles de seguridad, tener menos experiencia conduce a un pico vertical masivo en la sensación de productividad.

Beto
¿Entonces qué significa todo esto? Quiero decir, ¿estos científicos junior realmente están desbloqueando algún secreto para hacer tres veces más ciencia? ¿O estamos viendo simplemente el efecto Dunning-Kruger traducido a código Python?

Alicia
Esa es la pregunta del millón.

Beto
Porque mi sospecha es que se sienten súper productivos simplemente porque están saltándose la parte más dura y que consume más tiempo de la programación. Que es el proceso agonizante de asegurarse de que el código realmente hace lo que matemáticamente se supone que debe hacer.

Alicia
Pues el artículo tiende fuertemente hacia tu sospecha.

Beto
Lo sabía.

Alicia
Sí. Referencian investigaciones previas de Prather y colegas para contextualizar esto. Introducen este concepto llamado "la ilusión de competencia".

Beto
La ilusión de competencia. Me gusta eso.

Alicia
Sí. Básicamente, cuando un programador novato lucha con un problema y un chatbot escupe al instante un bloque de código limpio y bien formateado, se ve increíblemente autoritario.

Beto
Parece magia.

Alicia
Exacto. Se siente como una victoria enorme. Entonces el novato sobreestima su propia comprensión de ese código generado. Y, en consecuencia, sobreestima su propia habilidad para programar.

Beto
Vaya.

Alicia
Sí. Las prácticas formales como las pruebas unitarias o las revisiones de código obligatorias introducen la fricción necesaria en el flujo de trabajo.

Beto
Te ralentizan.

Alicia
Te obligan a disminuir el ritmo y proporcionan una comprobación de la realidad rigurosa. Sin esos bucles de retroalimentación, un usuario puede confundir sin esfuerzo la generación rápida de código con un progreso riguroso y científicamente sólido.

Beto
Y esa fricción es, literalmente, lo único que separa una idea teórica de un error publicado.

Entonces si saltarse esos controles de seguridad, hace que la gente se sienta muy productiva, ¿qué interacción específica con el bot de IA está provocando esa sensación eufórica? La encuesta señaló que en realidad se reduce al volumen puro de código que el usuario está dispuesto a tragarse de una vez.

Alicia
Sí. El predictor más fuerte de una puntuación alta de productividad percibida en toda la encuesta fue el volumen de código generado aceptado de una sola vez.

Beto
Aquí es donde se pone realmente interesante. Los usuarios que reportaron aceptar más de 100 líneas de código a la vez del IA reportaron las puntuaciones de productividad absolutas más altas.

Alicia
Más de 100 líneas.

Beto
Más de 100 líneas. Quiero decir, aceptar más de 100 líneas de código de golpe sin un marco robusto de pruebas es como firmar a ciegas un contrato legal de 100 páginas. Solo porque el abogado parecía simpático y la fuente se veía profesional.

Alicia
Es una analogía aterradora, pero es precisa.

Beto
Te sientes increíblemente eficiente hasta el momento en que te demandan.

Alicia
En la literatura de interacción humano-computadora, este comportamiento se denomina "sesgo de automatización".

Beto
Sesgo de automatización.

Alicia
Sí. Es un fenómeno psicológico bien documentado. Es cuando los usuarios humanos aceptan sin crítica decisiones automatizadas o contenido generado sin verificarlo simplemente porque una computadora sofisticada lo produjo.

Beto
Porque se supone que la computadora es más lista que nosotros.

Alicia
Exacto. Y los riesgos severos en el contexto de la investigación científica no se pueden subestimar aquí. En el desarrollo de software estándar, normalmente tienes un resultado conocido.

Beto
Cierto. Sabes lo que se supone que debe hacer.

Alicia
Exacto. Si estás codificando una app móvil, un botón o se pone azul cuando lo clicas o no. El fallo es inmediatamente visible para cualquiera.

Beto
Pero el código científico no es así.

Alicia
No, a menudo explora territorio inexplorado. Carece de lo que llamamos una "verdad de referencia".

Beto
Porque no sabes lo que dirán los datos del cáncer hasta que el código realmente los analiza. Si supieras la respuesta de antemano, no estarías corriendo el experimento.

Alicia
Exacto. No sabes lo que buscas hasta que lo encuentras. Así que si el código generado por la IA contiene un error lógico muy sutil, es muy probable que no haga caer el programa.

Beto
Simplemente funciona.

Alicia
Podría producir silenciosamente un valor p ligeramente incorrecto, o quizá desplazar una tendencia climática por una fracción minúscula de grado. El artículo cita ejemplos históricos de este fenómeno exacto, señalando que errores, aparentemente menores, e invisibles, en el código científico, han llevado a consecuencias radicales y devastadoras.

Beto
¿Como qué?

Alicia
Pues señalan grandes retractaciones en revistas prestigiosas como el Journal of Clinical Oncology. En esos casos, el código funcionó perfectamente. Produjo un resultado. El resultado fue revisado por pares en base a esa salida. Los hallazgos fueron publicados. Y solo años después un equipo independiente se dio cuenta de que una sola variable estaba invertida en el script original.

Beto
Dios mío. Así que si tenemos un chatbot que alucina y voltea una variable, en lo profundo de un bloque de código de cien líneas, y un estudiante de posgrado que ni siquiera entiende la arquitectura subyacente simplemente copia, pega y publica los resultados ...

Alicia
Estamos construyendo una casa de naipes.

Beto
Una casa de naipes total.

Alicia
Si conectamos esto con la foto más amplia, destaca una vulnerabilidad sistémica profunda. El trabajo mismo que la IA generativa hace más crítico, que es evaluar la solidez, la lógica matemática y la absoluta corrección de software complejo, es precisamente el área donde el desarrollo de software científico históricamente ha tenido más problemas. Básicamente estamos inundando un ecosistema ya frágil con generación no verificada a alta velocidad.

Beto
Y ver esa vulnerabilidad desplegarse en tiempo real explica perfectamente la resistencia que vemos en los datos. Porque dados estos riesgos masivos para la integridad de la investigación científica, no todo el mundo está subiendo ciegamente al carro de la IA, ¿cierto?

Alicia
Cierto, definitivamente no todo el mundo.

Beto
Una porción significativa de la comunidad científica está rechazando activamente estas herramientas.

Alicia
Sí, alrededor de una cuarta parte de los encuestados en la encuesta nunca probó la IA generativa, o la probó y la abandonó intencionalmente.

Beto
Uno de cada cuatro.

Alicia
Sí. Los investigadores realmente quisieron entender los mecanismos que impulsan esta resistencia, así que codificaron cualitativamente 210 respuestas abiertas de estos no adoptantes. Y los temas que surgieron proporcionan una contra-narrativa brillante al bombo publicitario de la productividad sin fin.

Beto
Hablemos de esos temas. Porque el primero, que fue el más común empatado, con un 21.4% de las respuestas, fue un deseo feroz de autosuficiencia.

Alicia
Sí.

Beto
Estos científicos albergan un profundo miedo existencial a la pérdida de habilidades. Y pensemos en cómo un doctorando realmente desarrolla experiencia durante un programa de cinco años. Son esas horas agonizantes depurando un script las que realmente les enseñan los contornos de su propio conjunto de datos.

Alicia
Esa lucha es el punto.

Beto
Exacto. Un encuestado articuló que prefería comprender profundamente el código que escribe. Sabe que fundamentalmente dejará de aprender la metodología si un chatbot simplemente genera la respuesta por él. Ven la lucha de la programación como el mecanismo literal para entender su propia investigación.

Alicia
Bueno, sí. Un científico no puede defender eficazmente una tesis doctoral, o responder preguntas en una conferencia sobre un artículo publicado, si no comprende íntimamente la metodología.

Beto
Sí, se quedarían paralizados.

Alicia
Exacto. Y en la ciencia moderna, el código es la metodología. Si externalizas la lógica a una máquina, básicamente cortas tu propia conexión intelectual con el descubrimiento.

Beto
Vaya. Bien. Y empatado en ese puesto superior, también representando el 21.4% de los no adoptantes, estaban las preocupaciones éticas.

Alicia
Esto es grande.

Beto
Sí. La encuesta capturó un amplio abanico de objeciones específicas. Varios científicos señalaron los enormes impactos ambientales de entrenar y consultar estos grandes modelos de lenguaje. Estaban sopesando activamente la considerable huella de carbono contra la cantidad marginal de tiempo que podría ahorrarles un martes cualquiera.

Alicia
Que es una forma muy científica de verlo.

Beto
Claro, sopesando las variables. Otros expresaron una profunda desconfianza fundamental hacia las empresas de IA respecto a la infracción de derechos de autor. Llamaron explícitamente inmoral la práctica de raspar internet para datos de entrenamiento.

Alicia
Esas respuestas muestran que un segmento de la comunidad científica está evaluando la IA no solo como una utilidad estrecha, sino como parte de un ecosistema global y ético mucho más amplio.

Beto
Sí.

Alicia
Pero, ya sabes, yendo más allá de la filosofía y la ética, los restantes no adoptantes citaron razones mecánicas y profundamente prácticas para rechazar la tecnología.

Beto
Sí, lo funcional. Casi el 20% citó una ineficiencia severa, y otro 19% señaló problemas de exactitud. Informaron que intentar usar estas herramientas en realidad desplomó su productividad.

Alicia
Les hacían más lentos.

Beto
Exacto. Compartieron historias de la IA escribiendo código usando APIs alucinadas. Imagínate trabajar en un campo altamente especializado, como dinámica cuántica de fluidos. La IA podría generar con seguridad un script que llame a una función llamada calcularViscosidadCuántica.

Alicia
Suena súper real.

Beto
Lo formatea de forma hermosa. El único problema es que la función simplemente no existe en ninguna librería real de software.

Alicia
Correcto. Un encuestado detalló explícitamente cómo el tiempo que gastaban buscando esas alucinaciones y depurando errores lógicos sutiles tomaba significativamente más tiempo que simplemente abrir un libro de texto y escribir el código desde cero.

Beto
Entonces, basándonos en estos no adoptantes, me parece que el tiempo supuestamente ahorrado por la IA generativa en realidad no desaparece. Simplemente se desplaza secretamente a la fase de depuración. Es decir, estamos tomando el tiempo que antes pasábamos escribiendo código y obligando a los científicos a gastarlo desenredando código espagueti complejo y nicho escrito por una máquina. ¿Suena bien eso?

Alicia
En realidad, la evidencia empírica está comenzando a alinearse con tu teoría sobre eso.

Beto
¿De verdad?

Alicia
Sí. Los autores destacan un experimento aleatorio conducido por investigadores en Anthropic, que por cierto es en sí misma una desarrolladora importante de modelos de lenguaje grande.

Beto
Cierto. Ellos crearon a Claude.

Alicia
Exacto. Y ese estudio encontró que proporcionar asistencia conversacional de IA a programadores puede en realidad perjudicar su comprensión conceptual de la base de código. Puede degradar sus habilidades para leer código y dañar gravemente su capacidad de depuración, todo sin aportar ganancias de eficiencia estadísticamente significativas en promedio.

Beto
Espera. ¿Así que los vuelve peores depurando y ni siquiera los hace más rápidos?

Alicia
Eso es lo que sugieren los datos. Además, para los paquetes científicos altamente nicho de los que dependen estos investigadores, como bibliotecas matemáticas o físicas especializadas, los modelos de IA simplemente no están entrenados de forma suficientemente profunda.

Beto
Porque es demasiado nicho.

Alicia
Correcto. El volumen de datos de entrenamiento para una biblioteca astronómica nicho es infinitesimal comparado con los datos para construir, digamos, un sitio básico de comercio electrónico. La IA fundamentalmente carece del contexto, así que simplemente adivina.

Beto
Y suena increíblemente confiada cuando adivina.

Alicia
Adivina incorrectamente con suprema confianza. Y el científico pierde cuatro horas tratando de revertir una alucinación.

Beto
Es la economía falsa definitiva. Ahorras 20 minutos generando el borrador inicial, y pierdes dos días enteros, corrigiendo los errores invisibles que corrompen tu conjunto de datos.

Alicia
Exacto. Y esto plantea una pregunta importante sobre la futura arquitectura de nuestra infraestructura científica. Si los modelos de IA no entienden la física subyacente de la ciencia nicho, y los científicos novatos no comprenden completamente la lógica del código generado, ¿dónde reside la experiencia real?

Beto
Vaya. Parece que la experiencia simplemente flota en algún lugar del vacío, entre el prompt y la salida, que es literalmente el último lugar donde quieres que viva la metodología para investigación crítica sobre el cáncer.

Alicia
Sí, es bastante preocupante.

Beto
Si eres un estudiante armando tu primer script en Python para un laboratorio, un profesional que gestiona un equipo de investigadores, o simplemente alguien que depende de la medicina moderna y de datos climáticos, este análisis profundo revela una verdad vital sobre la era en la que estamos entrando.

Alicia
Lo revela.

Beto
La velocidad pura de la creación automatizada está actualmente superando a nuestros sistemas humanos de validación. Estamos construyendo la infraestructura del mañana, más rápido de lo que podemos inspeccionarla.

Alicia
Y realmente necesitamos inspeccionarla.

Beto
Definitivamente. Estar verdaderamente bien informado hoy significa reconocer que la sensación de productividad rápida es fundamentalmente diferente de la realidad de la precisión rigurosa.

Alicia
Quiero dejarte con el pensamiento final para ponderar, en realidad, una implicación que se extiende mucho más allá de los hallazgos de esta encuesta específica.

Beto
Adelante, por favor.

Alicia
Bueno, la gran mayoría de los científicos están conduciendo su investigación usando herramientas propietarias y de código cerrado como ChatGPT o Claude. No están usando modelos de código abierto donde los datos de entrenamiento y los mecanismos puedan ser inspeccionados independientemente por la comunidad científica.

Beto
Correcto. Está todo cerrado.

Alicia
Exacto. Así que si los descubrimientos científicos del mañana, los modelos climáticos fundamentales, los avances médicos avanzados, los nuevos materiales, si se construyen sobre código generado por algoritmos corporativos de caja negra que pueden cambiar sus pesos internos y comportamientos de la noche a la mañana sin advertencia pública, ¿qué pasa con el principio central de la reproducibilidad científica?

Beto
Oh, vaya. Porque la herramienta en sí cambia.

Alicia
Sí. Si un algoritmo se actualiza en un servidor en Silicon Valley, el mismo prompt exacto de un científico podría producir código ligeramente distinto, con fallos distintos, mañana. Si no podemos ver el funcionamiento interno de la herramienta y no podemos garantizar su consistencia a lo largo del tiempo, ¿podemos confiar verdaderamente en la ciencia que ayuda a construir?

Beto
Esa es una pregunta enorme y pesada que la comunidad científica tendrá que responder muy pronto.

La próxima vez que leas un titular sobre un repentino gran avance científico o una predicción radical nueva sobre los océanos, tómate un momento para considerar la capa invisible de software debajo, y al estudiante de posgrado, armado con un navegador web, y un chatbot, que podría haberlo generado.

Muchas gracias por acompañarnos en este análisis profundo. Sigue cuestionando la herramienta invisible que está dando forma a nuestro mundo. Recuerda que la velocidad no sustituye a la comprensión, y nos vemos la próxima vez.