lunes, 23 de marzo de 2026

Evo 2: Del Descubrimiento, al Diseño de la Biología

 
 

Evo 2 es un sofisticado modelo biológico fundamental diseñado para comprender y generar secuencias de ADN en todos los dominios de la vida, incluyendo bacterias, arqueas y eucariotas. Entrenado con 9 billones de pares de bases y una enorme ventana de contexto de 1 millón de tokens, el modelo puede capturar patrones genómicos complejos, desde moléculas individuales hasta sistemas orgánicos completos. Predice con precisión las consecuencias funcionales de las mutaciones genéticas e identifica características biológicas cruciales, como estructuras proteicas y elementos reguladores, sin necesidad de ajustes específicos para cada tarea. Además del análisis, Evo 2 demuestra potentes capacidades generativas, diseñando con éxito secuencias mitocondriales y procariotas sintéticas a escala genómica. Los investigadores han publicado el modelo como una herramienta de código abierto para potenciar a la comunidad científica en la ingeniería de la complejidad biológica.

Enlace al artículo científico, para aquellos interesados en profundizar sobre el tema: "Genome modelling and design across all domains of life with Evo 2", por Garyk Brixi, y colegas. Publicado en Nature el 4 de Marzo de 2026.

El resumen, la transcripción, y la traducción fueron hechas usando herramientas de software de Inteligencia Artificial.

El resumen se presenta en la forma de un diálogo entre dos personajes sintéticos que llamaremos Alicia y Beto.


Resumen

Beto
Imagina mirar por un microscopio una célula mamífera viviente y hacer un zoom enorme sobre su ADN.

Alicia
Bien. Esperando ver ese estándar, ya sabes, enredo caótico de material biológico.

Beto
Exacto. Pero en vez de eso, notas algo que parece, bueno, físicamente imposible. El ADN se está doblando sobre sí mismo.

Alicia
Sí.

Beto
Se agrupa muy apretado, luego se estira totalmente abierto, luego vuelve a agruparse otra vez en este patrón altamente específico y repetitivo. Ancho, estrecho, cerrado; ancho, estrecho, cerrado: guiones y puntos.

Alicia
Literalmente está deletreando palabras.

Beto
Claro. La célula está deletreando físicamente palabras en código Morse. Y aquí viene la parte que realmente debería ponerte los pelos de punta. Esa secuencia no fue diseñada por un científico humano.

Alicia
No, no lo fue.

Beto
Fue escrita por una inteligencia artificial que literalmente aprendió el lenguaje de la vida solo leyéndolo.

Alicia
Quiero decir, es un cambio profundo en cómo interactuamos con el mundo natural.

Beto
Sí.

Alicia
Ya no solo tratamos de, ya sabes, traducir el código biológico. Estamos viendo a una máquina aprender su gramática subyacente, su sintaxis, y finalmente usar esa gramática para escribir capítulos enteros de biología desde cero.

Beto
Y eso es exactamente lo que exploramos en la inmersión de hoy. Estamos analizando un artículo revolucionario de marzo de 2026 titulado: “Modelado y diseño genómico a través de todos los dominios de la vida con Evo 2”.

Alicia
Un título muy denso para un artículo realmente salvaje.

Beto
En serio. Así que nuestra misión para ti hoy es entender cómo un modelo de IA ha aprendido este lenguaje fundamental de la vida. Vamos a explorar cómo leyó trillones de secuencias genéticas. Cómo está usando ese vasto conocimiento para predecir mutaciones asociadas a enfermedades y, además, ...

Alicia
... cómo en realidad está escribiendo genomas funcionales completamente nuevos.


Evo 2: Modelo Base para Modelaje de Genomas y Diseño a través de Todos los Dominios de la Vida

Beto
Sí. Así que tanto si eres un estudiante de biología preparando un examen, un entusiasta de la tecnología siguiendo lo último en IA, o simplemente alguien increíblemente curioso sobre el futuro de la medicina, este análisis va a desmitificar cómo la IA está cruzando la frontera del texto digital en pantalla a la creación biológica física.

Alicia
Para enmarcar esto desde el principio, no se trata solo de que un ordenador memorice un conjunto masivo de A, C, T y G. Se trata de una máquina que descubre las reglas universales ocultas de la biología. Está encontrando los hilos invisibles que conectan una bacteria que vive en una chimenea hidrotermal del fondo del mar con las hojas de un roble y con las células de tu propio cuerpo.

Beto
Vale, vamos a desentrañar esto porque para entender cómo Evo 2 puede predecir una enfermedad o escribir un nuevo genoma, primero tenemos que entender exactamente qué leyó para volverse tan listo.

Alicia
El material de lectura.

Beto
Sí, y la escala misma del material de lectura aquí es difícil de asimilar. Los investigadores entrenaron a Evo 2 con un conjunto de datos que llaman Open Genome2. Y ese conjunto contiene la asombrosa cantidad de 9 billones (trillones en escala larga inglesa) de pares de bases de ADN.

Alicia
Nueve billones de pares de bases es un número que, honestamente, casi pierde su significado sin contexto.

Beto
Sí, ¿cómo siquiera se imagina eso?

Alicia
Bueno, un único genoma humano tiene alrededor de 3.000 millones de pares de bases, así que el modelo ha procesado el equivalente a miles y miles de genomas completos.

Beto
Wow.

Alicia
Pero lo clave aquí es la diversidad. Abarca todos los dominios de la vida. Hablamos de arqueas, bacterias, eucariotas ...

Beto
...que incluye plantas, animales y hongos ...

Alicia
Exacto. Y aun fagos bacterianos, que son los virus que infectan bacterias. Es una instantánea altamente curada y representativa de cuatro mil millones de años de evolución en la Tierra.

Beto
Construyeron una versión de siete mil millones de parámetros y luego una masiva de cuarenta mil millones de parámetros. Pero lo que realmente me llamó la atención en la fuente es cómo realmente lee esos datos.

Alicia
La ventana de contexto.

Beto
Sí. El artículo destaca que Evo 2 tiene una ventana de contexto de un millón de tokens, operando a resolución de nucleótido único, lo que significa que puede mirar un millón de letras de ADN individuales todas al mismo tiempo. Es como poder leer un volumen entero de una enciclopedia de un solo vistazo.

Alicia
Mantener cada palabra en la mente simultáneamente.

Beto
Exacto. Solo para encontrar un error gramatical en la página 400, o para entender cómo un personaje introducido en el capítulo uno afecta la trama en el capítulo 50.

Alicia
Y la razón por la que esta analogía de la enciclopedia importa tanto es porque históricamente la IA no podía hacer eso.

Beto
¿Ah, sí?

Alicia
Sí. En la IA tradicional, especialmente con modelos transformer más antiguos, intentar mirar un millón de tokens a la vez literalmente colapsaría el sistema.

Beto
Porque es demasiado cálculo.

Alicia
Esencialmente, sí. Los transformers sufren algo llamado problema de escalado cuadrático. Si duplicas la cantidad de texto que les das, las operaciones computacionales requeridas no se duplican, ...

Beto
... se cuadruplican.

Alicia
Exactamente. Si les das un millón de tokens, las operaciones se hacen tan pesadas que la máquina simplemente se queda sin memoria.

Beto
Espera, entonces ¿cómo lo logra Evo 2 sin fundir los servidores?

Alicia
Usa una nueva arquitectura llamada StripedHyena 2.

Beto
StripedHyena 2.

Alicia
Sí. Buen nombre. En lugar de depender únicamente de los pesados mecanismos de atención que los modelos más antiguos usan para ver cómo cada palabra se relaciona con todas las demás, mezcla algo llamado "operadores de convolución dependientes de la entrada".

Beto
Vale. Tienes que traducir eso para mí.

Alicia
Claro. Puedes pensar en una convolución como una ventana deslizante que barre la secuencia de ADN. Captura muy eficientemente patrones locales.

Beto
Por ejemplo cómo una secuencia cercana afecta a un gen específico.

Alicia
Correcto. Luego usa estratégicamente esos mecanismos de atención más pesados para conectar los puntos a través de enormes distancias genómicas. Así le da al modelo la habilidad de entender tanto los detalles micro como la estructura macro simultáneamente.

Beto
Tiene sentido. Ahora, leyendo el artículo, noté un detalle muy específico sobre lo que deliberadamente no le permitieron leer.

Alicia
Ah, la valla de seguridad.

Beto
Sí. Excluyeron explícitamente virus eucariotas del conjunto de 9 billones de pares de bases. Básicamente limpiaron los virus que infectan humanos y otros animales, citando razones de bioseguridad.

Alicia
Esto plantea una pregunta importante sobre diseño práctico del modelo. Quiero decir, si entrenas un modelo generativo muy capaz en los genomas de patógenos humanos, ...

Beto
... aprende a fabricarlos.

Alicia
Exacto. El modelo aprende las reglas físicas de cómo infectar una célula humana. Así que al eliminar los virus eucariotas del entrenamiento, los creadores restringieron intencionalmente el vocabulario del modelo.

Beto
Interesante.

Alicia
Simplemente le falta el conocimiento estructural requerido para escribir un patógeno humano funcional.

Beto
Así que si le pides diseñar un nuevo virus respiratorio, se quedaría en blanco.

Alicia
Esencialmente, sí. Y los investigadores demostraron que esto funciona en la práctica. Cuando probaron Evo 2 con proteínas virales humanas, mostró un desempeño de modelado de lenguaje increíblemente pobre.

Beto
Simplemente no pudo hacerlo.

Alicia
Correcto. Esencialmente, generaba secuencias aleatorias y sin sentido cuando se le pedía por esa dirección. Las barreras de seguridad funcionaron exactamente como pretendían a nivel fundamental de los datos de entrenamiento.

Beto
Es una forma ingeniosa de manejarlo. Así que tiene un enorme punto ciego para virus humanos, pero sabe casi todo lo demás sobre el código genético a través de todos los otros dominios de la vida.

Alicia
Practicamente.

Beto
Pasemos a qué hace realmente con ese conocimiento.

Alicia
Sí.

Beto
¿Qué sucede cuando hay un error tipográfico en el código biológico? Los investigadores probaron la capacidad de Evo 2 para predecir los efectos de mutaciones usando una técnica llamada predicción zero-shot.

Alicia
Correcto.

Beto
El “zero-shot” significa que nunca fue entrenado en la tarea real.

Alicia
Exacto.

Beto
Entonces, ¿cómo puede predecir si una mutación causa una enfermedad si ni siquiera sabe qué es una enfermedad?

Alicia
La predicción zero-shot es un concepto crucial aquí, y tienes razón en desconfiar un poco de cómo funciona. Los investigadores no construyeron un conjunto de datos de buenas mutaciones y malas mutaciones y le enseñaron a Evo 2 la diferencia. Evo 2 no tiene un título en medicina. No sabe qué es cáncer o fibrosis quística. En lugar de eso, se apoya puramente en las reglas evolutivas de la vida que absorbió al leer esos nueve billones de pares de bases.

Beto
Entonces, ¿qué hace cuando ve una mutación?

Alicia
Cuando le das una secuencia mutada, simplemente calcula la probabilidad matemática de que esa secuencia exista en la naturaleza.

Beto
Ah, ya veo. Básicamente actúa como un corrector ortográfico ultra-avanzado.

Alicia
Sí.

Beto
Lee una secuencia de ADN mutada y dice: según los trillones de células sanas que he leído, la gramática de esta secuencia en particular se ve estadísticamente incorrecta.

Alicia
Exactamente eso. Asigna una probabilidad a la secuencia. Si una mutación reduce severamente esa probabilidad, el modelo predice que la mutación es deletérea o dañina para el organismo.

Beto
Eso es muy inteligente.

Alicia
Y las sutilezas que detecta son increíbles. Sabe que una mutación sinónima, ...

Beto
... que es un tipo que cambia la letra del ADN pero no cambia la proteína resultante, ¿verdad?

Alicia
Correcto. Sabe que eso generalmente está bien. No lo marcará. Pero reconoce instantáneamente que un desplazamiento del marco de lectura (frameshift) es catastrófico.

Beto
Para quienes estén un poco oxidados en biología de secundaria, un frameshift es cuando insertas o borras una sola letra y eso desplaza todo el marco de lectura del gen.

Alicia
Sí, arruina toda la secuencia.

Beto
Es como si tomaras la frase “el gato se comió la rata” y quitaras la s de “se”, todo se corre y obtienes “el gato e c omió la rat a”… convierte el resto del gen en pura galimatías.

Alicia
Y Evo2 lo marca al instante. Pero va más allá de simples faltas de ortografía. Incluso comprende diferentes dialectos genéticos.

Beto
¿Dialectos, qué quieres decir?

Alicia
Bueno, la mayoría de la vida en la Tierra usa el código genético estándar para traducir ADN en proteínas. Pero ciertos microorganismos microscópicos usan lo que se llama el código de los ciliados. En el código estándar, la secuencia TGA actúa como una señal de parada, diciéndole a la célula que deje de construir la proteína. En el código de los ciliados, TGA es solo otro bloque de construcción. No es una señal de parada.

Beto
Y Evo2 lo descubrió por sí solo.

Alicia
Sí. Si le das a Evo2 un gen humano estándar e introduces una mutación TGA, el modelo la marca como un error enorme porque rompe la proteína demasiado pronto.

Beto
Pero si es un genoma de ciliado, ...

Alicia
... lee la secuencia circundante, reconoce el dialecto que está leyendo y matemáticamente decide que TGA es perfectamente normal. Se basa totalmente en el contexto de la secuencia para determinar qué “diccionario” usar.

Beto
Aquí es donde se pone realmente interesante para mí. Entender dialectos microscópicos raros está bien, pero lo aplicaron al diagnóstico clínico humano.

Alicia
Lo hicieron.

Beto
El artículo afirma que Evo2 nunca fue entrenado en variación genética humana. No fue entrenado en datos de genómica funcional ni en historiales clínicos. Aun así, puede diagnosticar con precisión la gravedad de variantes clínicas humanas.

Alicia
Sí, eso es lo que realmente brilla.

Beto
Lo probaron en los genes BRCA1 y BRCA2, ya sabes, los genes famosos vinculados al cáncer de mama. Evo2 puede separar las variantes benignas de las variantes patógenas causantes de cáncer.

Alicia
Y lo hizo bien.

Alicia
Incluso superó a modelos especializados supervisados por humanos, como AlphaMissense o CADD, en variantes complejas no codificantes, como inserciones o deleciones de múltiples letras. Tengo que admitir, me cuesta entender esto.

Alicia
¿Cómo supera a herramientas especializadas?

Beto
Sí. ¿Cómo un modelo entrenado mayormente con bacterias de aguas profundas y plantas al azar vence a un modelo diseñado específicamente por humanos para medicina humana?

Alicia
Se reduce a entender los enormes puntos ciegos de nuestros propios datos clínicos.

Beto
Vale, explícame eso.

Alicia
Los conjuntos de datos clínicos humanos están muy sesgados. Cuando los médicos y genetistas secuencian ADN para estudiar enfermedades, principalmente miran las regiones codificantes del genoma.

Beto
... las regiones que codifican proteínas.

Alicia
Correcto. Porque ahí suelen estar las respuestas obvias.

Beto
Sí.

Alicia
Pero enormes porciones de nuestro ADN son secuencias reguladoras no codificantes. Estas son las partes del ADN que actúan como perillas de volumen que suben o bajan genes.

Beto
La llamada "materia oscura" del genoma.

Alicia
Exacto. Los modelos centrados en humanos se entrenan con datos sesgados que en su mayoría ignoran esa materia oscura. Pero la dieta de Evo 2 fueron nueve billones de pares de bases de evolución cruda y sin editar.

Beto
Así que lo vio todo.

Alicia
Lo vio todo. La presión evolutiva se aplica a todo: tanto a los genes como a las perillas de volumen. Si una secuencia es importante, la naturaleza la conserva a lo largo de millones de años, ya sea en un humano o en un organismo unicelular.

Beto
Wow.

Alicia
Porque Evo 2 no estuvo constreñido por nuestros estrechos conjuntos de datos humanos, su entrenamiento amplio le permite detectar las reglas universales de la vida que aplican tanto a nuestra materia oscura como a un promotor bacteriano.

Beto
Así que es como tener un mecánico que nunca ha visto tu marca de coche específica, pero comprende la física fundamental de los motores de combustión lo suficientemente bien como para diagnosticar un ruido extraño mejor que el concesionario oficial.

Alicia
Esa analogía captura perfectamente la dinámica. Y ese mecanismo conduce naturalmente a un rompecabezas mucho más profundo.

Beto
¿Cuál es?

Alicia
Si Evo 2 no fue explícitamente enseñado estas reglas de biología, ¿cómo demonios organiza todo ese conocimiento dentro de su cerebro artificial?

Beto
Sí. Miremos bajo el capó. Durante mucho tiempo, los grandes modelos de lenguaje han sido criticados por ser cajas negras.

Alicia
Muy cierto.

Beto
Alimentamos una montaña de datos a una red neuronal. Millones de números se multiplican entre sí de maneras que no podemos seguir, y sale una respuesta brillante. Pero no tenemos idea de qué conceptos formó el modelo en su interior.

Alicia
Pero el equipo detrás de Evo 2 usó una técnica de un campo llamado "interpretabilidad mecanística" para literalmente mapear el interior del modelo.

Beto
¿Cómo funciona eso?

Alicia
Usaron una herramienta llamada "autoencoders dispersos", "Sparsed Auto-Encoders", o SAE por sus siglas en inglés. Para entender un SAE, debes darte cuenta que dentro de una IA, los conceptos no se almacenan ordenadamente.

Beto
No están en una pequeña carpeta.

Alicia
No. Están esparcidos a través de miles de neuronas artificiales activándose simultáneamente. Es un enredo de señales. Un SAE actúa como una capa de traducción. Es un algoritmo secundario que desenreda ese patrón denso y desordenado de activación en cuerdas individuales que realmente podemos etiquetar y entender.

Beto
Así que en lugar de ver a mil neuronas disparando e intentar adivinar qué significan, el SAE aísla una característica matemática específica y dice: oh, cada vez que la IA piensa en una manzana, esta cadena específica se enciende.

Alicia
Precisamente. Y aplicando esta capa de traducción a Evo 2, descubrieron que el modelo, enteramente por sí solo, sin etiquetas humanas ni libros de texto, había desarrollado representaciones internas para conceptos biológicos complejos.

Beto
Es como un extraterrestre interceptando las transmisiones de radio de la Tierra.

Alicia
Sí, es una buena forma de verlo.

Beto
Simplemente escucha el audio crudo durante años. No tiene diccionario, no tiene libro de gramática. Pero eventualmente, internamente, inventa el concepto de sustantivos y verbos solo reconociendo patrones de cómo suenan las cosas. Evo 2 hizo eso con el ADN.

Alicia
Lo fascinante aquí es la especificidad de los conceptos que inventó. Durante el análisis de interpretabilidad, los investigadores encontraron una característica específica en el modelo —la característica f/19746—. Notaron que esta característica se activa específicamente cuando el modelo está leyendo algo llamado "profago".

Beto
Vamos a desglosarlo. Un profago es básicamente un agente durmiente, ¿verdad?

Alicia
Sí.

Beto
Es ADN viral que ha infectado a una bacteria, pero en lugar de matar la célula, se integra en el propio genoma de la bacteria y simplemente se replica cada vez que la bacteria se divide.

Alicia
Sí, eso es exactamente. El modelo aprendió de forma independiente a detectar este código viral oculto enterrado dentro del código bacteriano. Pero la historia se vuelve mucho más profunda. Notaron que esa misma característica exacta, F/19746, también se activa cuando el modelo lee secuencias espaciadoras CRISPR.

Beto
Y CRISPR es el sistema inmune bacteriano. Es el sistema que las bacterias usan para defenderse de los virus.

Alicia
Sí. Cuando una bacteria sobrevive a un ataque viral, toma un fragmento del ADN del virus y lo almacena en su arreglo CRISPR como un espaciador. Es esencialmente la foto de identidad del invasor.

Beto
Eso es una locura.

Alicia
La característica de Evo2 se activaba con el agente durmiente viral oculto y también con la foto policial (espaciador) del virus en CRISPR. La IA, de forma independiente, dedujo que estos dos tipos de secuencias completamente diferentes están biológicamente vinculados. Sin ningún estímulo humano, derivó el concepto de defensa viral.

Beto
Eso es alucinante. Y también aprendió estructuras físicas 3D solo a partir de leer texto 1D.

Alicia
Sí, lo hizo.

Beto
El artículo muestra que aprendió a identificar alfa-hélices y hojas-beta. Estas son las formas físicas de torsión que las proteínas adoptan en 3D en el mundo real. Evo 2 dedujo la física 3D solo leyendo la secuencia lineal plana de A, C, T y G.

Alicia
Esto resalta un cambio filosófico enorme en biología.

Beto
¿Cómo así?

Alicia
Ya no estamos solo usando la IA como una súper calculadora para procesar lo que los científicos humanos ya saben. La IA está desarrollando su propia comprensión abstracta y de alta dimensión de la biología. Ahora estamos en una posición en la que podemos extraer los conceptos internos de la IA y aprender de ellos.

Beto
El mejor ejemplo de esto es el mamut lanudo, “Wolly mammoth”.

Alicia
Oh, sí. Esa parte fue increíble.

Beto
Los investigadores encontraron que Evo2 había aprendido características internas para identificar los límites entre exones e intrones en genes humanos. Para quien necesite un repaso, piensa en un gen como una transmisión de televisión.

Alicia
Me gusta esa analogía.

Beto
Los exones son el programa real. Las partes del código para la proteína. Los intrones son los cortes publicitarios. El espacio no codificante queda entre medias y se elimina antes de que se sintetice la proteína. La IA aprendió exactamente dónde termina el programa y dónde empiezan los anuncios en humanos. Pero luego tomaron esas mismas características aprendidas en humanos y las aplicaron al genoma secuenciado de un mamut lanudo extinto de 52.000 años.

Alicia
Y funcionó.

Beto
Funcionó. La IA identificó con éxito la arquitectura genómica de una especie extinta usando reglas derivadas del ADN moderno.

Alicia
Prueba que estas características aprendidas son verdaderamente fundamentales. No son solo rasgos memorizados humanos. Son las reglas estructurales profundas de la vida que se transfieren entre especies completamente distintas y a lo largo de milenios.

Beto
Bien, hemos establecido que Evo 2 puede leer la enciclopedia masiva de la vida. Puede detectar errores con increíble precisión. Y entiende profundamente la gramática subyacente y la estructura 3D.

Alicia
Sí.

Beto
Eso nos lleva al paso final y, francamente, más de ciencia ficción de este análisis: escribir el código de la vida.

Alicia
Pasamos de la predicción a la generación a escala genómica. Porque el modelo entiende la secuencia de la vida, puede generar auto-regresivamente nuevas secuencias.

Beto
¿Qué significa auto-regresivamente en este contexto?

Alicia
Igual que un chatbot predice la próxima palabra en una frase, Evo 2 predice el siguiente nucleótido biológico una y otra vez para escribir textos genéticos originales.

Beto
Y sí, hicieron exactamente eso con fragmentos pequeños. Usaron Evo 2 para generar secuencias mitocondriales humanas completamente nuevas. Eran secuencias de 16 kilobases que mantienen todas las secuencias codificantes apropiadas, ARNt y sintenia ("synteny").

Alicia
Sí, la sintenia es clave aquí.

Beto
Vamos a traducir sintenia rápidamente. Sintenia básicamente significa mantener las cosas en un vecindario físico lógico. Si estuvieras construyendo una casa, quieres la cocina junto al comedor, no dentro del baño principal.

Alicia
Exacto.

Beto
Evo 2 sabe cómo agrupar funciones biológicas lógicamente a lo largo de la cadena de ADN. Incluso generó enormes genomas procariotas de 580 kilobases basados en Mycoplasma genitalium.

Alicia
Generar una secuencia de esa longitud que mantiene coherencia.

Beto
... donde un gen al principio de la secuencia tiene sentido en el contexto de un gen medio millón de pares de bases después.

Alicia
Eso es un testimonio de esa ventana de contexto de un millón de tokens de la que hablamos.

Pero los investigadores no se quedaron solo en la generación restringida. Querían ver si podían controlar exactamente cómo el ADN funciona en el espacio físico.

Beto
Correcto; esto nos devuelve al epigenoma. El epigenoma es el empaquetado físico del ADN.

Alicia
Dicta cómo se pliega.

Beto
Sí. Si el ADN es una cadena gigantesca, el epigenoma dicta cómo se enrolla esa cadena dentro del núcleo. A veces la cadena está desenrollada y abierta, lo que significa que la célula puede leer esos genes. A veces está empaquetada y cerrada, ocultando los genes.

Alicia
Y los investigadores querían escribir ADN mamífero a medida que se pliegue y abra de maneras altamente específicas y completamente no naturales.

Beto
Exacto.

Alicia
Para ello usaron Evo 2 junto con dos modelos de puntuación externos llamados Enformer y Borzoi. Estos modelos son expertos en predecir la accesibilidad de la cromatina.

Beto
... que es el término técnico para predecir qué partes de una secuencia de ADN estarán abiertas y cuáles cerradas cuando se inserten en una célula viva.

Y esto nos lleva justo al gancho de nuestro relato. Los investigadores usaron este sistema para literalmente escribir código Morse en el epigenoma de células madre embrionarias de ratón vivas.

Alicia
Esta es la parte loca.

Beto
Diseñaron secuencias de ADN donde picos anchos de cromatina abierta representaban un guion, picos estrechos de cromatina abierta representaban un punto, y la cromatina fuertemente cerrada representaba los espacios.

Alicia
Y deletrearon palabras.

Beto
Deletrearon con éxito palabras. Evo 2, LOW y ARC. Y realmente sintetizaron ese ADN en un laboratorio, lo introdujeron en células vivas y lo verificaron químicamente. Las células físicamente plegaron su ADN en la forma de un mensaje en código Morse.

Alicia
Es una demostración increíble de diseño biológico programable.

Beto
Pero tengo que detenerte ahí porque la mecánica de esto me está volando un poco la cabeza.

Alicia
¿Cómo así?

Beto
Si Evo 2 es esencialmente un modelo de lenguaje, ya sabes, si solo está adivinando el siguiente nucleótido una letra a la vez, ¿cómo planea un mensaje masivo en código Morse que necesita miles de pares de bases para desplegarse? No puedes simplemente adivinar letra por letra y tropezarte con una secuencia perfectamente formateada de 10.000 bases con la estructura física deseada.

Alicia
No se puede, por eso usan guía en tiempo de inferencia, específicamente una técnica llamada "búsqueda en haz".

Beto
Búsqueda en haz, ¿cómo funciona eso?

Alicia
Evo 2 no genera la secuencia completa a ciegas de principio a fin. Genera pequeños fragmentos de ADN, digamos 128 pares de bases a la vez. Y genera múltiples opciones distintas para ese fragmento específico.

Beto
Ah, ya veo.

Alicia
Entonces esos modelos externos de puntuación, Enformer y Borzoi, entran para calificar esos fragmentos. Analizan las opciones y preguntan: ¿cuál de estos fragmentos nos acerca más a la estructura tridimensional física que queremos?

Beto
Wow.

Alicia
El sistema conserva solo los fragmentos con mejor puntuación, los añade a la secuencia y pide a Evo 2 que genere el siguiente conjunto de opciones a partir de ahí.

Beto
Oh, lo entiendo. Es como intentar escribir una novela, pero después de cada párrafo un editor muy estricto lee diez borradores distintos del siguiente párrafo. El editor elige el que mejor encaja en la trama, lo bloquea y te dice que sigas desde ahí.

Alicia
Esa es la mecánica exacta. Es un proceso iterativo de diseño autocrítico. La IA propone las secuencias biológicas, pero el mecanismo de guía la dirige hacia la forma física deseada.

Beto
Es muy inteligente.

Alicia
Permite a los investigadores diseñar secuencias que el modelo nunca generaría naturalmente por su cuenta en la naturaleza.

Beto
Entonces, ¿qué significa todo esto? Empezamos con la idea del ADN como un libro misterioso.

Alicia
Sí.

Beto
Un lenguaje que no podíamos hablar con fluidez.

Alicia
Correcto.

Beto
Ahora tenemos un modelo fundacional que comprende la vida desde el nivel de nucleótido único hasta el nivel del genoma completo. Tenemos una IA capaz de predicción zero-shot de enfermedades, que supera a herramientas especializadas en variantes humanas sin haber sido entrenada nunca con datos médicos humanos.

Alicia
Esto es un salto enorme.

Beto
Y tenemos un sistema que puede programarse para escribir genomas novedosos y dictar la estructura física 3D del ADN en células vivas. Estamos ante una herramienta que podría revolucionar los tratamientos personalizados, permitiéndonos diseñar medicinas genéticas altamente específicas. Vemos aplicaciones de biología sintética donde podríamos diseñar organismos para limpiar microplásticos o fabricar materiales sostenibles, todo escrito con la fluidez de la propia naturaleza.

Alicia
Si lo conectamos con el panorama más amplio, lo que estamos presenciando es la transición fundamental de descubrir biología a diseñar biología. Durante siglos, la biología ha sido una ciencia observacional. Encontramos algo en la naturaleza, lo pinchamos, lo secuenciamos y vemos qué hace. Con modelos como Evo 2, la biología se convierte en una disciplina de diseño.

Beto
Es una buena forma de decirlo.

Alicia
Y crucialmente, al hacer los parámetros del modelo, el código de entrenamiento y el conjunto de datos de 9 billones de pares de bases totalmente de código abierto, los investigadores están democratizando este inmenso poder computacional. No están guardando el diccionario. Lo están repartiendo, para que la comunidad científica global pueda empezar a escribir.

Beto
Realmente es una nueva era, pero me deja con un pensamiento final que no puedo sacarme de la cabeza desde que leí este artículo.

Alicia
¿Cuál?

Beto
Evo 2 aprendió las reglas universales de la biología leyendo el ADN de todos los dominios de la vida en la Tierra. Entiende nuestro pasado evolutivo mejor que nosotros.

Alicia
Indudablemente.

Beto
Pero con su capacidad de generar secuencias coherentes a escala de genoma totalmente nuevas…

Alicia
Sí.

Beto
¿Cuánto tiempo pasará antes de que escriba un dominio de la vida entero y estable?

Biología sintética que sigue perfectamente las reglas de la evolución terrestre, pero que no comparte ancestro común con nada que haya vivido antes. Una rama completamente nueva en el árbol de la vida, escrita enteramente por una máquina. Algo para pensar.

Gracias por acompañarnos en este análisis profundo, y nos vemos la próxima vez.