
A finales de 2025, cubrimos el expansión de un sistema de inteligencia industrial llamado Evo que se entrenó en una gran cantidad de genomas bacterianos. Tantos que, cuando se le solicitan secuencias de un reunión de genes relacionados, podría identificar correctamente el futuro o sugerir una proteína completamente nueva.
Ese sistema funcionó porque las bacterias tienden a agrupar genes relacionados, poco que no ocurre en organismos con células complejas, que tienden a tener estructuras genómicas igualmente complejas. Poliedro eso, nuestra cobertura señaló: “No está claro que este enfoque funcione con genomas más complejos”.
Aparentemente, el equipo detrás de Evo lo vio como un desafío, porque hoy describe Evo 2, una IA de código descubierto que ha sido entrenada en genomas de los tres dominios de la vida (bacterias, arqueas y eucariotas). Posteriormente de entrenar con billones de pares de bases de ADN, Evo 2 desarrolló representaciones internas de características esencia incluso en genomas complejos como el nuestro, incluidos medios como el ADN regulador y los sitios de empalme, que pueden ser difíciles de detectar para los humanos.
Características del genoma
Los genomas bacterianos están organizados según principios relativamente sencillos. Todos los genes que codifican proteínas o ARN son contiguos, sin interrupciones en la secuencia codificante. Los genes que realizan funciones relacionadas, como metabolizar un azúcar o producir un aminoácido, tienden a agruparse, lo que permite que sean controlados por un sistema regulador único y compacto. Todo es sencillo y efectivo.
Los eucariotas no son así. Las secciones codificantes de los genes están interrumpidas por intrones, que no codifican nulo. Están regulados por una secuencia que puede estar dispersa en cientos de miles de pares de bases. Las secuencias que definen los bordes de los intrones o los sitios de unión de las proteínas reguladoras están todas débilmente definidas: si correctamente tienen unas pocas bases que son absolutamente necesarias, hay muchas bases que simplemente tienen una tendencia superior a la media a tener una pulvínulo específica (poco así como “el 45 por ciento de las veces es una T”). Rodeando todo esto en la mayoría de los genomas eucariotas hay una enorme cantidad de ADN que se ha denominado basura: virus inactivos, genes con daños terminales, etc.




