
Los investigadores argumentan que esta configuración permite a Evo “vincular patrones a nivel de nucleótidos con el contexto genómico a escalera de kilobases”. En otras palabras, si le presenta una gran porción de ADN genómico, Evo puede interpretarlo como un LLM interpretaría una consulta y produciría un resultado que, en un sentido genómico, es apropiado para esa interpretación.
Los investigadores razonaron que, transmitido el entrenamiento sobre genomas bacterianos, podrían usar un gen conocido como indicador, y Evo debería producir un resultado que incluya regiones que codifiquen proteínas con funciones relacionadas. La pregunta esencia es si simplemente generaría las secuencias de proteínas que ya conocemos, o si produciría resultados menos predecibles.
Nuevas proteínas
Para comenzar a probar el sistema, los investigadores le proporcionaron fragmentos de genes de proteínas conocidas y determinaron si Evo podía completarlos. En un ejemplo, si se le daba el 30 por ciento de la secuencia de un gen para una proteína conocida, Evo podía producir el 85 por ciento del resto. Cuando se le solicita el 80 por ciento de la secuencia, podría devolver toda la secuencia faltante. Cuando se eliminó un solo gen de un liga cómodo, Evo todavía pudo identificar y restaurar correctamente el gen faltante.
La gran cantidad de datos de entrenamiento todavía aseguró que Evo identificara correctamente las regiones más importantes de la proteína. Si realizó cambios en la secuencia, normalmente residieron en las áreas de la proteína donde se tolera la variabilidad. En otras palabras, su entrenamiento había permitido al sistema incorporar las reglas de los límites evolutivos a los cambios en genes conocidos.
Entonces, los investigadores decidieron probar qué sucedió cuando se le pidió a Evo que publicara poco nuevo. Para hacerlo, utilizaron toxinas bacterianas, que generalmente están codificadas conexo con una antitoxina que evita que la célula se mate a sí misma cada vez que activa los genes. Hay muchos ejemplos de estos y tienden a progresar rápidamente como parte de una carrera armamentista entre las bacterias y sus competidores. Entonces, el equipo desarrolló una toxina que estaba sólo tenuemente relacionada con las conocidas y no tenía ninguna antitoxina conocida, y alimentó su secuencia a Evo como indicación. Y esta vez, filtraron cualquier respuesta que pareciera similar a genes de antitoxinas conocidos.






