Apple desarrolla una IA ligera para la predicción de plegado de proteínas

El trabajo de Google Deepmind con Alfafold ha sido un fenómeno, pero es computacionalmente costoso. Con eso en mente, los investigadores de Apple comenzaron a desarrollar un método periódico para usar IA para predecir la estructura 3D de las proteínas, y se muestra prometedor. Aquí están los detalles.

Si no estás familiarizado con Alfafoldeste es el reformador maniquí de IA de Google Deepmind que puede predecir la estructura 3D de una proteína a partir de su secuencia de aminoácidos. Esto ha sido especialmente valioso para ayudar a desarrollar medicamentos más efectivos, así como materiales completamente nuevos.

Hasta hace unos abriles, este solía ser un problema increíblemente difícil. Predecir la estructura atómica tridimensional de una sola proteína podría transigir meses e incluso abriles.

Pero gracias a Alphafold, y ahora Alfafold2, así como a otros modelos de última engendramiento como Rosettafold y ESMFold, este proceso de predicción lleva tan solo unas pocas horas o incluso minutos, dependiendo del hardware.

Cada uno de estos modelos emplea sus propios métodos y marcos para alcanzar una precisión tan suscripción, pero en militar, requieren cálculos extremadamente costosos, y sus marcos tienen una estructura muy estricta.

Como lo expresaron los investigadores de Apple:

“Los modelos establecidos de plegamiento de proteínas como Alfafold2 y Rosettafold han conseguido una precisión innovadora al aguardar en arquitecturas cuidadosamente diseñadas que integran diseños de dominio computacionalmente pesados para tareas de plegamiento de proteínas, como alineaciones de secuencias múltiples (MSA) de secuencias de AA, secuencias de pares, y actualizaciones de triangulares, actualizaciones de triangulares, actualizaciones de triángulos, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, son actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, son actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares, actualizaciones de pares. Codifique nuestra comprensión contemporáneo del proceso de engendramiento de estructura subyacente en estos modelos, en circunscripción de optar por dejar que los modelos aprendan esto directamente de los datos, lo que podría ser caritativo por una variedad de razones “.

Ingrese el sencillo de Apple

En su maniquí propuestoen circunscripción de aguardar en “MSA, mapas de interacción por pares, actualizaciones triangulares o cualquier otro módulo geométrico equivalente”, Apple se pedestal en los llamados modelos de coincidencia de flujo, que se introdujeron en 2023 y han demostrado ser muy populares para los modelos de texto a imagen y texto a 3D.

En pocas palabras, los modelos de coincidencia de flujo son una desarrollo de los modelos de difusión que cubrimos en esta publicación. Pero en circunscripción de simplemente eliminar iterativamente el ruido de una imagen auténtico, aprenden una ruta más suave que convierte el ruido casual directamente en una imagen terminada de una vez.

Y conveniente a que este método omite muchos de los pasos de renovación, es menos costoso computacionalmente y genera resultados más rápido.

Los investigadores de Apple capacitaron a SimpleLdfold en múltiples tamaños diferentes, incluidos los parámetros de 100 m, 360m, 700m, 1.1b, 1.6b y 3b, y los evaluaron en “dos puntos de relato de predicción de la estructura de proteínas ampliamente adoptadas: CAMEO22 y CASP14, que son pruebas rigurosas para la propagación, robustez y tráfico de nivel atómico en modelos plegables”. “.

Los resultados fueron muy prometedores:

“Despite its simplicity, SimpleFold achieves competitive performance compared with these baselines. In both benchmarks, SimpleFold shows consistently better performance than ESMFlow which is also a flow-matching model built with ESM embeddings. On CAMEO22, SimpleFold demonstrates comparable results to the best folding models (eg, ESMFold, RoseTTAFold2, and AlphaFold2). In particular, SimpleFold achieves over 95% performance of Rosettafold2/Alphafold2 en la mayoría de las métricas sin aplicar atención de triángulo costosa y heurística y MSA “.

“Para la integridad, informamos los resultados de SimpleLd utilizando diferentes tamaños de maniquí. El maniquí más pequeño simple-100m muestra un rendimiento competitivo hexaedro su delantera de la eficiencia tanto en la capacitación como en la inferencia. En particular, SimpleLd logra más del 90% del rendimiento ESMFold en CAMEO22, lo que demuestra la efectividad de construir un maniquí de plegado utilizando bloques arquitectónicos de propósito militar”.

Además vieron mejoras de rendimiento alineadas con la escalera, lo que significa que los modelos más grandes con más datos de capacitación ofrecen un mejor rendimiento de plegado, especialmente en los puntos de relato más desafiantes.

Finalmente, señalan que Simplefold es solo un primer paso, y dicen que “esperan (lo) sirve como una iniciativa para que la comunidad construya modelos generativos de proteínas eficientes y poderosos”.

Puedes deletrear el Estudio completo sobre arxiv.