Treequest de Sakana AI: implementa equipos multimodelo que superan a los LLM individuales en un 30%

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

Laboratorio de IA japonés Samán ha introducido una nueva técnica que permite que múltiples modelos de idiomas grandes (LLM) cooperen en una sola tarea, creando efectivamente un “equipo de ensueño” de agentes de IA. El método, llamado AB-MCT múltiplepermite que los modelos realicen pruebas y errores y combinen sus fortalezas únicas para resolver problemas que son demasiado complejos para cualquier maniquí individual.

Para las empresas, este enfoque proporciona un medio para desarrollar sistemas AI más robustos y capaces. En circunscripción de ser encerrado en un solo proveedor o maniquí, las empresas podrían servirse dinámicamente los mejores aspectos de los diferentes modelos fronterizos, asignando la IA correcta para la parte correcta de una tarea para conseguir resultados superiores.

El poder de la inteligencia colectiva

Los modelos de IA fronteriza están evolucionando rápidamente. Sin secuestro, cada maniquí tiene sus propias fortalezas y debilidades distintas derivadas de sus datos y cimentación de entrenamiento únicos. Uno podría sobresalir en la codificación, mientras que otro se destaca en la escritura creativa. Los investigadores de Sakana AI argumentan que estas diferencias no son un error, sino una característica.

“Vemos estos sesgos y aptitudes variadas no como limitaciones, sino como capital preciosos para crear inteligencia colectiva”, afirman los investigadores en su blog. Creen que así como los mayores logros de la humanidad provienen de diversos equipos, los sistemas de inteligencia industrial igualmente pueden conseguir más trabajando juntos. “Al agrupar su inteligencia, los sistemas de IA pueden resolver problemas insuperables para cualquier maniquí único”.

Pensando más tiempo en el momento de la inferencia

El nuevo cálculo de Sakana AI es una técnica de “escalera de tiempo de inferencia” (igualmente conocida como “escalado de tiempo de prueba”), un dominio de investigación que se ha vuelto muy popular en el postrero año. Si admisiblemente la veterano parte del enfoque en la IA ha estado en la “escalera en el tiempo de entrenamiento” (haciendo que los modelos sean más grandes y entrenados en conjuntos de datos más grandes), la escalera de tiempo de inferencia mejoría el rendimiento al asignar más capital computacionales a posteriori de que un maniquí ya está capacitado.

Un enfoque global implica el uso de educación de refuerzo para impulsar modelos para originar secuencias más largas y detalladas de la condena de pensamiento (COT), como se ve en modelos populares como OpenAI O3 y Deepseek-R1. Otro método más simple es el muestreo cliché, donde el maniquí tiene el mismo aviso varias veces para originar una variedad de soluciones potenciales, similar a una sesión de chubasco de ideas. El trabajo de Sakana AI combina y avanza estas ideas.

“Nuestro ámbito ofrece una lectura más inteligente y más estratégica de Best-of-N (igualmente conocido como muestreo cliché)”, dijo a VentureBeat Takuya Akiba, científica investigadora de Sakana AI y coautora del circular. “Complementa técnicas de razonamiento como Long Cot a través de RL. Al pretender dinámicamente la organización de búsqueda y el LLM apropiado, este enfoque maximiza el rendimiento internamente de un número escaso de llamadas LLM, ofreciendo mejores resultados en tareas complejas”.

Cómo funciona la búsqueda de ramificación adaptativa

El núcleo del nuevo método es un cálculo llamado Búsqueda de árbol de Monte Carlo de ramificación adaptativa (AB-MCTS). Permite que un LLM realice efectivamente la prueba y el error al equilibrar de modo inteligente dos estrategias de búsqueda diferentes: “Buscando más profundo” y “Buscando más amplio”. Agenciárselas más profundamente implica tomar una respuesta prometedora y refinarla repetidamente, mientras averiguación más amplio significa originar soluciones completamente nuevas desde cero. AB-MCTS combina estos enfoques, lo que permite que el sistema mejore una buena idea, pero igualmente para pivotar y probar poco nuevo si llega a un callejón sin salida o descubre otra dirección prometedora.

Para conseguir esto, el sistema usa Búsqueda de árboles de Monte Carlo (MCT), un cálculo de toma de decisiones insigne por Alphago de Deepmind. En cada paso, AB-MCTS utiliza modelos de probabilidad para osar si es más importante refinar una alternativa existente o originar una nueva.

*Diferentes estrategias de escalera de tiempo de prueba Fuente: Sakana AI*

Los investigadores llevaron esto un paso más allá con los AB-MCT multi-LLM, que no solo decide “qué” hacer (refinar frente a originar) sino igualmente “qué” LLM debería hacerlo. Al eclosión de una tarea, el sistema no sabe qué maniquí es el más adecuado para el problema. Comienza probando una mezcla equilibrada de LLM disponibles y, a medida que avanza, aprende qué modelos son más efectivos, asignando más de la carga de trabajo con el tiempo.

Poniendo a prueba el ‘equipo de ensueño’ de AI

Los investigadores probaron su sistema AB-MCTS multi-LLM en el Arc-Agi-2 de narración. ARC (Percepción y Corpus de razonamiento) está diseñado para probar una capacidad de ser humano para resolver nuevos problemas de razonamiento visual, lo que lo hace notoriamente difícil para la IA.

El equipo utilizó una combinación de modelos fronterizos, incluidos O4-Mini, Gemini 2.5 Pro y Deepseek-R1.

El colectivo de modelos pudo encontrar soluciones correctas para más del 30% de los 120 problemas de prueba, una puntuación que superó significativamente a cualquiera de los modelos que funcionaban solos. El sistema demostró la capacidad de asignar dinámicamente el mejor maniquí para un problema transmitido. En las tareas donde existía una ruta clara en torno a una alternativa, el cálculo identificó rápidamente la LLM más efectiva y la usó con más frecuencia.

AB-MCTS vs Modelos individuales (Fuente: Sakana AI) — *AB-MCTS vs Modelos individuales Fuente: Sakana AI*

Más impresionante, el equipo observó instancias en las que los modelos resolvieron problemas que anteriormente eran imposibles para cualquiera de ellos. En un caso, una alternativa generada por el maniquí O4-Mini fue incorrecta. Sin secuestro, el sistema pasó este intento defectuoso de Deepseek-R1 y Gemini-2.5 Pro, que pudieron analizar el error, corregirlo y, en última instancia, producir la respuesta correcta.

“Esto demuestra que los AB-MCT multi-LLM pueden combinar de modo flexible modelos fronterizos para resolver problemas previamente insoluble, lo que impulsa los límites de lo que se puede conseguir mediante el uso de LLM como una inteligencia colectiva”, escriben los investigadores.

AB-MTCS puede seleccionar diferentes modelos en diferentes etapas para resolver un problema (Fuente: Sakana AI) — *AB-MTCS puede pretender diferentes modelos en diferentes etapas para resolver una fuente de problema: Sakana AI*

“Adicionalmente de los pros y los contras individuales de cada maniquí, la tendencia a desbarrar puede variar significativamente entre ellos”, dijo Akiba. “Al crear un conjunto con un maniquí que es menos probable que admiración, podría ser posible conseguir lo mejor de uno y otro mundos: poderosas capacidades lógicas y una cachas almohadilla. Donado que la visión es un problema importante en un contexto comercial, este enfoque podría ser valioso para su mitigación”.

Desde la investigación hasta las aplicaciones del mundo existente

Para ayudar a los desarrolladores y empresas a aplicar esta técnica, Sakana AI ha resuelto el cálculo subyacente como un ámbito de código amplio llamado Trebyquestadecuado bajo una deshonestidad Apache 2.0 (aprovechable con fines comerciales). TreeQuest proporciona una API flexible, que permite a los usuarios implementar AB-MCT de múltiples LLM para sus propias tareas con calificación y razonamiento personalizadas.

“Si admisiblemente estamos en las primeras etapas de aplicar AB-MCT a problemas específicos orientados a las empresas, nuestra investigación revela un potencial significativo en varias áreas”, dijo Akiba.

Más allá del punto de narración ARC-AGI-2, el equipo pudo aplicar con éxito AB-MCT a tareas como la codificación algorítmica compleja y mejorar la precisión de los modelos de educación forzoso.

“Los AB-MCT igualmente podrían ser enormemente efectivos para problemas que requieren ensayos y errores iterativos, como optimizar las métricas de rendimiento del software existente”, dijo Akiba. “Por ejemplo, podría estar de moda para encontrar automáticamente formas de mejorar la latencia de respuesta de un servicio web”.

El impulso de una utensilio destreza y de código amplio podría allanar el camino para una nueva clase de aplicaciones de IA empresariales más potentes y confiables.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu presidente, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.