¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Una nueva técnica evolutiva del laboratorio de IA con sede en Japón Samán Permite a los desarrolladores aumentar las capacidades de los modelos de IA sin capacitación costosa y procesos de ajuste fino. La técnica, indicación Fundación maniquí de nichos naturales (M2N2), supera las limitaciones de otros métodos de fusión de modelos e incluso puede transformarse nuevos modelos completamente desde cero.
M2N2 se puede aplicar a diferentes tipos de modelos de educación mecánico, incluidos modelos de idiomas grandes (LLM) y generadores de texto a imagen. Para las empresas que buscan construir soluciones de IA personalizadas, el enfoque ofrece una forma poderosa y efectivo de crear modelos especializados combinando las fortalezas de las variantes de código hendido existentes.
¿Qué es la fusión del maniquí?
La fusión del maniquí es una técnica para integrar el conocimiento de múltiples modelos de IA especializados en un solo maniquí más capaz. En área de ajustar, que refina un solo maniquí previamente capacitado que usa nuevos datos, la fusión combina los parámetros de varios modelos simultáneamente. Este proceso puede consolidar una gran cantidad de conocimiento en un activo sin requerir capacitación o camino costosa o camino a los datos de capacitación originales.
Para los equipos empresariales, esto ofrece varias ventajas prácticas sobre el ajuste tradicional. En los comentarios a VentureBeat, los autores del documento dijeron que la fusión del maniquí es un proceso sin gradiente que solo requiere pases cerca de delante, lo que lo hace computacionalmente más de ocasión que el ajuste, lo que implica costosas actualizaciones de gradiente. Fusionar todavía deja de banda la obligación de datos de capacitación cuidadosamente equilibrados y mitiga el peligro de “olvido catastrófico”, donde un maniquí pierde sus capacidades originales posteriormente de cultivarse una nueva tarea. La técnica es especialmente poderosa cuando los datos de entrenamiento para modelos especializados no están disponibles, ya que la fusión solo requiere los pesos del maniquí.
AI Scaling alcanza sus límites
Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:
- Convertir la energía en una superioridad estratégica
- Edificio de inferencia efectivo para ganancias reales de rendimiento
- Desbloquear ROI competitivo con sistemas de IA sostenibles
Asegure su área para mantenerse a la vanguardia: https://bit.ly/4mwgngo
Los primeros enfoques para la fusión de modelos requirieron un esfuerzo manual significativo, ya que los desarrolladores ajustaban los coeficientes a través de prueba y error para encontrar la mezcla óptima. Más recientemente, los algoritmos evolutivos han ayudado a automatizar este proceso buscando la combinación óptima de parámetros. Sin secuestro, queda un paso manual significativo: los desarrolladores deben establecer conjuntos fijos para parámetros fusionables, como las capas. Esta restricción limita el espacio de búsqueda y puede evitar el descubrimiento de combinaciones más poderosas.
Cómo funciona M2N2
M2N2 aborda estas limitaciones inspirándose en los principios evolutivos en la naturaleza. El operación tiene tres características secreto que le permiten explorar una grado más amplia de posibilidades y descubrir combinaciones de modelos más efectivas.

Primero, M2N2 elimina los límites de fusión fijos, como bloques o capas. En área de agrupar los parámetros por capas predefinidas, utiliza “puntos divididos” flexibles y “ración de mezcla” para dividir y combinar modelos. Esto significa que, por ejemplo, el operación podría fusionar el 30% de los parámetros en una capa del Maniquí A con el 70% de los parámetros de la misma capa en el Maniquí B. El proceso comienza con un “archivo” de modelos de semillas. En cada paso, M2N2 selecciona dos modelos del archivo, determina una relación de mezcla y un punto de división, y los fusiona. Si el maniquí resultante funciona aceptablemente, se agrega nuevamente al archivo, reemplazando uno más débil. Esto permite que el operación explore combinaciones cada vez más complejas con el tiempo. Como señalan los investigadores, “esta ingreso continuo de complejidad garantiza una grado más amplia de posibilidades mientras se mantiene la tractabilidad computacional”.
En segundo área, M2N2 administra la multiplicidad de su población maniquí a través de la competencia. Para comprender por qué la multiplicidad es crucial, los investigadores ofrecen una relación simple: “Imagine fusionar dos hojas de respuestas para un examen … Si ambas hojas tienen exactamente las mismas respuestas, combinarlas no hace ninguna prosperidad. Pero si cada hoja tiene respuestas correctas para diferentes preguntas, fusionarlas da un resultado mucho más válido”. La fusión del maniquí funciona de la misma forma. El desafío, sin secuestro, es aclarar qué tipo de multiplicidad es valioso. En área de encomendar en las métricas hechas a mano, M2N2 simula la competencia por fortuna limitados. Este enfoque inspirado en la naturaleza retribución lógicamente a los modelos con habilidades únicas, ya que pueden “disfrutar los fortuna no contempla” y resolver problemas que otros no pueden. Estos especialistas de hornacina, señalan los autores, son los más valiosos para fusionarse.
Tercero, M2N2 usa una heurística indicación “entretenimiento” para emparejar modelos para fusionar. En área de simplemente combinar los modelos de suspensión rendimiento como en otros algoritmos de fusión, los combina en función de sus fortalezas complementarias. Una “puntuación de entretenimiento” identifica pares en los que un maniquí funciona aceptablemente en los puntos de datos que el otro encuentra desafiante. Esto prosperidad tanto la eficiencia de la búsqueda como la calidad del maniquí fusionado final.
M2N2 en acto
Los investigadores probaron M2N2 en tres dominios diferentes, demostrando su versatilidad y efectividad.
El primero fue un prueba a pequeña escalera que evoluciona clasificadores de imágenes a pulvínulo de redes neuronales desde cero en el Conjunto de datos MNIST. M2N2 logró la longevo precisión de la prueba por un beneficio sustancial en comparación con otros métodos. Los resultados mostraron que su mecanismo de preservación de multiplicidad era secreto, lo que le permitió surtir un archivo de modelos con fortalezas complementarias que facilitaron la fusión efectiva mientras descartaron sistemáticamente soluciones más débiles.
A continuación, aplicaron M2N2 a LLMS, combinando un maniquí entendido en matemáticas (WizardMath-7b) con un entendido en agente (AgenteVol-7B), los cuales se basan en la inmueble LLAMA 2. El objetivo era crear un solo agente que se destacara tanto en los problemas matemáticos (conjunto de datos GSM8K) como en las tareas basadas en la web (conjunto de datos de la tienda web). El maniquí resultante alcanzó un válido rendimiento en los dos puntos de remisión, mostrando la capacidad de M2N2 para crear modelos potentes y multiscronos.

Finalmente, el equipo fusionó modelos de coexistentes de imágenes basados en difusión. Combinaron un maniquí entrenado en indicaciones japonesas (JSDXL) con tres modelos de difusión estables entrenados principalmente en indicaciones en inglés. El objetivo era crear un maniquí que combinara las mejores capacidades de coexistentes de imágenes de cada maniquí de semilla mientras conservaba la capacidad de comprender el japonés. El maniquí fusionado no solo produjo imágenes más fotorrealistas con una mejor comprensión semántica, sino que todavía desarrolló una tiento bilingüe emergente. Podría ocasionar imágenes de suscripción calidad a partir de indicaciones en inglés y japonesa, a pesar de que se optimizó exclusivamente utilizando subtítulos japoneses.
Para las empresas que ya han desarrollado modelos especializados, el caso comercial para la fusión es convincente. Los autores señalan nuevas capacidades híbridas que serían difíciles de conquistar de otra forma. Por ejemplo, fusionar un LLM conforme para argumentos de traspaso persuasivos con un maniquí de visión entrenado para interpretar las reacciones de los clientes podría crear un solo agente que adapte su tono en tiempo verdadero en función de los comentarios de video en vivo. Esto desbloquea la inteligencia combinada de múltiples modelos con el costo y la latencia de ejecutar solo uno.
Mirando cerca de el futuro, los investigadores ven técnicas como M2N2 como parte de una tendencia más amplia cerca de la “fusión maniquí”. Imaginan un futuro en el que las organizaciones mantienen ecosistemas completos de modelos de IA que evolucionan y se fusionan continuamente para adaptarse a los nuevos desafíos.
“Piense en ello como un ecosistema en desarrollo donde las capacidades se combinan según sea necesario, en área de construir un monolito superhombre desde cero”, sugieren los autores.
Los investigadores han publicado el código de M2N2 en Girub.
El longevo obstáculo a este ecosistema de IA dinámico y oficial, creen que los autores no es técnico sino organizacional. “En un mundo con un gran ‘maniquí fusionado’ compuesto por componentes de código hendido, comerciales y personalizados, respaldar la privacidad, la seguridad y el cumplimiento será un problema crítico”. Para las empresas, el desafío será descubrir qué modelos se pueden absorber de forma segura y efectiva en su pila de IA en desarrollo.






