Un nuevo método de entrenamiento impulsa el razonamiento multimodal de la IA con conjuntos de datos más pequeños e inteligentes

Un nuevo método de entrenamiento impulsa el razonamiento multimodal de la IA con conjuntos de datos más pequeños e inteligentes

Investigadores de MiroMind AI y varias universidades chinas han publicado OpenMMReasonerun nuevo situación de formación que mejoría las capacidades de los modelos de lengua en el razonamiento multimodal.

El situación utiliza un proceso de dos etapas. Primero refina un maniquí colchoneta con un conjunto de datos curado en una etapa de ajuste fino supervisado (SFT). Luego, una etapa de enseñanza por refuerzo (RL) dirección al maniquí para razonar de guisa más efectiva en tareas que involucran tanto texto como datos visuales.

Los experimentos muestran que los modelos entrenados con OpenMMReasoner superan a otros modelos líderes de razonamiento visual, a menudo mientras se entrenan en un conjunto de datos más pequeño y de veterano calidad. El situación y todos sus activos, incluido un maniquí 7B entrenado, son completamente de código amplio, lo que proporciona una colchoneta confiable para crear aplicaciones que requieren trazabilidad y solidez.

Según Kaichen Zhang, coautor de un artículo de investigación que describe el nuevo método, OpenMMReasoner ofrece importantes beneficios para las empresas que miran más allá de los sistemas grandes y cerrados. "Un maniquí de razonamiento de código amplio más pequeño tiene ventajas prácticas: las empresas pueden implementarlo localmente, resumir la latencia, resumir los costos simbólicos asociados con largas cadenas de pensamiento, apoyar el control total sobre sus datos y (es) ajustable para adaptarse a su tarea posterior específica." le dijo a VentureBeat.

El desafío del razonamiento multimodal transparente

Los avances recientes en el enseñanza por refuerzo con recompensas verificables (RLVR) han mejorado significativamente las capacidades de razonamiento de los modelos de lengua grandes (LLM). RLVR entrena a los LLM para ocasionar condena de pensamiento (CoT) (que imitan los procesos de razonamiento que usan los humanos) antiguamente de ocasionar la respuesta final. Esto mejoría la capacidad del maniquí para resolver tareas de razonamiento complejas, como matemáticas y codificación.

Motivados por este éxito, los investigadores han empollón métodos similares basados ​​en RL para grandes modelos multimodales (LMM), lo que demuestra que los beneficios pueden tumbarse más allá del texto para mejorar la comprensión visual y la resolución de problemas en diferentes modalidades.

Sin bloqueo, la desidia de transparencia en el proceso de formación ha sido un obstáculo importante. Muchos estudios sobre razonamiento multimodal no proporcionan información detallada sobre sus procesos de formación y curación de datos, lo que dificulta reproducir sus resultados o comprender qué hace que estos modelos funcionen.

“Esta desidia de tolerancia restringe la reproducibilidad y oscurece una comprensión más profunda de cómo se construyen en realidad los LMM con capacidad de razonamiento y cómo evoluciona su dinámica de entrenamiento”, señalan los investigadores.

La fórmula de OpenMMReasoner

OpenMMReasoner aborda esta brecha con una fórmula de capacitación totalmente transparente y escalable basada en LMM de código amplio. Los investigadores descubrieron que era fundamental inclinarse conjuntos de datos de inscripción calidad ampliando la diversificación de datos. Si admisiblemente utilizar diversas fuentes de datos es importante, aumentar la diversificación de respuestas correctas para una misma pregunta fue un eje de mejoría esencial.

La primera etapa de la fórmula es un proceso de ajuste fino supervisado (SFT) de tres pasos. Comienza con el acopio de datos, donde el equipo recopiló aproximadamente 103.000 pares de preguntas y respuestas sin procesar de conjuntos de datos públicos que cubren preguntas y respuestas visuales generales y tareas de razonamiento. A continuación, agregaron un referencia. paso de destilaciónutilizando un maniquí potente (Qwen3-VL-235B-Instrucción) para ocasionar nuevos rastros de razonamiento de inscripción calidad para preguntas seleccionadas. (Los datos luego se utilizarán para entrenar un maniquí más pequeño).

Para aumentar la diversificación de respuestas, el equipo generó múltiples rastros de razonamiento verificados para cada pregunta. Esto amplió el conjunto de datos a 583.000 muestras. Finalmente, implementaron una etapa de “mezcla de dominios”, agregando datos de dominios de razonamiento matemático para internacionalizar aún más las capacidades del maniquí, lo que dio como resultado un conjunto de datos SFT final de 874.000 ejemplos.

La segunda etapa es una fórmula de RL que utiliza un conjunto de datos más pequeño de 74.000 muestras seleccionadas de dominios como ciencias, matemáticas y acertijos. El maniquí se entrena con una función de remuneración compuesta que considera tanto la exactitud de la respuesta final como la coherencia del formato de salida. Para mejorar la eficiencia, el proceso incluye una penalización por "cavilaciones," desalentar al maniquí de ocasionar respuestas excesivamente largas (un problema con muchos modelos de razonamiento entrenados a través de RL, que aprenden por error a ocasionar secuencias de razonamiento demasiado largas, lo que genera costos excesivos y respuestas más lentas).

Esta fórmula puede proporcionar un maniquí para que las empresas entrenen sus propios modelos. "Para las empresas con datos limitados de dominios específicos, una táctica factible es aumentar primero la diversificación de respuestas para su conjunto de datos existente y luego utilizar la combinación de dominios para integrar estos datos de dominio en una fórmula de razonamiento genérico como la nuestra." Explicó Zhang. "Esto permite que el maniquí adquiera sólidas habilidades de razonamiento de propósito genérico y al mismo tiempo se adapte a tareas específicas de la industria, sin menester de millones de muestras."

Un maniquí de razonamiento más válido y capaz

Según Zhang, el proceso paso a paso cambia fundamentalmente la confiabilidad de los resultados del maniquí. "Los modelos tradicionales a menudo “saltan” directamente a una respuesta, lo que significa que exploran sólo una porción estrecha del espacio de razonamiento." dijo. "Por el contrario, un enfoque de razonamiento primero obliga al maniquí a examinar explícitamente múltiples pasos intermedios… (lo que le permite) recorrer caminos mucho más profundos y conservarse a respuestas con mucha más coherencia interna."

Los investigadores utilizaron la fórmula OpenMMReasoner para ocasionar datos para ajustar el maniquí de lengua de visión de código amplio Qwen2.5-VL-7B-Instruct. El resultado es un LMM en gran medida capaz que supera consistentemente a los métodos más modernos, como Razonador de visión abierta (OVR), en una amplia escala de puntos de relato de razonamiento multimodal. La etapa SFT por sí sola crea un maniquí de relato sólido que logra un rendimiento y una eficiencia de datos superiores en comparación con otros enfoques SFT, a pesar de utilizar un conjunto de datos de entrenamiento significativamente más pequeño.

La etapa RL posterior agudiza y estabiliza aún más estas habilidades, lo que lleva a un rendimiento más consistente y mejorado. Luego de RL, el maniquí final logra resultados de última concepción en varios puntos de relato, incluidos WeMath, MathVerse y MathVista.

Uno de los hallazgos esencia fue que, a medida que el maniquí mejoró en el razonamiento multimodal, igualmente mostró una "surgimiento graduado de comportamientos de razonamiento textual, lo que sugiere una transferencia de competencia de razonamiento de dominios multimodales a dominios puramente lingüísticos," señalan los investigadores. Esto indica que las habilidades aprendidas en una modalidad pueden robustecer el desempeño en otra.

"Nuestros resultados muestran que robustecer el razonamiento multimodal puede incluso mejorar las habilidades matemáticas basadas solo en texto: evidencia de que las habilidades lógicas básicas pueden transferirse entre modalidades." Dijo Zhang. "De cara al futuro, esperamos que estos métodos se extiendan al vídeo y al audio."

Los investigadores igualmente descubrieron que la eficiencia de los tokens es crucial. Si admisiblemente permitir que un maniquí genere pasos de razonamiento más largos puede mejorar el rendimiento, el exceso de tokens reduce la eficiencia. Sus resultados muestran que establecer una beocio "presupuesto de razonamiento" puede ganar una precisión comparable o incluso mejor, una consideración importante para implementar aplicaciones empresariales rentables.

Por fuente abierta de todos los componentes de su flujo de trabajo, los investigadores proporcionan una sagacidad reproducible de todo el proceso. Para los equipos empresariales, esta transparencia es invaluable. "Para los líderes empresariales preocupados por la dependencia de un proveedor, los sesgos ocultos o las fuentes de datos opacas, este nivel de transparencia es esencial." afirmó Zhang. "Permite a los equipos validar los datos, personalizar la canalización para nuevos dominios y apoyar la independencia a grande plazo de un único proveedor."

Related Posts

MacBook Neo contra MacBook Air: cómo decido entre las computadoras portátiles básicas de Apple

Kerry Wan/ZDNET Siga ZDNET: Agréganos como fuente preferida en Google. ¿Rebusca una MacBook pequeña, liviana y económica que pueda usar en casa, en el trabajo o mientras viaja? En el…

La FIFA une fuerzas con YouTube para el Mundial 2026

fifa está trabajando con aplicaciones sociales y plataformas de transmisión para ampliar el trascendencia de la Copa del Mundo 2026. El martes, la ordenamiento mundial del fútbol anunció que había…

You Missed

ECUADOR: Noboa dice ataques a colombianos son su circunscripción | AlMomento.net

ECUADOR: Noboa dice ataques a colombianos son su circunscripción | AlMomento.net

Irán confirma homicidio de Alí Lariyani

Irán confirma homicidio de Alí Lariyani

Vaguada al boreal de Puerto Rico traerá lluvias a varias provincias de RD este miércoles

Vaguada al boreal de Puerto Rico traerá lluvias a varias provincias de RD este miércoles

MacBook Neo contra MacBook Air: cómo decido entre las computadoras portátiles básicas de Apple

MacBook Neo contra MacBook Air: cómo decido entre las computadoras portátiles básicas de Apple

Todo vivo para la Tercera Feria Inmobiliaria Banreservas en Estados Unidos

Todo vivo para la Tercera Feria Inmobiliaria Banreservas en Estados Unidos

INEFI continúa fortaleciendo el deporte escolar en la región Este con la inauguración de oficina regional en San Pedro de Macorís, la sexta a nivel doméstico

INEFI continúa fortaleciendo el deporte escolar en la región Este con la inauguración de oficina regional en San Pedro de Macorís, la sexta a nivel doméstico