
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Comenzó con el anuncio del maniquí O1 de Operai en septiembre de 2024, pero en realidad despegó con el propagación de Deepseek R1 en enero de 2025.
Ahora, parece que la mayoría de los principales proveedores de modelos de IA y entrenadores están en una nueva carrera para ofrecer modelos de lengua AI de “razonamiento” mejores, más rápidos y más baratos, es asegurar, los que tal vez tardan un poco más en objetar a un afortunado humano, pero lo ideal, lo hacen con sus propias respuestas mejor, más completas y más completas “, que son las respuestas de la clase de los modelos.
Bytedance, el padre de los medios web chinos de Tiktok, es el final en unirse a la fiesta con el anuncio y Publicación del documento técnico Detrás de la semilla-pensamiento-v1.5, un próximo maniquí de idioma sobresaliente (LLM) diseñado para avanzar en el rendimiento del razonamiento en los campos de ciencias, tecnología, matemáticas e ingeniería (STEM) y dominios de uso común.
El maniquí aún no está adecuado para descargar o usar, y no está claro cuáles serán los términos de inmoralidad, ya sea que sea patentado/de código cerrado, código libre/gratis para que todos usen y modifiquen a voluntad, o en algún punto intermedio. Sin requisa, el documento técnico proporciona algunos detalles notables que vale la pena sobrevenir ahora y antaño de cuando estén disponibles.
Construido sobre la obra de mezcla de expertos (MOE) cada vez más popular
Al igual que Meta’s New Pira 4 y MIXTRAL de Mistral antaño, se construye una obra de semilla-pensamiento de pensamiento v1.5 utilizando una obra de mezcla de expertos (MOE).
Esta obra está diseñada para hacer que los modelos sean más eficientes. Básicamente combina las capacidades de múltiples modelos en uno, cada uno especializado en un dominio diferente.
En este caso, la obra MOE significa que el pensamiento de semilla-v1.5 usa solo 20 mil millones de los 200 mil millones de parámetros a la vez.
El byte dice en su Documento técnico publicado en Github Esa semilla de pensamiento v1.5 prioriza el razonamiento estructurado y la reproducción de respuesta reflexiva.
Los resultados casi se hablan por sí mismos, con el mejor rendimiento de la semilla V1.5 superando a Deepseek R1 y acercándose al recientemente decidido Razonor de Gemini 2.5 Pro de Google y el Razonor O3-Mini-High de OpenAI en muchas evaluaciones de relato de terceros. Incluso supera a esos dos en el caso del Punto de relato arc-agique mide el progreso alrededor de la inteligencia común químico, trillado como el objetivo o el “santo eucaristía” de la IA. Este maniquí supera a los humanos en la mayoría de las tareas económicamente valiosas, según la definición de OpenAI.

Posicionado como una alternativa compacta pero capaz a modelos más grandes de última reproducción, Semilla-Thinking-V1.5 logra resultados de relato competitivos. Presenta innovaciones de educación de refuerzo (RL), curación de datos de capacitación e infraestructura de IA.
Puntos de relato de rendimiento y enfoque del maniquí
Seed-Thinking-V1.5 muestra un válido rendimiento en un conjunto de tareas desafiantes, obteniendo un 86.7% en AIME 2024, 55.0% pase@8 en CodeForces y 77.3% en el punto de relato de Ciencias GPQA. Estos resultados lo colocan cerca o de modelos coincidentes como O3-Mini-High de OpenAI y Gemini 2.5 Pro de Google en métricas de razonamiento específicas.
En las tareas que no son de condición, el maniquí se evaluó a través de las comparaciones de preferencias humanas y logró una tasa de victorias de 8.0% más adhesión sobre DeepSeek R1, lo que sugiere que sus fortalezas se generalizan más allá de los desafíos lógicos o con mancuerna matemáticas.
Para topar la saturación en puntos de relato unificado como AIME, Bytedance introducido BeyondAIME, un nuevo punto de relato matemático más difícil con problemas curados diseñados para resistir la memorización y discriminar mejor el rendimiento del maniquí. Se demora que este y el conjunto de evaluación de CodeForces se publiquen públicamente para apoyar la investigación futura.
Organización de datos
Los datos de capacitación jugaron un papel central en el ampliación del maniquí. Para el ajuste supervisado (SFT), el equipo seleccionó 400,000 muestras, incluidas 300,000 verificables (tareas de STEM, razonamiento y codificación) y 100,000 problemas no verificables como la escritura creativa y el diversión de roles.
Para el entrenamiento RL, los datos se segmentaron en:
- Problemas verificables: 100.000 preguntas de tallo y rompecabezas de razonamiento filtrados rigurosamente con respuestas conocidas, obtenidas de competiciones de élite y revisión de expertos.
- Tareas no verificables: conjuntos de datos de preferencia humana centrados en indicaciones abiertas, evaluadas utilizando modelos de remuneración por pares.
Los datos de STEM se inclinaron en gran medida en las matemáticas avanzadas, representando más del 80% del conjunto de problemas. Los datos lógicos adicionales incluyeron tareas como sudoku y rompecabezas de 24 puntos, con dificultad ajustable para igualar el progreso del maniquí.
Enfoque de educación de refuerzo
El educación de refuerzo en la semilla-pensamiento-v1.5 está impulsado por los marcos personalizados de actores críticos (VAPO) y de gradiente de políticas (DAPO), desarrollados para topar las inestabilidades conocidas en la capacitación de RL. Estas técnicas reducen la escasez de señales de remuneración y mejoran la estabilidad del entrenamiento, especialmente en entornos de cautiverio de pensamiento abundante (COT).
Los modelos de remuneración juegan un papel fundamental en la supervisión de los resultados de RL. Bytedance introdujo dos herramientas esencia:
- Verificador de semillas: un LLM basado en reglas que verifica si se genera y las respuestas de relato son matemáticamente equivalentes.
- Verificador de pensamiento de semillas: un enjuiciador basado en el razonamiento paso a paso que restablecimiento la consistencia del motivo y resiste la piratería de recompensas.
Este sistema de recompensas de dos niveles permite una evaluación matizada para tareas sencillas y complejas.
Infraestructura y escalera
Para respaldar una capacitación eficaz a gran escalera, Bytedance construyó un sistema sobre su entorno de flujo híbrido. La ejecución es manejada por grupos de rayos, y los procesos de entrenamiento e inferencia se ubican conjuntamente para acortar el tiempo de inactividad de GPU.
El sistema de transmisión de transmisión (SRS) es una innovación trascendental que separa la crecimiento del maniquí de la ejecución del tiempo de ejecución. Acelera la velocidad de iteración al tener la llave de la despensa asíncronamente las generaciones parcialmente completadas en las versiones del maniquí. Según los informes, esta obra ofrece hasta 3 × ciclos RL más rápidos.
Las técnicas de infraestructura adicionales incluyen:
- Precisión mixta (FP8) para ahorros de memoria
- Paralelismo diestro y ajuste mecánico del núcleo para la eficiencia de MOE
- Bytecheckpoint para puntos de control resistentes y flexibles
- Autotuner para optimizar las configuraciones de paralelismo y memoria
Evaluación humana e impacto del mundo existente
Para evaluar la formación con las preferencias centradas en el ser humano, el bytete realizó pruebas humanas en una variedad de dominios, incluida la escritura creativa, el conocimiento de las humanidades y la conversación común.
Semilla-pensamiento-v1.5 superó constantemente a DeepSeek R1 a través de las sesiones, reforzando su aplicabilidad a las deyección de los usuarios del mundo existente.
El equipo de ampliación señala que los modelos de razonamiento entrenados principalmente en tareas verificables demostraron una válido universalización a los dominios creativos, un resultado atribuido a la estructura y el rigor integrado en flujos de trabajo de capacitación matemática.
Lo que significa para líderes técnicos, ingenieros de datos y tomadores de decisiones empresariales
Para los clientes potenciales técnicos que administran el ciclo de vida de los modelos de idiomas grandes, desde la curación de datos hasta la implementación, seed-pensamiento-V1.5 presenta una oportunidad para repensar cómo las capacidades de razonamiento se integran en las pilas de IA empresariales.
Su proceso de capacitación modular, que incluye conjuntos de datos de razonamiento verificable y educación de refuerzo multifase, particularmente atrae a equipos que buscan prosperar el ampliación de LLM mientras se conservan el control de ántrax fino.
Los movimientos de Bytedance para introducir el verificador de semillas y los mecanismos de propuesta del verificador de pensamiento de semillas para un modelado de recompensas más confiable, lo que puede ser crítico al implementar modelos en entornos orientados al cliente o regulados.
Para los equipos que operan bajo plazos ajustados y un ufano de bandada pequeño, la estabilidad del maniquí bajo educación de refuerzo, preparado por innovaciones como VAPO y muestreo dinámico, podría acortar los ciclos de iteración y racionalizar el ajuste fino para tareas específicas.
Desde una perspectiva de orquestación y despliegue, el enfoque de infraestructura híbrida del maniquí, incluido el sistema de despliegue de transmisión (SRS) y el soporte para la optimización de FP8, suministra ganancias significativas en el rendimiento del entrenamiento y la utilización del hardware.
Estas características serían valiosas para los ingenieros responsables de prosperar las operaciones de LLM en los sistemas de nubes y en los primeros. El hecho de que la semilla-pensamiento-v1.5 fue entrenado con mecanismos para adaptar la feedback de recompensas basadas en la dinámica del tiempo de ejecución deje directamente de los desafíos de encargar las tuberías de datos heterogéneas y permanecer la consistencia entre los dominios.
Para los equipos encargados de certificar la confiabilidad, la reproducibilidad y la integración continua de nuevas herramientas, el diseño a nivel de sistema de pensamiento v1.5 de semillas podría servir como un plan para construir sistemas de orquestación multimodal robustos.
Para los profesionales de la ingeniería de datos, el enfoque estructurado para capacitar datos, incluidos el filtrado riguroso, el aumento y la comprobación de expertos, refuerza la importancia de la calidad de los datos como un multiplicador del rendimiento del maniquí. Esto podría inspirar enfoques más deliberados para el ampliación del conjunto de datos y las tuberías de energía.
Perspectiva futura
SEED-PENTING-V1.5 Resulta de la colaboración internamente del equipo de Sistemas LLM Seed LLM de Bytedance, dirigido por Yonghui Wu y con representación pública de Haibin Lin, un contribuyente de IA desde hace mucho tiempo.
El plan asimismo se cimiento en esfuerzos anteriores, como Doubao 1.5 Pro, e incorpora técnicas compartidas en RLHF y curación de datos.
El equipo planea continuar refinando las técnicas de educación de refuerzo, centrándose en la eficiencia de capacitación y el modelado de recompensas para tareas no verificables. La libramiento pública de puntos de relato internos como BeyondAIME está destinado a fomentar un avance más amplio en la investigación de IA centrada en el razonamiento.