Bytedance libera el nuevo maniquí de semillas de código abierto-36B de código despejado


¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora


Tiktok está en los titulares de nuevo hoy a posteriori La Casa Blanca se unió a la popular aplicación de redes sociales – pero su empresa matriz Byteun superhombre web chino, todavía tuvo un anuncio sorpresa bajo la manga.

La empresa Equipo de semillas de investigadores de IA hoy lanzó semillas-oss-36b En el sitio web de AI Code Compartir, abrazando la cara.

Seed-OSS-36B es una nueva secante de código despejado, modelos de idioma egregio (LLM) diseñado para un razonamiento reformista y usabilidad centrada en el desarrollador con un contexto token más holgado – es proponer, cuánta información pueden aceptar los modelos como entradas y luego salir en un solo intercambio – que muchos LLM en competencia de empresas tecnológicas estadounidensesincluso líderes como OpenAi y Anthrope.

La colección presenta tres variantes principales:


AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

  • Convertir la energía en una delantera estratégica
  • Edificación de inferencia apto para ganancias reales de rendimiento
  • Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su extensión para mantenerse a la vanguardia: https://bit.ly/4mwgngo


  • Semilla-oss-36b-base con datos sintéticos
  • Semilla-oss-36b-base sin datos sintéticos
  • Semilla-oss-36b-instructo

Al liberar versiones sintéticas y no sintéticas del maniquí de almohadilla de semillas-oss-36b, el equipo de semillas buscó equilibrar el rendimiento práctico con flexibilidad de la investigación.

El cambio de datos sintéticos, capacitado con datos de instrucciones adicionales, consistentemente ofrece puntajes más fuertes en puntos de remisión estereotipado y se pretende como una opción de propósito caudillo de longevo rendimiento.

El maniquí no sintético, Por el contrario, omite estos aumentos, creando una almohadilla más limpia que evita un sesgo o distorsión potencial Introducido por datos de instrucciones sintéticas.

Al proporcionar entreambos, el equipo brinda a los usuarios aplicados paso a mejores resultados al tiempo que garantiza que los investigadores conserven una secante de almohadilla equitativo para estudiar métodos posteriores a la capacitación.

Mientras tanto, el Maniquí de ininversión de semilla-oss-36b difiere en que es Post-entrenado con datos de instrucciones para priorizar la ejecución de la tarea y la instrucción a continuación, en extensión de servir puramente como maniquí de almohadilla.

Los tres modelos se lanzan bajo la inmoralidad Apache-2.0, lo que permite el uso de balde, la modificación y la redistribución por parte de investigadores y desarrolladores que trabajan para empresas.

Eso significa Se pueden utilizar para potenciar aplicaciones comerciales, internas a una empresa o orientado extranjero/cliente, sin fertilizar byteye ninguna tarifa de inmoralidad o para el uso de la interfaz de programación de aplicaciones (API).

Esto continúa el Summer 2025 Tendencia de las empresas chinas remesa modelos de código despejado poderosos Con OpenAi intentando ponerse al día con su propio dueto de código despejado GPT-OSS agresivo a principios de este mes.

Las posiciones del equipo de semillas SEED-OSS para aplicaciones internacionalesenfatizando la versatilidad en el razonamiento, la ejecución de tareas similares a un agente y la configuración multilingüe.

El equipo de semillas, formado en 2023, se ha concentrado en la construcción de modelos de cimientos que pueden servir tanto a los casos de investigación y aplicados.

Diseño y características centrales

La bloque detrás de la semilla-oss-36b combina opciones de diseño familiares, como modelado de idioma causal, atención de consulta agrupada, activación de Swiglu, rmsnorm y codificación posicional de cuerda.

Cada maniquí tiene 36 mil millones de parámetros en 64 capas y admite un vocabulario de 155,000 tokens.

Una de las características definitorias es su capacidad nativa de contexto holgado, con una largo máxima de 512,000 tokens, Diseñado para procesar documentos extendidos y cadenas de razonamiento sin pérdida de rendimiento.

Eso es el doble de la nueva tribu de modelos GPT-5 de Openai y es aproximadamente equivalente a aproximadamente 1,600 páginas de texto, La largo de una Sagrada Escritura cristiana.

Otro sujeto distintivo es la preámbulo de un Presupuesto de pensamientoque permite a los desarrolladores especificar cuánto razonamiento debe realizar el maniquí antaño de entregar una respuesta.

Incluso es poco que hemos pasado de otros modelos recientes de código despejado, incluido el nuevo Nemotron-Nano-9B-V2 de Nvidia, todavía Arreglado en la cara abrazada.

En la habilidad, esto significa que los equipos pueden ajustar el rendimiento dependiendo de la complejidad de la tarea y los requisitos de eficiencia de implementación.

Los presupuestos se recomiendan en múltiplos de 512 tokens, con 0 proporcionando un modo de respuesta directa/

Rendimiento competitivo en puntos de remisión de terceros

Los puntos de remisión publicaron con la posición de dispersión SEDE-OSS-36B entre los modelos de código despejado grandes más fuertes. La cambio de instrucción, en particular, publica los resultados de vanguardia en múltiples áreas.

  • Matemáticas y razonamiento: Semilla-oss-36b-Instructo logra 91.7 por ciento en AIME24 y 65 en Beyondaimeentreambos representan el “estado del arte” (SOTA) de código despejado.
  • Codificación: En LivecodeBench V6, los registros del maniquí de instrucciones 67.4otro puntaje de SOTA.
  • Manejo de contexto holgado: En la regla a la largo de contexto de 128k, llega 94.6marcando el resultado de código despejado más stop reportado.
  • Rendimiento del maniquí almohadilla: La cambio almohadilla de datos sintéticos ofrece 65.1 en mmlu-pro y 81.7 en matemáticasentreambos resultados de última reproducción en sus categorías.

La lectura almohadilla no sintética, aunque levemente atrasada en muchas medidas, demuestra competitiva por derecho propio.

Él Superenta su contraparte sintética en GPQA-D, Proporcionar a los investigadores una secante de almohadilla más limpia y sin instrucciones para la experimentación.

Para empresas que comparan opciones abiertas, estos resultados Sugerir Semilla-Os ofrece un válido potencial a través de cargas de trabajo con longevo contenido de matemáticas, codificación y contexto holgado mientras aún proporciona flexibilidad para los casos de uso de la investigación.

Ataque e implementación

Más allá del rendimiento, el equipo de semillas destaca la accesibilidad para desarrolladores y profesionales. Los modelos se puede desplegar utilizando transformadores de cara abrazadoscon Soporte de cuantificación en formatos de 4 bits y 8 bits Para someter los requisitos de memoria.

Ellos todavía Integrar con VLLM para una porción escalableincluidos ejemplos de configuración e instrucciones del servidor API.

Para someter aún más las barreras, el equipo incluye scripts para inferencia, personalización rápida e integración de herramientas.

Para Líderes técnicos que administran equipos pequeños o trabajan bajo limitaciones presupuestariasestas disposiciones están posicionadas para hacer que la experimentación con modelos de 36 mil millones de parámetros sea más accesible.

Licencias y consideraciones para los tomadores de decisiones empresariales

Con los modelos ofrecidos bajo Apache-2.0, las organizaciones pueden adoptarlos sin términos de inmoralidad restrictiva, un ejecutor importante para los equipos que equilibran las preocupaciones legales y operativas.

Para los tomadores de decisiones que evalúan el panorama de código despejado, el dispersión trae tres conclusiones:

  • Los puntos de remisión de vanguardia a través del razonamiento de matemáticas, codificación y contexto holgado.
  • Un compensación entre los modelos capacitados por sintéticos de longevo rendimiento y las líneas de almohadilla de investigación limpia.
  • Características de accesibilidad que reducen la sobrecarga operativa para los equipos de ingeniería Lean.

Al colocar un rendimiento sólido y una implementación flexible bajo una inmoralidad abierta, el equipo de semillas de Bytedance ha apéndice nuevas opciones para empresas, investigadores y desarrolladores por igual.


Related Posts

Samsung Galaxy A57 y A37 se filtran una vez más, esta vez por un cirujano

Ryan Haines / Autoridad de Android TL;DR Los listados de Samsung Galaxy A57 y Galaxy A37 aparecieron mucho ayer de su extensión oficial. Los dos teléfonos fueron vistos en el…

El Pixel Watch 3 de 45 mm es una ganga por solo $ 220 en Amazon

Si ha estado pensando en pescar el final cronómetro inteligente de Google, tal vez ahora sea el momento de echarle un vistazo a su predecesor, ya que la interpretación Wi-Fi…

You Missed

La función del  Fondo Fiduciario en beneficio de las víctimas

La función del  Fondo Fiduciario en beneficio de las víctimas

Desaciertos de Trump generan gran incertidumbre a los países en ampliación

Desaciertos de Trump generan gran incertidumbre a los países en ampliación

Samsung Galaxy A57 y A37 se filtran una vez más, esta vez por un cirujano

Samsung Galaxy A57 y A37 se filtran una vez más, esta vez por un cirujano

RD conmemora el 209 aniversario del aniversario de Francisco del Rosario Sánchez

RD conmemora el 209 aniversario del aniversario de Francisco del Rosario Sánchez

Dos hombres mueren en balacera ocurrida en Nisibón, La Altagracia

Dos hombres mueren en balacera ocurrida en Nisibón, La Altagracia

Albert Pujols está acertado, pero enfocado en el título

Albert Pujols está acertado, pero enfocado en el título