
Durante WWDC25, Apple anunció nuevas versiones de sus modelos fundamentales en el dispositivo y en la montón. Ahora, han publicado un documentación tecnológico que detalla cómo esos modelos fueron capacitados, optimizados y evaluados. Y el documentación incluye algunas tarifas subestimales genuinamente interesantes.
En un documento integral llamado “Modelos de jerigonza de Apple Intelligence Foundation – Tech Report 2025“, La compañía pasa a través de múltiples aspectos de los nuevos modelos, incluidas su edificio, fuentes de datos, pretrabenamiento, post-entrenamiento, progreso de uso de herramientas, optimizaciones y puntos de relato.

Es una lección muy técnica, pero muy valiosa si te gusta meterte en las nueces y tornillos de este tipo de cosas. Aquí hay algunos aspectos destacados particularmente interesantes.
El maniquí locorregional se dividió en dos bloques
Ya sabíamos que el maniquí en dispositivo de Apple (el que los desarrolladores podrán emplear) tiene más o menos de 3 mil millones de parámetros. Ahora, la compañía ha detallado que este maniquí en sinceridad se divide en dos bloques:
“El bando 1 contiene el 62.5% de las capas del transformador total, mientras que el bando 2 contiene el 37.5% restante de las capas del transformador, pero se eliminaron las proyecciones de esencia y valía”.
En la ejercicio, esto significa que el maniquí locorregional requiere un 37.5% menos de memoria para el almacenamiento en distinción, y el tiempo que lleva ocasionar el primer token (básicamente, un fragmento de una palabra) igualmente se redujo en aproximadamente un 37.5%. Aún así, Apple estructuró la división de una modo que dice conserva el rendimiento genérico del maniquí y la calidad de la salida.

Como nota al beneficio, hace unos primaveras, publicó Apple este estudioque analizó las partes de un LLM entre la RAM y el almacenamiento flash según sea necesario, para empaquetar un maniquí locorregional que era más extenso de lo que de otro modo encajaría en la memoria del dispositivo.
Si admisiblemente Apple finalmente tomó una ruta diferente, es interesante observar las diferentes formas en que la compañía ha estado experimentando para ofrecer un buen rendimiento locorregional, incluso en dispositivos limitados por la memoria.
El maniquí basado en la montón tiene una edificio creativa
Para su maniquí de servidor, Apple construyó una edificio personalizada que estaba hecha a medida para su plataforma de cuenta en la montón privada. Se claridad Mezcla de Expertos (PT-MOE) de Track Parallel, y la forma en que funciona es harto ordenada.
En pocas palabras (y a aventura de simplificar demasiado las cosas), la mezcla de expertos es cuando, en oficio de aguardar en un gran maniquí de IA, se divide en subredes (o expertos) más pequeños que solo se activan cuando la tarea está relacionada con poco que están … bueno, un hábil.
Entonces, si su aviso se proxenetismo de cocinar, solo se activan los expertos relacionados con la cocina, mientras que otros permanecen inactivos. El resultado sigue siendo un maniquí genérico masivo, pero su diseño modular le permite replicar más rápido (y a menudo más preciso) que si todo estuviera corriendo a través del maniquí enorme y unificado, para cada aviso.
Aquí hay una mezcla de IBM de Explicador de expertos, en caso de que tenga 8 minutos de sobra:
Apple construyó un nuevo tipo de transformador llamado transformador de pista paralelo, luego lo amplió con la mezcla de capas de expertos (MOE). Eso suena demasiado complicado, pero la esencia es:
Los transformadores tradicionales procesan tokens a través de una sola pila de capas, una tras otra. Pero en oficio de usar este enfoque de una sola pista para calcular cada token, el diseño de Apple divide el maniquí en múltiples pistas paralelas. Cada pista procesa tokens de forma independiente, y solo se sincroniza en ciertos puntos.
Luego, internamente de cada una de esas pistas, Apple reemplazó cualquier otra capa de transformador regular con una capa MOE, que activa solo unos pocos expertos para cada token, mientras que el resto permanece inactivo. Y conveniente a que cada pista tiene sus propios expertos locales, el maniquí evita los cuellos de botella de procesamiento que ocurren cuando todo tiene que coordinar en todo el sistema.

Agregue a eso una configuración inteligente que equilibra el contexto locorregional con la comprensión de la gran imagen (llamadas capas de atención globales y locales), y el resultado es un maniquí muy modular, competente y escalable que es más rápido y delgado, pero aún harto inteligente.
Apple aumentó la representación multilingüe en un 275%
Uno de los mayores golpes contra el emanación original de la inteligencia de Apple fue (y sigue siendo) un soporte de idioma escaso más allá del inglés. Con sus nuevos modelos, Apple ha ampliado el soporte del idioma, y el documento detalla los pasos que tomó para hacerlo.
Según el documento, Apple aumentó la cantidad de datos multilingües utilizados durante la capacitación del 8% al 30%. Esto incluye contenido orgánico y sintético.
Apple igualmente aumentó su tokenizer (que es básicamente el vocabulario de token del maniquí) en un 50%. Esto significa que su maniquí ahora conoce 150k tokens diferentes, en comparación con los 100k anteriores.
La compañía dice que estos cambios condujeron a “ganancias significativas” en el rendimiento en los puntos de relato que no son del inglés, especialmente luego de refuerzo de enseñanza del ajuste fino.
En el desocumento, Apple explica que las evaluaciones se realizaron utilizando indicaciones escritas por hablantes nativos (en oficio de traducciones), y el maniquí se probó tanto en precisión como en cuán naturales sonaron sus respuestas en contextos locales. Si esto suena sabido, probablemente lea nuestra fresco cobertura de este estudio de investigación de Apple.
En la ejercicio, todo esto significa que características como las herramientas de escritura deberían funcionar de modo más confiable en los idiomas compatibles.

¿De dónde obtuvo Apple sus datos?
Al igual que con sus primeros modelos, la mayoría de los datos de capacitación provienen del rastreo de la web. Pero Apple dice que respeta su Crawler de Applebot robots.txt Exclusiones, lo que significa que si un sitio web no quiere que Apple raspe su contenido, puede decirlo, y Applebot lo dejará solo.
Dicho esto, así es como Apple dice que obtuvo los datos de sus nuevos modelos:
- Datos web disponibles públicamente: Aunque Apple no especifica cantidades o proporciones, sí dice que la decano parte de sus datos de entrenamiento provino de las páginas web Applebot rastreando. Apple aplicó múltiples capas de filtrado para eliminar contenido de herido calidad, inseguro o irrelevante, incluidas páginas spam, texto poco profundo o plantado, y formateo roto.
- Datos con deshonestidad: Apple no entra en muchos detalles aquí, pero confirma que algunos de los datos de capacitación fueron licenciados por los editores. Informes anteriores habían sugerido que Apple había estado negociando con Condé Nast (The New Yorker, Vogue, Wired, etc.), NBC News e IAC (People Magazine, The Daily Beast, y mejores hogares y jardines, etc.), por lo que es probable que al menos poco de ese material llegó.
- Datos sintéticos: Apple generó datos sintéticos utilizando modelos más pequeños y tuberías personalizadas, particularmente para matemáticas, código, ajuste de instrucciones y tareas en idioma de visión. Si admisiblemente la compañía siquiera especifica cuánto del conjunto de datos representaba esto, señala que los datos sintéticos jugaron un papel importante en los pasos esencia de entrenamiento como el ajuste, el enseñanza de refuerzo y la restablecimiento del soporte multilingüe. Y si se pregunta qué datos sintéticos solo significan “cosas inventadas”, tenemos un explicador sobre por qué ese no es el caso.
- Datos visuales: Para guarecer la comprensión de la imagen, Apple recopiló más de 10 mil millones de pares de imagen -capacidad, incluidas capturas de pantalla con OCR y notas escritas a mano. Incluso utilizó sus propios modelos para ocasionar subtítulos adicionales y más ricos. En el pasado, se informó que Apple había mantenido conversaciones con licencias con Shutterstock, por lo que es posible que igualmente llegó parte de ese material.
9to5mac
No ha habido escasez de noticiario sobre el drama interno de Apple, las luchas técnicas e incapacidad genérico para obtener el impulso que necesita para cerrar la brecha (que algunos podrían avisar un precipicio) entre sus ofertas de IA y la competencia. Todos esos son verdaderos.
Sin requisa, el hecho de que Apple se percibe en gran medida como estar subdesarrollado en la IA no significa que la compañía esté quieta. Este documentación ofrece una visión interesante de las mejoras (y deficiencias) de los modelos más nuevos de Apple, próximo con detalles extensos sobre un enfoque consciente de la privacidad que pocas compañías incluso están intentando.







