Así es como probablemente funcionará Siri con tecnología Gemini debajo del capó

A principios de esta semana, Bloomberg informó que Google y Apple están cerca de demorar a un acuerdo anual de mil millones de dólares para una lectura del maniquí Gemini que impulsará el renovado Siri el próximo año.

Pero quizás más interesante que el precio sea un delegado que verdaderamente afectará la experiencia de todos: su cimentación. He aquí un vistazo a cómo probablemente funcionará.

¿Son mucho 1,2 billones de parámetros?

De acuerdo a Bloomberg‘s documentaciónGoogle proporcionará a Apple un maniquí de parámetros de 1,2 billones, que residirá en los servidores Private Cloud Compute de Apple, impidiendo efectivamente que Google acceda a cualquiera de ellos. En cuanto a la privacidad, eso es ingenioso.

En cuanto al tamaño, un maniquí de 1,2 billones de parámetros no es nadie despreciable. Sin incautación, una comparación directa con los últimos y mejores modelos de la competencia es todo un desafío.

Esto se debe a que en los últimos abriles, los laboratorios de inteligencia industrial de frontera cerrada como OpenAI, Anthropic y Google han dejado de revelar los recuentos de parámetros de sus últimos modelos emblemáticos. Esto ha llevado a especulaciones muy diversas sobre el serio número de parámetros de ofertas como GPT-5, Gemini 2.5 Pro y Claude Sonnet 4.5. Algunos los sitúan por debajo del billón de parámetros, mientras que otros sugieren que alcancen unos pocos billones. En verdad, nadie lo sabe verdaderamente.

Por otro costado, una cosa que la mayoría de estos enormes últimos modelos tienen en global es una cimentación subyacente conocida como mezcla de expertos (MoE). De hecho, Apple ya emplea una lectura de MoE en su maniquí coetáneo basado en la estrato, que se rumorea que tiene 150 mil millones de parámetros.

El maniquí Gemini de Siri probablemente utilizará una mezcla de expertos

En pocas palabras, MoE es una técnica que estructura un maniquí con múltiples subredes especializadas llamadas “expertos”. Para cada entrada, solo se activan unos pocos expertos relevantes, lo que da como resultado un maniquí más rápido y más competente desde el punto de aspecto computacional.

En otras palabras, esto permite que los modelos MoE tengan recuentos de parámetros muy altos, manteniendo al mismo tiempo los costos de inferencia mucho más bajos que si el 100% de sus parámetros tuvieran que activarse para cada entrada.

Aquí hay otra cosa acerca de los modelos que adoptan el enfoque MoE: generalmente tienen una cantidad máxima de expertos activos y una cantidad máxima de parámetros activos para cada entrada, lo que resulta en poco como esto:

Un maniquí con 1,2 billones de parámetros totales podría utilizar 32 expertos, con sólo 2 a 4 expertos activos por token. Esto significa que solo entre 75 y 150 mil millones de parámetros verdaderamente están realizando cálculos en un momento legado, lo que le brinda la capacidad de un maniquí masivo y al mismo tiempo mantiene costos computacionales similares a los de ejecutar un maniquí mucho más pequeño.

Aquí hay un excelente video realizado por IBM que explica con más detalle cómo funciona MoE:

Para ser claros, no ha habido informes sobre la cimentación del maniquí que Google podría proporcionarle a Apple, en caso de que cierren el trato sobre su supuesta asociación. Pero con 1,2 billones de parámetros, es muy Es probable que requiera que el enfoque del Tarea de Educación funcione de modo competente, dadas las alternativas disponibles en la contemporaneidad.

Si ese tamaño será suficiente para suministrar a Siri con tecnología Gemini competitiva con los modelos que estarán disponibles cuando se incidente el próximo año, es una historia diferente.