
Pero 1.000 tokens por segundo es positivamente modesto según los estándares de Cerebras. la empresa tiene mesurado 2100 tokens por segundo en Pira 3.1 70B y reportado 3.000 tokens por segundo en el maniquí gpt-oss-120B de peso rajado de OpenAI, lo que sugiere que la velocidad comparativamente más herido de Codex-Spark refleja la sobrecarga de un maniquí más ínclito o más enrevesado.
Los agentes de codificación de IA han tenido un año espectacular, con herramientas como Codex de OpenAI y Claude Code de Anthropic alcanzando un nuevo nivel de utilidad para construir rápidamente prototipos, interfaces y código repetitivo. OpenAI, Google y Anthropic han estado compitiendo para ofrecer agentes de codificación más capaces, y la latencia se ha convertido en lo que separa a los ganadores; un maniquí que codifica más rápido permite al desarrollador iterar más rápido.
Con la feroz competencia de Anthropic, OpenAI ha estado iterando en su renglón Codex a un ritmo rápido, lanzando GPT-5.2 en diciembre a posteriori de que el CEO Sam Altman emitiera un memorando interno de “código rojo” sobre la presión competitiva de Google, y luego envió GPT-5.3-Codex hace al punto que unos días.
Diversificarse acullá de Nvidia
La historia más profunda del hardware de Spark puede tener más consecuencias que sus puntuaciones de relato. El maniquí se ejecuta en Wafer Scale Engine 3 de Cerebras, un chip del tamaño de un plato con el que Cerebras ha construido su negocio desde al menos 2022. OpenAI y Cerebras anunciado su asociación en enero, y Codex-Spark es el primer producto que surge de ella.
OpenAI pasó el año pasado reduciendo sistemáticamente su dependencia de Nvidia. La compañía firmó un acuerdo masivo de varios primaveras con AMD en octubre de 2025, llegó a un acuerdo de computación en la estrato por valía de 38 mil millones de dólares con Amazon en noviembre y ha estado diseñando su propio chip de IA personalizado para su eventual fabricación por parte de TSMC.
Mientras tanto, un acuerdo de infraestructura planeado por 100 mil millones de dólares con Nvidia ha fracasado hasta ahora, aunque desde entonces Nvidia se ha comprometido a una inversión de 20 mil millones de dólares. Reuters informó que OpenAI estaba insatisfecho con la velocidad de algunos chips Nvidia para tareas de inferencia, que es exactamente el tipo de carga de trabajo para la que OpenAI diseñó Codex-Spark.
Independientemente del chip que haya bajo el capó, la velocidad importa, aunque puede tener un costo de precisión. Para los desarrolladores que pasan sus días interiormente de un editor de código esperando sugerencias de IA, 1000 tokens por segundo pueden parecer menos como pilotear cuidadosamente una sierra de calar y más como manejar una sierra circular. Sólo ten cuidado con lo que estás cortando.






