
Startup china de inteligencia químico búsqueda profunda lanzó dos nuevos y poderosos modelos de IA el domingo que, según la compañía, igualan o superan las capacidades de OpenAI GPT-5 y de google Géminis-3.0-Pro – un acontecimiento que podría remodelar el panorama competitivo entre los gigantes tecnológicos estadounidenses y sus rivales chinos.
La empresa con sede en Hangzhou lanzó DeepSeek-V3.2diseñado como un asistente de razonamiento frecuente, contiguo con DeepSeek-V3.2-Speciale, una modificación de adhesión potencia que logró medalla de oro en cuatro competiciones internacionales de élite: la Olimpíada Internacional de Matemáticas de 2025, la Olimpíada Internacional de Informática, las Finales Mundiales del ICPC y la Olimpíada de Matemáticas de China.
El comunicado tiene profundas implicaciones para el liderazgo tecnológico estadounidense. DeepSeek ha demostrado una vez más que puede producir sistemas de inteligencia químico de vanguardia a pesar de los controles de exportación de Estados Unidos que restringir el comunicación de China a los chips avanzados de Nvidia – y lo ha hecho haciendo que sus modelos estén disponibles gratis bajo una abuso MIT de código hendido.
"La masa pensaba que DeepSeek había hexaedro un gran paso a espaldas, pero volvimos mucho más grandes." escribió Chen Fangquien se identificó como colaborador del tesina, en X (anteriormente Twitter). El dispersión generó rápidas reacciones en recta, y un beneficiario declaró: "Descanse en paz, ChatGPT."
Cómo el avance de la escasa atención de DeepSeek reduce drásticamente los costos informáticos
En el corazón de la nueva traducción se encuentra Atención escasa de DeepSeeko DSA, una novedosa innovación arquitectónica que reduce drásticamente la carga computacional de ejecutar modelos de IA en documentos extensos y tareas complejas.
Los mecanismos tradicionales de atención de la IA, la tecnología central que permite que los modelos de estilo comprendan el contexto, escalan mal a medida que aumenta la distancia de la entrada. Procesar un documento el doble de tiempo normalmente requiere cuatro veces más cálculo. El enfoque de DeepSeek rompe esta restricción utilizando lo que la compañía claridad un "indexador de rayos" que identifica solo las partes más relevantes del contexto para cada consulta, ignorando el resto.
De acuerdo a Noticia técnico de DeepSeekDSA reduce los costos de inferencia aproximadamente a la fracción en comparación con los modelos anteriores cuando se procesan secuencias largas. la bloque "reduce sustancialmente la complejidad computacional al tiempo que preserva el rendimiento del maniquí," afirma el referencia.
Procesar 128.000 tokens (aproximadamente el equivalente a un tomo de 300 páginas) ahora cuesta aproximadamente 0,70 dólares por millón de tokens para decodificar, en comparación con los 2,40 dólares del maniquí aludido. V3.1-modelo terminal. Eso representa una reducción del 70% en los costos de inferencia.
Los modelos de 685 mil millones de parámetros admiten ventanas de contexto de 128 000 tokens, lo que los hace adecuados para analizar documentos extensos, bases de código y artículos de investigación. DeepSeek referencia técnico señala que las evaluaciones independientes sobre puntos de relato de contexto a dispendioso plazo muestran que V3.2 funciona a la par o mejor que su predecesor "a pesar de incorporar un mecanismo de atención escasa."
Los resultados de relato que colocan a DeepSeek en la misma cinta que GPT-5
Las afirmaciones de DeepSeek de paridad con los principales sistemas de inteligencia químico de Estados Unidos se basan en pruebas exhaustivas en tareas de matemáticas, codificación y razonamiento, y las cifras son sorprendentes.
En OBJETIVO 2025una prestigiosa competición estadounidense de matemáticas, DeepSeek-V3.2-Peculiar logró una tasa de aprobación del 96,0%, en comparación con el 94,6% de GPT-5-High y el 95,0% de Gemini-3.0-Pro. en el Torneo de Matemáticas Harvard-MITla modificación Speciale obtuvo una puntuación del 99,2%, superando el 97,5% de Gemini.
el estandar maniquí V3.2optimizado para el uso diario, obtuvo una puntuación del 93,1 % en AIME y del 92,5 % en HMMT, tenuemente por debajo de los modelos de frontera, pero acabado con sustancialmente menos capital computacionales.
Lo más sorprendente son los resultados de la competición. DeepSeek-V3.2-Peculiar anotó 35 de 42 puntos en el Olimpíada Internacional de Matemáticas 2025obteniendo la medalla de oro. Al Olimpíada Internacional de Informáticaobtuvo 492 de 600 puntos, además oro, ubicándose en el décimo sitio en la normal. El maniquí resolvió 10 de 12 problemas en el Finales mundiales del ICPCquedando en segundo sitio.
Estos resultados se obtuvieron sin comunicación a Internet ni herramientas durante las pruebas. El referencia de DeepSeek afirma que "Las pruebas se ajustan estrictamente a los límites de tiempo e intentos del concurso."
En cuanto a los puntos de relato de codificación, DeepSeek-V3.2 resolvió el 73,1% de los errores de software del mundo vivo en SWE-Verificadocompetitivo con GPT-5-High con un 74,9%. En Porción de terminales 2.0Al calibrar flujos de trabajo de codificación complejos, DeepSeek obtuvo una puntuación del 46,4 %, muy por encima del 35,2 % de GPT-5-High.
La empresa reconoce limitaciones. "La eficiencia de los tokens sigue siendo un desafío," afirma el referencia técnico, señalando que DeepSeek "normalmente requiere trayectorias generacionales más largas" para igualar la calidad de salida de Gemini-3.0-Pro.
Por qué enseñar a la IA a pensar mientras usa herramientas lo cambia todo
Más allá del razonamiento crudo, DeepSeek-V3.2 presenta "Pensando en el uso de herramientas." – la capacidad de razonar problemas mientras se ejecuta código, se indagación en la web y se manipulan archivos simultáneamente.
Los modelos de IA anteriores se enfrentaban a una valla frustrante: cada vez que llamaban a una aparejo externa, perdían el hilo de sus pensamientos y tenían que reiniciar el razonamiento desde cero. La bloque de DeepSeek preserva el rastrillo del razonamiento en múltiples llamadas a herramientas, lo que permite una resolución fluida de problemas en varios pasos.
Para entrenar esta capacidad, la empresa construyó un enorme canal de datos sintéticos que generó más de 1.800 entornos de tareas distintos y 85.000 instrucciones complejas. Estos incluían desafíos como la planificación de viajes de varios días con limitaciones presupuestarias, corrección de errores de software en ocho lenguajes de programación e investigaciones basadas en la web que requerían docenas de búsquedas.
El referencia técnico describe un ejemplo: planificar un delirio de tres días desde Hangzhou con restricciones en los precios de los hoteles, las calificaciones de los restaurantes y los costos de las atracciones que varían según las opciones de alojamiento. Tales tareas son "difícil de resolver pero posible de probar," haciéndolos ideales para entrenar agentes de IA.
búsqueda profunda Empleó herramientas del mundo vivo durante la capacitación (API de búsqueda web reales, entornos de codificación y cuadernos Jupyter) mientras generaba indicaciones sintéticas para respaldar la disparidad. El resultado es un maniquí que se generaliza a herramientas y entornos invisibles, una capacidad crítica para la implementación en el mundo vivo.
La táctica de código hendido de DeepSeek podría cambiar radicalmente el maniquí de negocio de la industria de la IA
A diferencia de OpenAI y Anthropic, que protegen sus modelos más potentes como activos propietarios, DeepSeek ha arrojado entreambos. V3.2 y V3.2-Peculiar bajo la abuso MIT, uno de los marcos de código hendido más permisivos disponibles.
Cualquier desarrollador, investigador o empresa puede descargar, modificar e implementar los modelos de 685 mil millones de parámetros sin restricciones. Los pesos completos del maniquí, el código de entrenamiento y la documentación están habitable en Hugging Facela plataforma líder para compartir modelos de IA.
Las implicaciones estratégicas son significativas. Al hacer que los modelos con capacidad de frontera estén disponibles gratis, DeepSeek socava a los competidores que cobran precios API superiores. La plástico maniquí Hugging Face señala que DeepSeek ha proporcionado scripts de Python y casos de prueba. "demostrando cómo codificar mensajes en formato compatible con OpenAI" — simplificar la migración desde servicios competidores.
Para los clientes empresariales, la propuesta de valía es convincente: rendimiento de vanguardia a un costo dramáticamente último, con flexibilidad de implementación. Pero las preocupaciones sobre la residencia de los datos y la incertidumbre regulatoria pueden lindar la apadrinamiento en aplicaciones sensibles, especialmente teniendo en cuenta los orígenes chinos de DeepSeek.
Se levantan muros regulatorios contra DeepSeek en Europa y América
La expansión general de DeepSeek enfrenta una resistor creciente. En junio, la comisaria de protección de datos de Berlín, Meike Kamp, declaró que la transferencia de datos de usuarios alemanes a China por parte de DeepSeek es "ilegal" bajo las reglas de la UE, pidiendo a Apple y Google que consideren sitiar la aplicación.
Las autoridades alemanas expresaron su preocupación de que "Las autoridades chinas tienen amplios derechos de comunicación a los datos personales adentro de la esfera de influencia de las empresas chinas." Italia ordenó a DeepSeek que sitiar su aplicación en febrero. Los legisladores estadounidenses han tomado medidas para prohibir el servicio de dispositivos gubernamentales, citando preocupaciones de seguridad doméstico.
Además persisten las dudas sobre los controles de exportación estadounidenses diseñados para lindar las capacidades de IA de China. En agosto, DeepSeek insinuó que China pronto tendría "próxima engendramiento" chips fabricados en el país para respaldar sus modelos. La compañía indicó que sus sistemas funcionan con chips fabricados en China de Huawei y Cambricón sin configuración adicional.
Según se informa, el maniquí V3 flamante de DeepSeek fue entrenado en aproximadamente 2.000 archivos más antiguos. Chips Nvidia H800 — hardware desde entonces restringido para la exportación a China. La compañía no ha revelado qué impulsó el entrenamiento V3.2, pero su avance continuo sugiere que los controles de exportación por sí solos no pueden detener el progreso de la IA china.
Lo que significa el dispersión de DeepSeek para el futuro de la competencia de IA
El dispersión llega en un momento crucial. A posteriori de abriles de inversiones masivas, algunos analistas se preguntan si se está formando una burbuja de IA. La capacidad de DeepSeek para igualar los modelos de la frontera estadounidense a una fracción del costo desafía las suposiciones de que el liderazgo en IA requiere un enorme desembolso de hacienda.
la empresa referencia técnico revela que la inversión posterior a la capacitación ahora excede el 10% de los costos previos a la capacitación, una asignación sustancial que se atribuye a las mejoras en el razonamiento. Pero DeepSeek reconoce lagunas: "La amplitud del conocimiento mundial en DeepSeek-V3.2 aún está por detrás de los principales modelos propietarios." afirma el referencia. La compañía planea enfrentarse esto escalando la computación previa al entrenamiento.
DeepSeek-V3.2-Peculiar permanece habitable a través de una API temporal hasta el 15 de diciembre, cuando sus capacidades se fusionarán con la traducción standard. La modificación Speciale está diseñada exclusivamente para un razonamiento profundo y no admite la emplazamiento a herramientas, una valla que aborda el maniquí standard.
Por ahora, la carrera de IA entre Estados Unidos y China ha entrado en una nueva escalón. El dispersión de DeepSeek demuestra que los modelos de código hendido pueden alcanzar un rendimiento de vanguardia, que las innovaciones en eficiencia pueden aminorar drásticamente los costos y que los sistemas de inteligencia químico más potentes pronto estarán disponibles gratis para cualquier persona con una conexión a Internet.
Como observó un comentarista de X: "Deepseek simplemente romper casualmente esos puntos de relato históricos establecidos por Gemini es una demencia."
La pregunta ya no es si la IA china puede competir con Silicon Valley. Se negociación de si las empresas estadounidenses podrán sostener su liderazgo cuando su rival chino regale tecnología comparable.






