El impulso de Moonshot de China garrocha el maniquí de IA tirado Kimi K2 que supera a GPT-4 en puntos de remisión esencia

La startup de IA china Moonshot Ai ha resuelto Kimi K2, un maniquí de idioma de código extenso de billones de parámetros que supera a GPT-4 en puntos de remisión esencia con un rendimiento particularmente resistente en la codificación y las tareas de agentes autónomos. VentureBeat Informes: El nuevo maniquí, llamado Kimi K2, presenta 1 billón de parámetros totales con 32 mil millones de parámetros activados en una inmueble de mezcla de expertos. La compañía está lanzando dos versiones: un maniquí de almohadilla para investigadores y desarrolladores, y una transformación de instrucción optimizada para aplicaciones de chat y agentes autónomos. “Kimi K2 no solo contesta; actúa”, declaró la compañía en su blog de anuncio. “Con Kimi K2, la inteligencia agente destacamento es más abierta y accesible que nunca. No podemos esperar a ver lo que construye”.

La característica destacada del maniquí es su optimización para las capacidades “agentes”: la capacidad de usar de forma autónoma herramientas, escribir y ejecutar código, y completar tareas complejas de múltiples pasos sin intervención humana. En las pruebas de remisión, Kimi K2 alcanzó una precisión del 65.8% en SWE-Bench verificada, un desafiante punto de remisión de ingeniería de software, superando la mayoría de las alternativas de código extenso y coincidiendo con algunos modelos patentados. (…) En LivecodeBench, posiblemente el punto de remisión de codificación más realista habitable, Kimi K2 alcanzó una precisión del 53.7%, superando decisivamente el 46.9% de Deepseek-V3 y el 44.7% de GPT-4.1. Aún más sorprendente: obtuvo un 97.4% en Math-500 en comparación con el 92.4% de GPT-4.1, lo que sugiere que Moonshot ha descifrado poco fundamental sobre el razonamiento matemático que ha eludido competidores más grandes y mejor financiados.

Pero esto es lo que los puntos de remisión no capturan: Moonshot está logrando estos resultados con un maniquí que cuesta una fracción de lo que los titulares gastan en capacitación e inferencia. Mientras que OpenAi combustión a través de cientos de millones en el cálculo de mejoras incrementales, Moonshot parece tener contrario un camino más efectivo al mismo destino. Es un dilema de renovador clásico que se desarrolla en tiempo positivo: el extraño Scrappy no solo coincide con el rendimiento del titular, lo están haciendo mejor, más rápido y más rebajado.