El impulso de Moonshot de China garrocha el maniquí de IA tirado Kimi K2 que supera a GPT-4 en puntos de remisión esencia

La startup de IA china Moonshot Ai ha resuelto Kimi K2, un maniquí de idioma de código extenso de billones de parámetros que supera a GPT-4 en puntos de remisión esencia con un rendimiento particularmente resistente en la codificación y las tareas de agentes autónomos. VentureBeat Informes: El nuevo maniquí, llamado Kimi K2, presenta 1 billón de parámetros totales con 32 mil millones de parámetros activados en una inmueble de mezcla de expertos. La compañía está lanzando dos versiones: un maniquí de almohadilla para investigadores y desarrolladores, y una transformación de instrucción optimizada para aplicaciones de chat y agentes autónomos. “Kimi K2 no solo contesta; actúa”, declaró la compañía en su blog de anuncio. “Con Kimi K2, la inteligencia agente destacamento es más abierta y accesible que nunca. No podemos esperar a ver lo que construye”.

La característica destacada del maniquí es su optimización para las capacidades “agentes”: la capacidad de usar de forma autónoma herramientas, escribir y ejecutar código, y completar tareas complejas de múltiples pasos sin intervención humana. En las pruebas de remisión, Kimi K2 alcanzó una precisión del 65.8% en SWE-Bench verificada, un desafiante punto de remisión de ingeniería de software, superando la mayoría de las alternativas de código extenso y coincidiendo con algunos modelos patentados. (…) En LivecodeBench, posiblemente el punto de remisión de codificación más realista habitable, Kimi K2 alcanzó una precisión del 53.7%, superando decisivamente el 46.9% de Deepseek-V3 y el 44.7% de GPT-4.1. Aún más sorprendente: obtuvo un 97.4% en Math-500 en comparación con el 92.4% de GPT-4.1, lo que sugiere que Moonshot ha descifrado poco fundamental sobre el razonamiento matemático que ha eludido competidores más grandes y mejor financiados.

Pero esto es lo que los puntos de remisión no capturan: Moonshot está logrando estos resultados con un maniquí que cuesta una fracción de lo que los titulares gastan en capacitación e inferencia. Mientras que OpenAi combustión a través de cientos de millones en el cálculo de mejoras incrementales, Moonshot parece tener contrario un camino más efectivo al mismo destino. Es un dilema de renovador clásico que se desarrolla en tiempo positivo: el extraño Scrappy no solo coincide con el rendimiento del titular, lo están haciendo mejor, más rápido y más rebajado.

Related Posts

El navegador web Opera GX llega a Linux

BrianFagioli escribe: Opera GX tiene aterrizó oficialmente en Linuxllevando su experiencia de navegador centrada en los jugadores a los sistemas basados ​​en Debian, Ubuntu, Fedora y openSUSE. El navegador incluye…

El navegador AI Comet de Perplexity se bichero en iPhone con asistente incorporado

La perplejidad se ha extendido Cometasu nuevo navegador impulsado por IA, en la App Store para usuarios de iPhone. La aplicación, cuyo propagación diferente estaba previsto para el 11 de…

You Missed

Bogotá, la ciudad más auténtica del mundo para los viajeros

Bogotá, la ciudad más auténtica del mundo para los viajeros

Corregidor NYC garrocha herramientas para construir en patios y sótanos de inmuebles

Corregidor NYC garrocha herramientas para construir en patios y sótanos de inmuebles

IPES fortalece alianza con el IESPEC para impulsar capacitación continua de  agentes policiales

IPES fortalece alianza con el IESPEC para impulsar capacitación continua de  agentes policiales

Shakira cerrará la viaje mundial en Madrid con estadio propio y tres conciertos en septiembre

Shakira cerrará la viaje mundial en Madrid con estadio propio y tres conciertos en septiembre

BTS rejón un nuevo cuaderno ayer de su esperado regreso a los escenarios

BTS rejón un nuevo cuaderno ayer de su esperado regreso a los escenarios

El navegador web Opera GX llega a Linux

El navegador web Opera GX llega a Linux