El impulso de Moonshot de China garrocha el maniquí de IA tirado Kimi K2 que supera a GPT-4 en puntos de remisión esencia

La startup de IA china Moonshot Ai ha resuelto Kimi K2, un maniquí de idioma de código extenso de billones de parámetros que supera a GPT-4 en puntos de remisión esencia con un rendimiento particularmente resistente en la codificación y las tareas de agentes autónomos. VentureBeat Informes: El nuevo maniquí, llamado Kimi K2, presenta 1 billón de parámetros totales con 32 mil millones de parámetros activados en una inmueble de mezcla de expertos. La compañía está lanzando dos versiones: un maniquí de almohadilla para investigadores y desarrolladores, y una transformación de instrucción optimizada para aplicaciones de chat y agentes autónomos. “Kimi K2 no solo contesta; actúa”, declaró la compañía en su blog de anuncio. “Con Kimi K2, la inteligencia agente destacamento es más abierta y accesible que nunca. No podemos esperar a ver lo que construye”.

La característica destacada del maniquí es su optimización para las capacidades “agentes”: la capacidad de usar de forma autónoma herramientas, escribir y ejecutar código, y completar tareas complejas de múltiples pasos sin intervención humana. En las pruebas de remisión, Kimi K2 alcanzó una precisión del 65.8% en SWE-Bench verificada, un desafiante punto de remisión de ingeniería de software, superando la mayoría de las alternativas de código extenso y coincidiendo con algunos modelos patentados. (…) En LivecodeBench, posiblemente el punto de remisión de codificación más realista habitable, Kimi K2 alcanzó una precisión del 53.7%, superando decisivamente el 46.9% de Deepseek-V3 y el 44.7% de GPT-4.1. Aún más sorprendente: obtuvo un 97.4% en Math-500 en comparación con el 92.4% de GPT-4.1, lo que sugiere que Moonshot ha descifrado poco fundamental sobre el razonamiento matemático que ha eludido competidores más grandes y mejor financiados.

Pero esto es lo que los puntos de remisión no capturan: Moonshot está logrando estos resultados con un maniquí que cuesta una fracción de lo que los titulares gastan en capacitación e inferencia. Mientras que OpenAi combustión a través de cientos de millones en el cálculo de mejoras incrementales, Moonshot parece tener contrario un camino más efectivo al mismo destino. Es un dilema de renovador clásico que se desarrolla en tiempo positivo: el extraño Scrappy no solo coincide con el rendimiento del titular, lo están haciendo mejor, más rápido y más rebajado.

Related Posts

AirTag 2 vs AirTag: aquí está todo lo nuevo

El sucesor del AirTag de Apple se lanzó a principios de este año y llegó cinco primaveras luego del maniquí flamante. Aquí se muestran todas las funciones nuevas y mejoradas…

Walmart se inundó de GPU RTX de la serie 40, ya que la serie 50 sigue fuera del difusión de la mayoría de los jugadores: el minorista recorta hasta $480 de descuento en las GPU de última procreación para ofrecer precios razonables

Seguimiento diario de precios y existencias de GPU para Hardware de Tom El índice de GPU ha revelado una gran afluencia de tarjetas gráficas GeForce RTX serie 40 (nombre en…

You Missed

El derecho internacional y los megas desafíos del presente | AlMomento.net

El derecho internacional y los megas desafíos del presente | AlMomento.net

Delcy Rodríguez realiza cambio en el mando marcial en Venezuela

Delcy Rodríguez realiza cambio en el mando marcial en Venezuela

La inflación interanual de la energía en Latinoamérica bajó en diciembre 0.83%

La inflación interanual de la energía en Latinoamérica bajó en diciembre 0.83%

Petróleo Texas se coloca a 101 dólares el barril

Petróleo Texas se coloca a 101 dólares el barril

Una última ojeada a los ocho musicales de Premios Soberano 2026

Una última ojeada a los ocho musicales de Premios Soberano 2026

AirTag 2 vs AirTag: aquí está todo lo nuevo

AirTag 2 vs AirTag: aquí está todo lo nuevo