NousCoder-14B de Nous Research es un maniquí de codificación de código campechano que llega acoplado en el momento de Claude Code

NousCoder-14B de Nous Research es un maniquí de codificación de código campechano que llega acoplado en el momento de Claude Code

Nuestra investigaciónla startup de inteligencia sintético de código campechano respaldada por una empresa de criptoempresa Moldelanzó el lunes un nuevo maniquí de programación competitivo que, según dice, iguala o supera varios sistemas propietarios más grandes, entrenado en solo cuatro días utilizando 48 de las últimas tecnologías de Nvidia. Procesadores gráficos B200.

El maniquí, llamado NousCoder-14Bes otra entrada en un campo abarrotado de asistentes de codificación de IA, pero llega en un momento particularmente intenso: Código Claudela utensilio de programación agente de su rival Anthropic, ha dominado la discusión en las redes sociales desde el día de Año Nuevo, y los desarrolladores publican jadeante testimonios sobre sus capacidades. Los desarrollos simultáneos subrayan cuán rápido está evolucionando el incremento de software asistido por IA y cuán ferozmente las empresas grandes y pequeñas están compitiendo para capturar lo que muchos creen que se convertirá en una tecnología fundamental para la forma en que se escribe el software.

tipo: entrada-incrustada-en sarta identificación: 74cSyrq6OURp9SEQ5zOUSl

NousCoder-14B logra una tasa de precisión del 67,87 por ciento en LiveCodeBenchv6una evaluación estandarizada que prueba modelos sobre problemas de programación competitivos publicada entre agosto de 2024 y mayo de 2025. Esa emblema representa una mejoría de 7,08 puntos porcentuales con respecto al maniquí saco desde el que se entrenó, según Alibaba. Qwen3-14Bsegún el documentación técnico de Nous Research publicado inmediato con el comunicado.

"Le di a Claude Code una descripción del problema, generó lo que construimos el año pasado en una hora." perteneceringeniero principal de Google responsable de la API Gemini, en una publicación vírico en X la semana pasada que capturó el estado de actitud predominante en torno a las herramientas de codificación de IA. Dogan estaba describiendo un sistema de orquestación de agentes distribuidos que su equipo había dedicado un año a desarrollar: un sistema que Claude Code aproximaba a partir de un mensaje de tres párrafos.

La yuxtaposición es instructiva: mientras que Claude Code de Anthropic ha capturado la imaginación con demostraciones de incremento de software de extremo a extremo, Nous Research puesta a que las alternativas de código campechano entrenadas en problemas verificables pueden cerrar la brecha, y que la transparencia en cómo se construyen estos modelos importa tanto como la capacidad bruta.


Cómo Nous Research construyó un maniquí de codificación de IA que cualquiera puede replicar

¿Qué distingue a la NousCoder-14B La excepción a muchos anuncios de la competencia es su comprensión radical. Nous Research publicó no sólo el pesos maniquí pero el entorno completo de educación por refuerzoconjunto de pruebas comparativas y arnés de entrenamiento, construidos sobre la saco de la empresa Entorno de Atropos — permitir a cualquier investigador con suficiente cuenta reproducir o ampliar la obra.

"El código campechano de la pila Atropos proporciona la infraestructura necesaria para una investigación de razonamiento reproducible a nivel de olimpíada," señaló un observador en Xresumiendo la importancia para las comunidades académica y de código campechano.

El maniquí fue entrenado por joe leeinvestigador residente en Nous Research y ex programador competitivo. Li’s documentación técnico revela una dimensión inesperadamente personal: comparó la trayectoria de mejoría del maniquí con su propio alucinación en Codeforces, la plataforma de programación competitiva donde los participantes obtienen calificaciones basadas en el desempeño del concurso.

Con saco en estimaciones aproximadas que relacionan las puntuaciones de LiveCodeBench con las calificaciones de Codeforces, Li calculó que la mejoría de NousCoder-14B (desde aproximadamente el rango de calificación de 1600-1750 a 2100-2200) refleja un brinco que le llevó casi dos abriles de ejercicio sostenida entre los 14 y 16 abriles. El maniquí logró el equivalente en cuatro días.

"Ver cómo se desarrollaba el entrenamiento final fue una experiencia suficiente surrealista," Li escribió en el documentación técnico.

Pero Li se apresuró a señalar una advertencia importante que argumenta a cuestiones más amplias sobre la eficiencia de la IA: resolvió aproximadamente 1.000 problemas durante esos dos abriles, mientras que el maniquí requirió 24.000. Los seres humanos, al menos por ahora, siguen siendo estudiantes mucho más eficientes en el uso de muestras.


Adentro del sistema de educación por refuerzo que entrena en 24.000 problemas de programación competitiva

NousCoder-14BEl proceso de capacitación ofrece una ventana a las técnicas cada vez más sofisticadas que utilizan los investigadores para mejorar las capacidades de razonamiento de la IA mediante el educación por refuerzo.

El enfoque se podio en lo que los investigadores llaman "recompensas verificables" – un sistema donde el maniquí genera soluciones de código, esas soluciones se ejecutan contra casos de prueba y el maniquí recibe una señal binaria simple: correcta o incorrecta. Este circuito de feedback, si adecuadamente es conceptualmente sencillo, requiere una infraestructura significativa para ejecutarse a escalera.

Nous Investigación utilizada Modaluna plataforma de computación en la abundancia, para ejecutar la ejecución de código en un espacio arrinconado en paralelo. Cada uno de los 24.000 problemas de entrenamiento contiene cientos de casos de prueba en promedio, y el sistema debe confirmar que el código generado produzca resultados correctos adentro de las limitaciones de tiempo y memoria: 15 segundos y 4 gigabytes, respectivamente.

El entrenamiento empleó una técnica señal DAPO (Optimización de la política de muestreo dinámico)que según los investigadores funcionó levemente mejor que las alternativas en sus experimentos. Una innovación esencia implica "muestreo dinámico" — descartar ejemplos de entrenamiento en los que el maniquí resuelve todos los intentos o equivocación en todos los intentos, ya que no proporcionan una señal de gradiente útil para el educación.

Los investigadores incluso adoptaron "extensión de contexto iterativa," Primero entrene el maniquí con una ventana de contexto de 32.000 tokens antaño de expandirlo a 40.000 tokens. Durante la evaluación, ampliar el contexto a aproximadamente 80.000 tokens produjo los mejores resultados, con una precisión que alcanzó el 67,87 por ciento.

Quizás lo más significativo es que el proceso de capacitación se superpone a la inferencia y la demostración: tan pronto como el maniquí genera una opción, comienza a trabajar en el venidero problema mientras se verifica la opción preparatorio. Esta canalización, combinada con un entrenamiento asincrónico en el que varias instancias de maniquí funcionan en paralelo, maximiza la utilización del hardware en costosos clústeres de GPU.


La inminente escasez de datos que podría frenar el progreso del maniquí de codificación de IA

Enterrado en Li documentación técnico es un hallazgo con implicaciones significativas para el futuro del incremento de la IA: el conjunto de datos de entrenamiento para NousCoder-14B alpargata "una parte importante de todos los problemas de programación competitiva verificables y fácilmente disponibles en un formato de conjunto de datos estandarizado."

En otras palabras, para este dominio en particular, los investigadores se están acercando a los límites de los datos de entrenamiento de adhesión calidad.

"El número total de problemas de programación competitivos en Internet es aproximadamente del mismo orden de magnitud," Li escribió, refiriéndose a los 24.000 problemas utilizados para el entrenamiento. "Esto sugiere que adentro del dominio de la programación competitiva, nos hemos acercado a los límites de los datos de adhesión calidad."

Esta observación refleja la creciente preocupación en toda la industria de la IA por las limitaciones de datos. Si adecuadamente la computación continúa escalando de acuerdo con principios económicos y de ingeniería adecuadamente entendidos, los datos de capacitación son "cada vez más finito," como lo expresó Li.

"Parece que algunas de las investigaciones más importantes que deben realizarse en el futuro estarán en las áreas de concepción de datos sintéticos y algoritmos y arquitecturas eficientes en datos." concluyó.

El desafío es particularmente profundo para la programación competitiva porque el dominio requiere problemas con soluciones correctas conocidas que puedan crudeza automáticamente. A diferencia de las tareas de jerga natural donde la evaluación humana o las métricas proxy son suficientes, el código funciona o no, lo que dificulta considerablemente la concepción de datos sintéticos.

Li identificó una vía potencial: entrenar modelos no solo para resolver problemas sino incluso para originar problemas solucionables, permitiendo una forma de equipo personal similar a las técnicas que resultaron exitosas en los sistemas de inteligencia sintético para juegos. "Una vez que se resuelve la concepción de problemas sintéticos, el equipo personal se convierte en una dirección muy interesante." él escribió.


Una puesta de 65 millones de dólares a que la IA de código campechano puede competir con las grandes tecnologías

Nous Research se ha plantado una posición distintiva en el panorama de la IA: una empresa comprometida con lanzamientos de código campechano que compiten con, y a veces superan, las alternativas patentadas.

La empresa planteó 50 millones de dólares en abril de 2025 en una ronda liderada por Paradigm, la empresa de aventura centrada en criptomonedas fundada por el cofundador de Coinbase, Fred Ehrsam. La financiación total alcanzó los 65 millones de dólares, según algunos informes. La inversión reflejó el creciente interés en enfoques descentralizados para la capacitación en IA, un campo de acción donde Nous Research ha desarrollado su Plataforma psique.

Los lanzamientos anteriores incluyen Hermes 4una grupo de modelos que reportamos "exceder a ChatGPT sin restricciones de contenido," y DeepHermes-3, que la compañía describió como el primer "maniquí de razonamiento alternante" — permitir a los usuarios activar capacidades de pensamiento ampliadas a pedido.

La compañía ha cultivado una estética y una comunidad distintivas, lo que generó cierto desconfianza sobre si el estilo podría deslucir la sustancia. "Ofc, voy a creer en una empresa de anime pfp. dejar de hacer benchmarkmaxxing ffs," escribió un crítico en Xen narración a la marca de estilo anime de Nous Research y la ejercicio de la industria de optimizar el rendimiento de narración.

Otros plantearon cuestiones técnicas. "Según el punto de narración, Nemotron es mejor," señaló un comentarista, refiriéndose a la grupo de modelos de jerga de Nvidia. Otro preguntó si NousCoder-14B es "Codificación enfocada en agentes o de una sola vez." – una distinción que es importante para el incremento práctico de software, donde la iteración de la feedback generalmente produce mejores resultados que los intentos únicos.


Lo que dicen los investigadores debe suceder a continuación para que las herramientas de codificación de IA sigan mejorando

El comunicado incluye varias direcciones para el trabajo futuro que indican en torno a dónde se dirige la investigación de codificación de IA.

El educación por refuerzo de múltiples turnos encabeza la tira. Actualmente, el maniquí recibe solo una remuneración binaria final (permitido o reprobado) luego de originar una opción. Pero los problemas de programación competitivos generalmente incluyen casos de prueba públicos que brindan feedback intermedia: errores de compilación, resultados incorrectos, violaciones de límites de tiempo. Los modelos de capacitación para incorporar esta feedback en múltiples intentos podrían mejorar significativamente el rendimiento.

Controlar la duración de la respuesta incluso sigue siendo un desafío. Los investigadores descubrieron que las soluciones incorrectas tendían a ser más largas que las correctas, y la duración de las respuestas saturaba rápidamente las ventanas de contexto disponibles durante el entrenamiento, un patrón que varias modificaciones algorítmicas no lograron resolver.

Quizás lo más arribista fue que Li propuso "Procreación de problemas y autojuego." — modelos de entrenamiento para resolver y crear problemas de programación. Esto abordaría directamente el problema de la escasez de datos al permitir que los modelos generen sus propios planes de estudio de capacitación.

"Los humanos son excelentes para originar problemas interesantes y avíos para otros programadores competitivos, pero parece que todavía existe una brecha significativa en las capacidades de LLM en la concepción de problemas creativos." Li escribió.

El maniquí es acondicionado ahora en Hugging Face bajo una atrevimiento Apache 2.0. Para los investigadores y desarrolladores que quieran beneficiarse el trabajo, Nous Research ha publicado el documentación completo Pila de entrenamiento de Atropos inmediato a él.

Lo que a Li le llevó dos abriles de dedicación adolescente ganar (acontecer de un principiante de nivel 1600 a un competidor con calificación de 2100 en Codeforces) fue replicado por una IA en 96 horas. Necesitaba 1.000 problemas. El maniquí necesitaba 24.000. Pero muy pronto, estos sistemas pueden educarse a escribir sus propios problemas, educarse por sí mismos y dejar a espaldas por completo los puntos de narración humanos.

La pregunta ya no es si las máquinas pueden educarse a codificar. Se negociación de si pronto serán mejores profesores que nosotros.

Related Posts

Esta función de IA de Windows se ejecuta en segundo plano; desactívela ahora

Ya sea que lo solicite o no, la inteligencia sintético se está convirtiendo poco a poco en parte de su experiencia con Windows. Ahora que Copilot está integrado directamente en…

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Hasta 1970, Estados Unidos arrojó unas 17.000 toneladas de armas químicas no utilizadas de la Primera y Segunda Supresión Mundial frente a la costa del Océano Atlántico, y esa valentía…

You Missed

Una dominicana liderará la agencia de educación superior de Nueva York – Remolacha

Una dominicana liderará la agencia de educación superior de Nueva York – Remolacha

Esta función de IA de Windows se ejecuta en segundo plano; desactívela ahora

Esta función de IA de Windows se ejecuta en segundo plano; desactívela ahora

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Luis Carnación appointed Director of Electoral Observatory for Latin America

Luis Carnación appointed Director of Electoral Observatory for Latin America

Ahorre $50 en el Bose QuietComfort Extremista de segunda vivientes (¡actúe rápido!)

Ahorre  en el Bose QuietComfort Extremista de segunda vivientes (¡actúe rápido!)

RD entre países que la Interpol intervino por abusos infantiles – Remolacha

RD entre países que la Interpol intervino por abusos infantiles – Remolacha