
En medio de un impulso cerca de los agentes de IA, con Anthropic y OpenAI enviando herramientas multiagente esta semana, Anthropic está más que ligero para mostrar algunos de sus experimentos de codificación de IA más atrevidos. Pero como es habitual con las afirmaciones de logros relacionados con la IA, encontrará algunas advertencias secreto a continuación.
El jueves, el investigador antrópico Nicholas Carlini publicó una publicación de blog describiendo cómo liberó 16 instancias del maniquí de IA Claude Opus 4.6 de la compañía en una pulvínulo de código compartida con una supervisión mínima, asignándoles la tarea de construir un compilador de C desde cero.
Durante dos semanas y casi 2.000 sesiones de Claude Code que costaron aproximadamente de $ 20.000 en tarifas API, los agentes del maniquí de IA supuestamente produjeron un compilador basado en Rust de 100.000 líneas capaz de construir un kernel Linux 6.9 de inicio en arquitecturas x86, ARM y RISC-V.
Carlini, un estudiado investigador del equipo de Safeguards de Anthropic que anteriormente pasó siete primaveras en Google Brain y DeepMind, utilizó una nueva función puyazo con Claude Opus 4.6 indicación “equipos de agentes.” En la actos, cada instancia de Claude se ejecutaba internamente de su propio contenedor Docker, clonando un repositorio Git compartido, reclamando tareas escribiendo archivos bloqueados y luego enviando el código completo nuevamente cerca de hacia lo alto. Ningún agente de orquestación dirigió el tráfico. Cada instancia identificó de forma independiente el problema que parecía más obvio en el que trabajar a continuación y comenzó a resolverlo. Cuando surgieron conflictos de fusión, las instancias del maniquí de IA los resolvieron por sí solas.
El compilador resultante, que Anthropic ha atrevido en GitHubpuede agrupar una variedad de importantes proyectos de código descubierto, incluidos PostgreSQL, SQLite, Redis, FFmpeg y QEMU. Logró una tasa de aprobación del 99 por ciento en el conjunto de pruebas de tortura del CCG y, en lo que Carlini llamó “la prueba de fuego definitiva del desarrollador”, compiló y ejecutó Condenar.
Vale la pena señalar que un compilador de C es una tarea casi ideal para la codificación de modelos de IA semiautónomos: la definición tiene décadas de pasado y ya existen conjuntos de pruebas completos y admisiblemente definidos, y hay un compilador de relato en buen estado con el que comparar. La mayoría de los proyectos de software del mundo actual no tienen ninguna de estas ventajas. La parte difícil de la maduro parte del crecimiento no es escribir código que pase las pruebas; se tráfico de descubrir cuáles deberían ser las pruebas en primer empleo.






