
Durante el fin de semana, Andrej Karpathy, el influyente ex líder y cofundador de Tesla AI y ex miembro de OpenAI que acuñó el término. "codificación de vibraciones"— publicado en X sobre su nuevo tesina de código descubierto, investigación cibernética.
No era un maniquí terminado ni un producto corporativo masivo: era, según admitió él mismo, un grímpola simple de 630 líneas. arreglado en Github bajo una atrevimiento MIT permisiva y acogedor para las empresas. Pero la codicia era enorme: automatizar el método verificado con agentes de inteligencia fabricado mientras los humanos dormimos.
"El objetivo es diseñar a sus agentes para que hagan el progreso más rápido en la investigación de forma indefinida y sin su propia décimo." afirmó en X.
El sistema funciona como un circuito de optimización autónomo. Un agente de IA recibe un grímpola de entrenamiento y un presupuesto de computación fijo (normalmente 5 minutos en una GPU).
Lee su propio código fuente, formula una hipótesis de alivio (como cambiar la tasa de formación o la profundidad de la inmueble), modifica el código, ejecuta el experimentación y evalúa los resultados.
Si la pérdida de garra, medida en bits por byte (val_bpb)—alivio, mantiene el cambio; si no, revierte y vuelve a intentarlo. En En una ejecución nocturna, el agente de Karpathy completó 126 experimentos.lo que redujo la pérdida de 0,9979 a 0,9697.
Hoy, Karpathy informó que luego de dejar que el agente sintonizara un "profundidad=12" maniquí durante dos días, exitosamente procesó aproximadamente 700 cambios autónomos.
El agente encontró aproximadamente 20 mejoras aditivas que se transfirieron perfectamente a modelos más grandes. Al acumular estos cambios se redujo el "Es hora de GPT-2" métrica en la tabla de clasificación de 2,02 horas a 1,80 horas: una rendimiento de eficiencia del 11 % en un tesina que Karpathy creía que ya estaba correctamente afinado.
"Ver al agente realizar todo este flujo de trabajo de principio a fin y por sí solo… es una manía," Karpathy comentó, señalando que el agente detectó descuidos en el escalamiento y la regularización de la atención que había pasado por suspensión manualmente durante dos décadas de trabajo.
Esto es más que un simple truco de productividad; es un cambio fundamental en cómo se refina la inteligencia. Al automatizar el "metodo cientifico" Para el código, Karpathy ha convertido el formación maquinal en un proceso evolutivo que se ejecuta a la velocidad del silicio en empleo de a la velocidad del pensamiento humano.
Y más que esto, mostró a la comunidad más amplia de inteligencia fabricado y formación maquinal en X que este tipo de proceso podría aplicarse mucho más allá de la informática, a campos como el marketing, la vitalidad y, bueno, básicamente cualquier cosa que requiera investigación.
La autoinvestigación se extiende por todas partes
La reacción fue rápida y virulento: la publicación de Karpathy obtuvo más de 8,6 millones de visitas en los dos días intermedios mientras constructores e investigadores se apresuraban a subir la "Onda de los Cárpatos".
Varun Mathur, director ejecutor de la plataforma de agregación de herramientas de inteligencia fabricado Hyperspace AI, tomó el tirabuzón de agente único y lo distribuyó a través de una red de igual a igual. Cada nodo que ejecutaba el agente Hiperespacial se convirtió en un investigador autónomo.
En la indeterminación del 8 al 9 de marzo, 35 agentes autónomos de la red Hiperespacial realizaron 333 experimentos completamente sin supervisión. Los resultados fueron una clase perfecto en táctica emergente:
-
Riqueza de hardware como característica: Mathur señaló que si correctamente se usaban GPU H100 "fuerza bruta" Para encontrar tasas de formación agresivas, los agentes que solo utilizan CPU en las computadoras portátiles se vieron obligados a ser inteligentes. Estos "desvalido" Los agentes se centraron en estrategias de inicialización (como Kaiming y Xavier init) y opciones de normalización porque no podían entregarse en manos en el rendimiento bruto.
-
Descubrimiento basado en chismes: Utilizando el protocolo GossipSub, los agentes compartieron sus ganancias en tiempo existente. Cuando un agente descubrió que la inicialización de Kaiming reducía las pérdidas en un 21 %, la idea se propagó por la red como un virus digital. En cuestión de horas, otros 23 agentes habían incorporado el descubrimiento a sus propias hipótesis.
-
La compresión de la historia: En solo 17 horas, estos agentes redescubrieron de forma independiente hitos del formación maquinal (como RMSNorm e incrustaciones vinculadas) que a los investigadores humanos de laboratorios como Google Brain y OpenAI les llevó casi ocho abriles formalizarse.
Realice 36.500 experimentos de marketing cada año en empleo de 30
Mientras los puristas del ML se centraban en las curvas de pérdidas, el mundo empresarial vio un tipo diferente de revolución. Eric Siu, fundador de la agencia de publicidad Single Grainaplicó la investigación cibernética a la "Onda de experimentación" de mercadeo.
"La mayoría de los equipos de marketing realizan aproximadamente 30 experimentos al año." Siu escribió en X. "La próxima engendramiento tendrá más de 36.500 unidades. Fácilmente." Continuó:
"Harán experimentos mientras duermen. Los equipos de marketing actuales realizan entre 20 y 30 experimentos al año. Quizás 52 si son “buenos”. Nueva página de destino. Nueva creatividad publicitaria. Quizás una prueba de sarta de asunto. eso se considera "marketing basado en datos."
Pero la próxima engendramiento de sistemas de marketing realizará más de 36.500 experimentos por año."
El entorno de Siu reemplaza el grímpola de capacitación con un activo de marketing: una página de destino, una creatividad publicitaria o un correo electrónico frío. El agente modifica una variable (la sarta de asunto o el CTA), la implementa, mide el "tasa de respuesta positiva," y lo conserva o lo descarta.
Siu sostiene que esto crea una "atlas propietario" de lo que resuena con una audiencia específica: un foso construido no con código, sino con historia de experimentos. "Las empresas que ganen no tendrán mejores especialistas en marketing," él escribió, "Tendrán ciclos de experimentos más rápidos.".
Discusión comunitaria y ‘estropear’ el conjunto de garra
A pesar del fervor, el Discusiones de GitHub reveló una comunidad que lucha con las implicaciones de un progreso tan rápido y automatizado.
La trampa de la sobreoptimización: Investigador alexistual planteó una preocupación conmovedora: "¿No le preocupa que el divulgación de tantos experimentos eventualmente “estropee” el conjunto de garra?". El temor es que con suficientes agentes, los parámetros se optimicen para las peculiaridades específicas de los datos de prueba en empleo de la inteligencia genérico.
El significado de las ganancias: Heredero Samionb cuestionó si una caída de 0,9979 a 0,9697 era positivamente trascendente. La respuesta de Karpathy fue característicamente directa: "Lo único que estamos haciendo es optimizar el rendimiento por cuenta… estas son ganancias reales y sustanciales."
El medio ambiente humano: En X, becario brujoSuperior de Crecimiento en plataforma criptográfica Finanzas Yaridocumentó su propia ejecución nocturna en un Mac Mini M4 y señaló que, si correctamente 26 de 35 experimentos fallaron o fallaron, los siete que tuvieron éxito revelaron que "el maniquí mejoró al volverse más simple".
Esta idea de que a menudo menos es más se alcanzó sin una sola intervención humana.
El futuro: la curiosidad como cuello de botella
El divulgación de la investigación cibernética sugiere un futuro de investigación en todos los dominios donde, gracias a simples mecanismos de instrucción de IA, el papel del ser humano cambia de "experimentador" a "diseñador empírico."
A medida que surgen herramientas como DarkMatter, Optimization Arena y NanoClaw para respaldar este enjambre, el cuello de botella del progreso de la IA ya no es el "computadora de carne" (La descripción que hace Karpathy de la capacidad del cerebro humano) para codificar: es nuestra capacidad para explicar las limitaciones de la búsqueda.
Andrej Karpathy una vez más ha cambiado la vibra. Ya no nos limitamos a codificar modelos; estamos sembrando ecosistemas que aprenden mientras dormimos.




