Alphaevolve de Google: el agente de IA que recuperó el 0.7% del cuenta de Google y cómo copiarlo


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


GoogleEl nuevo Alphaevolve muestra lo que sucede cuando un agente de IA se gradúa de la demostración de laboratorio hasta el trabajo de producción, y tienes una de las compañías de tecnología más talentosas que lo impulsan.

Construido por DeepMind de Google, el sistema reescribe de forma autónoma el código crítico y ya se paga por sí mismo en el interior de Google. Él destrozó un récord de 56 abriles En la multiplicación de matriz (el núcleo de muchas cargas de trabajo de formación necesario) y Se recuperó el 0.7% de la capacidad de cálculo en los centros de datos globales de la compañía.

Esas hazañas principales son importantes, pero la conferencia más profunda para los líderes tecnológicos empresariales es cómo Alphaevolve los talego. Su cimentación (regulador, modelos de tiro rápido, modelos de pensamiento profundo, evaluadores automatizados y memoria traducción) ilustra el tipo de fontanería de cargo de producción que hace que los agentes autónomos sean seguros de desplegar a escalera.

La tecnología de IA de Google es posiblemente insuperable. Entonces, el truco es descubrir cómo formarse de él, o incluso usarlo directamente. Google dice que un software de camino temprano es venir para socios académicos y esa “disponibilidad más amplia“Se está explorando, pero los detalles son delgados. Hasta entonces, Alphaevolve es una plantilla de mejor experiencia: si desea agentes que tocan cargas de trabajo de detención valía, necesitará orquestaciones, pruebas y barandillas comparables.

Considere solo el Obtener el centro de datos. Google no pondrá un precio en el 0.7%recuperado, pero su CAPEX anual funciona Decenas de miles de millones de dólares. Incluso una estimación aproximada pone los ahorros en los cientos de millones anualmente,Suficiente, como el desarrollador independiente Sam Witteveen señaló en nuestro flamante podcastpara fertilizar la capacitación de uno de los modelos de Géminis insignia, se estima que costará más $ 191 millones Para una traducción como Gemini Extremista.

VentureBeat fue el primero en informar sobre Alphaevolve News a principios de esta semana. Ahora profundizaremos: cómo funciona el sistema, dónde se encuentra en realidad la mostrador de ingeniería y las empresas de los pasos concretos pueden tomar para construir (o comprar) poco comparable.

1. Más allá de los scripts simples: el surgimiento del “sistema activo de agente”

Alphaevolve se ejecuta en lo que se describe mejor como un sistema activo de agente: una tubería asincrónica distribuida construida para una prosperidad continua a escalera. Sus piezas centrales son un regulador, un par de modelos de idiomas grandes (Gemini Flash para la amplitud; Gemini Pro para la profundidad), una colchoneta de datos de memoria de programas versionada y una flota de trabajadores evaluadores, todos sintonizados para un detención rendimiento en circunscripción de solo una desvaloración latencia.

Una descripción normal de detención nivel de la estructura del agente Alphaevolve. Fuente: Papel Alphaevolve.

Esta cimentación no es conceptualmente nueva, pero la ejecución es. “Es una ejecución increíblemente buena”, dice Witteveen.

El alphaevolve papel describe al orquestador como un “Operación evolutivo que desarrolla gradualmente programas que mejoran la puntuación en las métricas de evaluación automatizadas” (p. 3); En síntesis, un “La tubería autónoma de LLM cuya tarea es mejorar un operación haciendo cambios directos en el código” (p. 1).

Takeaway para empresas: Si sus planes de agente incluyen ejecuciones no supervisadas en tareas de detención valía, planifique una infraestructura similar: colas de trabajo, una tienda de memoria versionada, rastreo de malla de servicio y sandboxing seguro para cualquier código que el agente produce.

2. El motor evaluador: impulsar el progreso con feedback automatizada y objetivo

Un tipo esencia de Alphaevolve es su riguroso ámbito de evaluación. Cada iteración propuesta por el par de LLM es aceptada o rechazada en función de una función “Evaluar” suministrada por el favorecido que devuelve métricas gradibles a la máquina. Este sistema de evaluación comienza con las verificaciones de prueba unitaria ultrarrápida en cada cambio de código propuesto (pruebas simples y automáticas (similares a las pruebas unitarias que los desarrolladores ya escriben) que verifican el fragmento todavía compila y produce las respuestas correctas en un puñado de micro-entradas, antiguamente de tener lugar los sobrevivientes a los versiones más pesadas y las revisiones generadas por LLM. Esto funciona en paralelo, por lo que la búsqueda se mantiene rápida y segura.

En síntesis: deje que los modelos sugieran correcciones, luego verifique cada una contra las pruebas en las que confía. Alphaevolve igualmente admite la optimización de objetivos múltiples (optimización de la latencia y precisión simultáneamente), programas en cambio que alcanzan varias métricas a la vez. En contra-intuitivo, el compensación de múltiples objetivos puede mejorar una sola métrica objetivo al alentar soluciones más diversas.

Takeaway para empresas: Los agentes de producción necesitan marcadores deterministas. Ya sean pruebas unitarias, simuladores completos o prospección de tráfico canario. Los evaluadores automatizados son tanto su red de seguridad como su motor de crecimiento. Antiguamente de exhalar un plan de agente, pregunte: “¿Tenemos una métrica contra la que el agente pueda obtenerlo?”

3. Uso de maniquí inteligente, refinamiento de código iterativo

Alphaevolve aborda cada problema de codificación con un ritmo de dos modelos. Primero, Gemini Flash dispara borradores rápidos, dando al sistema un amplio conjunto de ideas para explorar. Luego, Gemini Pro estudia esos borradores con más profundidad y devuelve un conjunto más pequeño de candidatos más fuertes. Avituallar entreambos modelos es un “constructor rápido” informal, un script ayudante que ensambla la pregunta que ve cada maniquí. Combina tres tipos de contexto: intentos de código anteriores guardados en una colchoneta de datos de proyectos, cualquier barandal o reglas que el equipo de ingeniería haya escrito y material forastero relevante, como trabajos de investigación o notas de desarrollador. Con ese telón de fondo más rico, Gemini Flash puede deambular ampliamente, mientras que Gemini Pro se concentra en la calidad.

A diferencia de muchas demostraciones de agentes que modifican una función a la vez, Alphaevolve edita repositorios enteros. Describe cada cambio como un pedrusco DIFF standard, el mismo formato de parche empuje a GitHub, por lo que puede tocar docenas de archivos sin perder la pista. Seguidamente, las pruebas automatizadas deciden si el parche se adhiere. Durante los ciclos repetidos, la memoria del agente del éxito y el fracaso crece, por lo que propone mejores parches y desperdicia menos calculador en los callejones sin salida.

Takeaway para empresas: Deje que los modelos más baratos y más rápidos manejen una tormenta de ideas, luego llame a un maniquí más capaz para refinar las mejores ideas. Preserve cada prueba en un historial de búsqueda, porque esa memoria acelera más tarde funciona y se puede reutilizar en todos los equipos. En consecuencia, los proveedores se apresuran a proporcionar a los desarrolladores nuevas herramientas en torno a cosas como la memoria. Productos como OpenMemory MCPque proporciona una tienda de memoria portátil y el Nuevas API de memoria a abundante y a corto plazo en llameindex están haciendo que este tipo de contexto persistente sea casi tan tratable de conectar como el registro.

El agente de ingeniería de software Codex-1 de OpenAI, igualmente osado hoy, subraya el mismo patrón. Dispara las tareas paralelas en el interior de una caja de arena segura, ejecuta pruebas unitarias y devuelve borradores de solicitud de linaje, efectivamente un eco específico de código del caracolillo de búsqueda y evaluación más amplio de Alfaevolve.

4. Medida para mandar: AIG de AI de agente para el ROI demostrable

Las victorias tangibles de Alphaevolve: recuperando el 0.7%de la capacidad del centro de datos, la corte de tiempo de ejecución del núcleo de entrenamiento de Géminis, el 23%, la flashatención de velocidad 32%y la simplificación del diseño de TPU: comparten un plumazo: se dirigen a los dominios con métricas herméticas.

Para la programación del centro de datos, Alphaevolve evolucionó una heurística que se evaluó utilizando un simulador de los centros de datos de Google basados ​​en cargas de trabajo históricas. Para la optimización del núcleo, el objetivo era minimizar el tiempo de ejecución efectivo en los aceleradores de TPU en un conjunto de datos de formas realistas de entrada del núcleo.

Takeaway para empresas: Al comenzar su alucinación de AI de agente, busque primero los flujos de trabajo donde “mejor” es un número cuantificable que su sistema puede calcular, ya sea latencia, costo, tasa de error o rendimiento. Este enfoque permite la implementación automatizada de la búsqueda y la aniquilación de peligro porque la salida del agente (a menudo el código descifrable por humanos, como en el caso de Alphaevolve) puede integrarse en las tuberías de revisión y acometividad existentes.

Esta claridad permite que el agente funcione y demuestre un valía inequívoco.

5. Establecer las bases: requisitos previos esenciales para el éxito de la agente empresarial

Si acertadamente los logros de Alphaevolve son inspiradores, el artículo de Google igualmente tiene claro su capacidad y requisitos.

La inconveniente principal es la requisito de un evaluador automatizado; Los problemas que requieren experimentación manual o feedback de “laboratorio húmedo” están actualmente fuera de capacidad para este enfoque específico. El sistema puede consumir un cálculo significativo: “en el orden de 100 horas de cálculo para evaluar cualquier alternativa nueva” (papel alphaevolve, Página 8), que requiere paralelización y planificación cuidadosa de capacidad.

Antiguamente de asignar un presupuesto significativo a sistemas de agente complejos, los líderes técnicos deben hacer preguntas críticas:

  • ¿Problema con titulado en máquina? ¿Tenemos una métrica clara y automatizable contra la cual el agente puede obtener su propio rendimiento?
  • ¿Capacidad de calcular? ¿Podemos fertilizar el circuito interno potencialmente pesado de reproducción, evaluación y refinamiento, especialmente durante la etapa de avance y capacitación?
  • ¿Pulvínulo de código y preparación para la memoria? ¿Está su colchoneta de código estructurada para modificaciones iterativas, posiblemente basadas en diferencias? ¿Y puede implementar los sistemas de memoria instrumentados vitales para que un agente aprenda de su historia evolutiva?

Takeaway para empresas: El enfoque creciente en la mandato de identidad y camino de agentes robustos, como se ve con plataformas como Frontegg, Auth0 y otros, igualmente señala la infraestructura de maduración requerida para desplegar agentes que interactúen de forma segura con múltiples sistemas empresariales.

El futuro de la agente está diseñado, no solo convocado

El mensaje de Alphaevolve para los equipos empresariales es múltiple. Primero, su sistema activo en torno a los agentes ahora es mucho más importante que la inteligencia maniquí. El plan de Google muestra tres pilares que no se pueden excluir:

  • Evaluadores deterministas que le dan al agente una puntuación inequívoca cada vez que hace un cambio.
  • Orquestación de larga duración que puede hacer malabarismos con modelos de “boceto” rápido como Gemini Flash con modelos más lentos y rigurosos, ya sea la pila de Google o un ámbito como el Langgraph de Langchain.
  • Memoria persistente para que cada iteración se pedestal en el posterior en circunscripción de retornar a formarse desde cero.

Las empresas que ya tienen registro, guarniciones de prueba y repositorios de código traducción están más cerca de lo que piensan. El posterior paso es conectar esos activos en un caracolillo de evaluación de hipermercado para que puedan competir múltiples soluciones generadas por agentes, y solo los parches de anciano puntaje.

Como el Anurag Dhingra de Cisco, VP y GM de conectividad y colaboración empresarial, dijo a VentureBeat en una entrevista esta semana: “Está sucediendo, es muy, muy efectivo”, dijo sobre las empresas que utilizan agentes de IA en fabricación, almacenes, centros de contacto con clientes. “No es poco en el futuro. Está sucediendo allí hoy”. Advirtió que a medida que estos agentes se pongan más generalizados, haciendo “trabajo humano”, la tensión en los sistemas existentes será inmensa: “el tráfico de la red se irá por el techo”, dijo Dhingra. Su red, presupuesto y delantera competitiva probablemente sentirán esa tensión antiguamente de que el ciclo de adulación se asienta. Comience a probar un caso de uso contenido y basado en métricos este trimestre, luego escalera lo que funciona.

Mira el podcast de video que hice con el desarrollador Sam Witteveen, donde vamos a profundizar en los agentes de cargo de producción, y cómo Alphaevolve está mostrando el camino:

https://www.youtube.com/watch?v=g5n13jjaing


Related Posts

Intel Core Reaccionario 7 265K CPU tiene un precio más bajo de $ 269

Uno de los últimos procesadores de Intel, el Intel Core Reaccionario 7 265Kahora está habitable en Amazon para uno de sus precios más bajos. Tiene un precio recomendado de $…

NYT Connections sugiere y respuestas para el domingo 18 de mayo (Entretenimiento #707)

¿Buscas un día diferente? Un nuevo rompecabezas de NYT Connections aparece a la medianoche cada día para su zona horaria, lo que significa que algunas personas siempre están jugando ‘Entretenimiento…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

COE mantiene a 24 provincias en alerta; reportan 120 viviendas afectadas y una persona desaparecida

COE mantiene a 24 provincias en alerta; reportan 120 viviendas afectadas y una persona desaparecida

Bad Bunny y Timothée Chalamet “se roban las cámaras” en los playoffs de la NBA

Bad Bunny y Timothée Chalamet “se roban las cámaras” en los playoffs de la NBA

Intel Core Reaccionario 7 265K CPU tiene un precio más bajo de $ 269

Intel Core Reaccionario 7 265K CPU tiene un precio más bajo de $ 269

PN incauta motores por carreras clandestinas

PN incauta motores por carreras clandestinas

Indomet pronostica lluvias y mantiene alertas por vaguada que afecta el país

Indomet pronostica lluvias y mantiene alertas por vaguada que afecta el país

Las tecnologías exponenciales como catalizadores de la competitividad empresarial

Las tecnologías exponenciales como catalizadores de la competitividad empresarial