
Los agentes son el tema más de moda en la IA hoy en día, y con razón. Los agentes de IA actúan en nombre de sus usuarios y manejan de forma autónoma tareas como realizar compras en rasgo, crear software, investigar tendencias comerciales o reservar viajes. Al sacar la IA generativa del entorno pequeño de la interfaz de chat y permitirle proceder directamente sobre el mundo, la IA agente representa un brinco delante en el poder y la utilidad de la IA. Sacar la IA generativa del entorno pequeño protegido de la interfaz de chat y permitirle proceder directamente en el mundo representa un brinco delante en el poder y la utilidad de la IA.
La IA agente se ha estado moviendo muy rápido: por ejemplo, uno de los componentes básicos de los agentes actuales, el protocolo de contexto maniquí (MCP), ¡solo tiene un año! Como en cualquier campo en rápida transformación, existen muchas definiciones contrapuestas, opiniones candentes y opiniones engañosas.
Para dejar de costado el ruido, me gustaría describir los componentes centrales de un sistema de IA agente y cómo encajan entre sí: en sinceridad no es tan complicado como parece. Con suerte, cuando hayas terminado de acertar esta publicación, los agentes no te parecerán tan misteriosos.
Ecosistema agente
Abundan las definiciones de la palabra “agente”, pero me gusta una ligera variación de la visión minimalista del programador inglés Simon Willison:
Un agente de LLM ejecuta herramientas en un tirabuzón para conquistar un objetivo.
El legatario solicita un maniquí de lengua excelso (LLM) con un objetivo: digamos, reservar una mesa en un restaurante cerca de un teatro específico. Adjunto con el objetivo, el maniquí recibe una directorio de las herramientas a su disposición, como una cojín de datos de ubicaciones de restaurantes o un registro de las preferencias alimentarias del legatario. Luego, el maniquí planifica cómo conquistar el objetivo y fuego a una de las herramientas, que proporciona una respuesta; Luego, el maniquí fuego a una nueva útil. A través de repeticiones, el agente avanza alrededor de el logro de la meta. En algunos casos, las opciones de orquestación y planificación del maniquí se complementan o mejoran mediante un código imperativo.
Pero ¿qué tipo de infraestructura se necesita para realizar este enfoque? Un sistema agente necesita algunos componentes centrales:
-
una forma de construir el agente. Cuando implementas un agente, no querrás tener que codificarlo desde cero. Existen varios marcos de avance de agentes.
-
algún ocupación para ejecutar el maniquí de IA. Un desarrollador experimentado en IA puede descargar un LLM de formato hendido, pero se necesita experiencia para hacerlo adecuadamente. Además requiere hardware costoso que el legatario promedio no utilizará adecuadamente.
-
algún ocupación para ejecutar el código agente. Con marcos establecidos, el legatario crea código para un objeto agente con un conjunto definido de funciones. La mayoría de esas funciones implican dirigir indicaciones a un maniquí de IA, pero el código debe ejecutarse en alguna parte. En la maña, la mayoría de los agentes se ejecutarán en la abundancia, porque queremos que sigan ejecutándose cuando nuestras computadoras portátiles estén cerradas y queremos que se amplíen y amplíen para hacer su trabajo.
-
Un mecanismo para traducir entre el LLM basado en texto y llamadas de herramientas.
-
A Corto plazo memoria para rastrear el contenido de las interacciones agentes.
-
A memoria a liberal plazo para rastrear las preferencias y afinidades del legatario entre sesiones.
-
una forma de señal la ejecución del sistema, para evaluar el desempeño del agente.
Profundicemos en más detalles sobre cada uno de estos componentes.
Construyendo un agente
Pedirle a un LLM que explique cómo planea afrontar una tarea en particular restablecimiento su desempeño en esa tarea. Este “razonamiento en cautiverio de pensamiento” es ahora omnipresente en la IA.
El análogo en los sistemas agentes es el maniquí ReAct (razonamiento + influencia), en el que el agente tiene un pensamiento (“Usaré la función de atlas para colocar restaurantes cercanos”), realiza una influencia (emitir una emplazamiento API a la función de atlas) y luego hace una observación (“Hay dos pizzerías y un restaurante indio a dos cuadras del cine”).
ReAct no es la única forma de crear agentes, pero es el núcleo de los sistemas de agentes más exitosos. Hoy en día, los agentes son comúnmente bucles sobre el pensamiento-acción-observación secuencia.
Las herramientas disponibles para el agente pueden incluir herramientas locales y herramientas remotas como bases de datos, microservicios y software como servicio. La precisión de una útil incluye una explicación en lengua natural de cómo y cuándo se usa y la sintaxis de sus llamadas API.
El desarrollador igualmente puede decirle al agente que, básicamente, cree sus propias herramientas sobre la marcha. Digamos que una útil recupera una tabla almacenada como texto separado por comas y, para cumplir su objetivo, el agente necesita ordenar la tabla.
Ordenar una tabla enviándola repetidamente a través de un LLM y evaluando los resultados sería un desperdicio colosal de bienes, y ni siquiera se garantiza que se obtenga el resultado correcto. En cambio, el desarrollador puede simplemente indicarle al agente que genere su propio código Python cuando encuentre una tarea simple pero repetitiva. Estos fragmentos de código pueden ejecutarse localmente unido con el agente o en una útil de interpretación de código segura dedicada.
Las herramientas disponibles pueden dividir la responsabilidad entre el LLM y el desarrollador. Una vez que se han especificado las herramientas disponibles para el agente, el desarrollador puede simplemente indicarle qué herramientas utilizar cuando sea necesario. O adecuadamente, el desarrollador puede especificar qué útil usar para qué tipos de datos, e incluso qué instrumentos de datos usar como argumentos durante las llamadas a funciones.
De forma similar, el desarrollador puede simplemente decirle al agente que genere código Python cuando sea necesario para automatizar tareas repetitivas o, alternativamente, decirle qué algoritmos usar para qué tipos de datos e incluso proporcionar pseudocódigo. El enfoque puede variar de un agente a otro.
Tiempo de ejecución
Históricamente, había dos formas principales de aislar el código que se ejecutaba en servidores compartidos: la contenedorización, que era valioso pero ofrecía beocio seguridad; y máquinas virtuales, que eran seguras pero conllevaban una gran sobrecarga computacional.
En 2018, se implementó el servicio de computación sin servidor Lambda de Amazon Web Services (AWS) Petardoun nuevo prototipo en el aislamiento de servidores. Firecracker crea “microVM”, con aislamiento de hardware y sus propios kernels de Linux, pero con gastos generales reducidos (tan solo unos pocos megabytes) y tiempos de inicio (tan bajos como unos pocos milisegundos). La desaparecido sobrecarga significa que cada función ejecutada en un servidor Lambda puede tener su propia microVM.
Sin retención, correcto a que la creación de instancias de un agente requiere implementar un LLM, unido con los bienes de memoria para rastrear las entradas y expectativas del LLM, el maniquí de aislamiento por función no es práctico. En cambio, con el aislamiento basado en sesiones, a cada sesión se le asigna su propia microVM. Cuando finaliza la sesión, la información de estado del LLM se copia en la memoria a liberal plazo y se destruye la microVM. Esto garantiza una implementación segura y valioso de hosts de agentes.
Llamadas a herramientas
Así como existen varios marcos de avance para la creación de agentes, existen varios estándares para la comunicación entre agentes y herramientas, el más popular de los cuales, actualmente, es el protocolo de contexto maniquí (MCP).
MCP establece una conexión uno a uno entre el LLM del agente y un servidor MCP dedicado que ejecuta llamadas a herramientas, y igualmente establece un formato estereotipado para acontecer diferentes tipos de datos entre el LLM y su servidor.
Muchas plataformas utilizan MCP de forma predeterminada, pero igualmente son configurables, por lo que admitirán un conjunto cada vez maduro de protocolos con el tiempo.
A veces, sin retención, la útil necesaria no es una que tenga una API arreglado. En tales casos, la única forma de recuperar datos o realizar una influencia es mediante movimientos del cursor y clics en un sitio web. Hay una serie de servicios disponibles para realizar tales uso de la computadora. Esto convierte a cualquier sitio web en una útil potencial para los agentes, abriendo décadas de contenido y servicios valiosos que aún no están disponibles directamente a través de las API.
Autorizaciones
Con los agentes, la autorización funciona en dos direcciones. En primer ocupación, por supuesto, los usuarios necesitan autorización para ejecutar los agentes que han creado. Pero como el agente actúa en nombre del legatario, normalmente necesitará su propia autorización para consentir a los bienes de la red.
Hay algunas formas diferentes de afrontar el problema de la autorización. Uno es con un cálculo de delegación de paso como OAuth, que esencialmente controla el proceso de autorización a través del sistema agente. El legatario ingresa las credenciales de inicio de sesión en OAuth y el sistema agente utiliza OAuth para iniciar sesión en bienes protegidos, pero el sistema agente nunca tiene paso directo a las contraseñas del legatario.
En el otro enfoque, el legatario inicia sesión en una sesión segura en un servidor y el servidor tiene sus propias credenciales de inicio de sesión en bienes protegidos. Los permisos permiten al legatario clasificar entre una variedad de estrategias de autorización y algoritmos para implementar esas estrategias.
Memoria y huellas
Memoria a corto plazo
Los LLM son motores de predicción de la ulterior palabra. Lo que los hace tan asombrosamente versátiles es que sus predicciones se basan en largas secuencias de palabras que ya han manido, conocidas como contexto. El contexto es, en sí mismo, una especie de memoria. Pero no es el único tipo que necesita un sistema agente.
Supongamos, nuevamente, que un agente está tratando de reservar un restaurante cerca de una sala de cine y, desde una útil de mapas, recupera un par de docenas de restaurantes en el interior de un radiodifusión de una milla. No quiere arrojar información sobre todos esos restaurantes al contexto del LLM: toda esa información superflua podría causar estragos en las probabilidades de la ulterior palabra.
En cambio, puede acumular la directorio completa en la memoria a corto plazo y recuperar uno o dos registros a la vez, basándose, por ejemplo, en el precio y las preferencias gastronómicas del legatario y su proximidad al cine. Si nadie de esos restaurantes funciona, el agente puede retornar a acudir a la memoria a corto plazo, en ocupación de tener que ejecutar otra emplazamiento a la útil.
Memoria a liberal plazo
Los agentes igualmente necesitan rememorar sus interacciones anteriores con sus clientes. Si la semana pasada le dije al agente de reservas del restaurante qué tipo de comida me gusta, no quiero tener que retornar a contárselo esta semana. Lo mismo ocurre con mi tolerancia al precio, el tipo de bullicio que busco, etc.
La memoria a liberal plazo permite al agente despabilarse lo que necesita conocer sobre conversaciones anteriores con el legatario. Sin retención, los agentes no suelen crear expresiones a liberal plazo por sí mismos. En cambio, una vez completada una sesión, toda la conversación pasa a un maniquí de IA independiente, que crea nuevos expresiones a liberal plazo o actualiza los existentes.
La creación de memoria puede implicar resúmenes y “fragmentaciones” de LLM, en las que los documentos se dividen en secciones agrupadas según el tema para solucionar su recuperación durante sesiones posteriores. Los sistemas disponibles permiten al legatario clasificar estrategias y algoritmos para recapitulación, fragmentación y otras técnicas de procedencia de información.
Observabilidad
Los agentes son un nuevo tipo de sistema de software y requieren nuevas formas de pensar en observar, monitorear y auditar su comportamiento. Algunas de las preguntas que hacemos le resultarán familiares: si los agentes funcionan lo suficientemente rápido, cuánto cuestan, cuántas llamadas a herramientas realizan y si los usuarios están contentos. Pero igualmente surgirán nuevas preguntas y no necesariamente podemos predecir qué datos necesitaremos para responderlas.
Las herramientas de observabilidad y seguimiento pueden proporcionar una clarividencia de extremo a extremo de la ejecución de una sesión con un agente, desglosando paso a paso qué acciones se tomaron y por qué. Para el creador de agentes, estos seguimientos son esencia para comprender qué tan adecuadamente están funcionando los agentes y proporcionar los datos para que funcionen mejor.
¡Espero que esta explicación haya desmitificado la IA agente lo suficiente como para que estés dispuesto a intentar crear tus propios agentes!






