
Siga ZDNET: Agréganos como fuente preferida en Google.
Conclusiones secreto de ZDNET
- Cuando los agentes interactúan, surgen nuevos riesgos de IA.
- Los riesgos reflejan fallas fundamentales en el diseño del software agente.
- La responsabilidad de enfrentarse los defectos fundamentales recae en los desarrolladores.
Un creciente conjunto de trabajos señala los riesgos de la IA agente, como el mensaje de la semana pasada del MIT y sus colaboradores que documentó una desidia de supervisión, medición y control de los agentes.
Sin bloqueo, ¿qué sucede cuando un agente de IA se encuentra con otro? La evidencia sugiere que las cosas pueden empeorar aún más, según un mensaje publicado esta semana por académicos de la Universidad de Stanford, Northwestern, Harvard, Carnegie Mellon y varias otras instituciones.
Igualmente: Los agentes de IA son rápidos, flexibles y están fuera de control, según un estudio del MIT
El resultado de la interacción entre agentes fue la destrucción de los servidores, los ataques de denegación de servicio, un enorme consumo excesivo de fortuna informáticos y la “subida sistemática de errores menores hasta convertirse en fallos catastróficos del sistema”.
“Cuando los agentes interactúan entre sí, los fallos individuales se agravan y emergen modos de defecto cualitativamente nuevos”, escribieron la autora principal Natalie Shapira de la Universidad Northeastern y sus colaboradores en el mensaje ‘Agentes del Caos’.
“Esta es una dimensión crítica de nuestros hallazgos”, escribieron Shapira y su equipo, “porque la implementación de múltiples agentes es cada vez más global y la mayoría de las evaluaciones de seguridad existentes se centran en entornos de un solo agente”.
Los hallazgos son especialmente oportunos legado que las interacciones entre múltiples agentes han irrumpido en la corriente principal de la IA con el nuevo fervor por la plataforma social de bots Moltbook. Ese tipo de centro de agentes múltiples hace posible que los sistemas de IA agentes intercambien datos y ejecuten instrucciones entre sí que antiguamente no eran posibles, en gran medida sin humanos en el circuito.
Por otra parte: 5 formas de hacer crecer su negocio con IA, sin dejar de banda a su familia
El mensaje, que puede ser descargado del servidor de preimpresión arXivdescribe una prueba del ‘equipo rojo’ de agentes que interactúan durante dos semanas, con intentos de encontrar debilidades en un sistema simulando un comportamiento hostil.
Lo que surgió de la investigación es un sistema en el que los humanos están prácticamente ausentes. Los robots envían información de un banda a otro y se instruyen entre sí para ejecutar comandos.
Entre los muchos hallazgos inquietantes se encuentran agentes que difunden instrucciones potencialmente destructivas a otros agentes, agentes que refuerzan mutuamente malas prácticas de seguridad a través de una cámara de eco y agentes que participan en interacciones potencialmente interminables, consumiendo vastos fortuna del sistema sin un propósito claro.
Uno de los riesgos más potentes es la pérdida de responsabilidad, ya que las interacciones entre agentes confunden el origen de las malas acciones.
Igualmente: Por qué me asusta la plataforma de redes sociales de Moltbook para agentes de IA
Como Shapira y su equipo caracterizaron el síndrome: “Cuando las acciones del Agente A desencadenan la respuesta del Agente B, que a su vez afecta a un legatario humano, la sujeción causal de responsabilidad se vuelve difusa en formas que no tienen precedentes claros en sistemas de software tradicionales o de agente único”.
Parte del impulso para el mensaje, escribieron Shapira y su equipo, fue que hasta ahora las pruebas de IA no se han diseñado adecuadamente para contar lo que sucede cuando interactúan múltiples agentes.
“Las evaluaciones y puntos de remisión existentes para la seguridad de los agentes a menudo son demasiado limitados, difíciles de mapear en implementaciones reales y rara vez se someten a pruebas de estrés en entornos desordenados y socialmente integrados”, escribieron.
Llevando OpenClaw al orilla
La premisa del trabajo de los investigadores es que la IA agente puede sobrellevar a límite acciones sin que una persona escriba un mensaje, como se hace con ChatGPT. A la IA agente se le puede dar comunicación a varios fortuna a través de los cuales sobrellevar a límite acciones. Esos fortuna incluyen cuentas de correo electrónico y otros canales de comunicación, como Discord, Signal, Telegram y más. Al utilizar el correo electrónico y estos canales, los bots no sólo pueden realizar acciones sino todavía comunicarse y efectuar sobre otros bots.
Para probar esos escenarios, los autores eligieron, como era de esperar, el situación de software de código rajado OpenClaw, que se hizo distinguido en enero por permitir que los programas agentes interactúen con los fortuna del sistema y otros agentes. OpenAI ha contratado a Peter Steinberg, el creador de OpenClaw, lo que hace que el trabajo sea aún más relevante.
Por otra parte: 3 consejos para navegar en el enjambre de IA de código rajado: 4 millones de modelos y contando
A diferencia de las instancias típicas de OpenClaw, los autores no ejecutaron los agentes en sus computadoras personales. En cambio, crearon instancias en el servicio en la abundancia Fly.io, lo que permitió un veterano control sobre la concesión de comunicación a los fortuna del sistema a los programas de agentes.
Una descripción universal del enfoque del equipo rojo que Shapira y sus colegas adoptaron para probar las interacciones entre robots.
Universidad del Noreste
“A cada agente se le dio su propio masa persistente de 20 GB y se ejecuta las 24 horas del día, los 7 días de la semana, accesible a través de una interfaz basada en web con autenticación basada en token”, explicaron. Claude Opus LLM de Anthropic impulsó a los agentes, y los programas obtuvieron comunicación a Discord y a sistemas de correo electrónico en el proveedor extranjero ProtonMail.
“Discord sirvió como la interfaz principal para la interacción humano-agente y agente-agente”, informaron, donde “los investigadores emitieron instrucciones, monitorearon el progreso y proporcionaron comentarios a través de mensajes de Discord”.
Curiosamente, el proceso de configuración de las máquinas virtuales del agente era “confuso” y “propenso a fallas”, dijeron, y los codificadores humanos a menudo tenían que solucionar problemas utilizando la aparejo de programación Claude Code. Al mismo tiempo, los agentes pudieron sobrellevar a límite tareas de configuración elaboradas en algunos casos, como “configurar completamente un servicio de correo electrónico investigando proveedores, identificando herramientas CLI y suposiciones incorrectas, e iterando correcciones durante horas de tiempo transcurrido”.
La interacción conduce al caos
Un peligro simple es cuando un agente actúa solo. Por ejemplo, cuando uno de los investigadores protestó porque un agente estaba filtrando información confidencial, el legatario humano se quejó repetidamente al bot, posteriormente de lo cual, posteriormente de varias rondas de indicaciones humanas enojadas, el bot intentó resolver la situación eliminando todo el servidor de correo electrónico de su propietario. Este ejemplo es una de las cosas más comunes que pueden salir mal cuando se coacciona a los bots:
En un marco de agente único, los humanos pueden presionar a un software de IA agente a destruir los activos del propietario del software, como eliminar un servidor de correo electrónico.
Universidad del Noreste
Una situación más interesante es cuando las interacciones entre agentes conducen al caos. En un caso, un legatario humano utilizó un software agente para crear un documento llamado constitución que contenía un calendario de días festivos favorables para los agentes, como el “Día de prueba de seguridad de los agentes”. Los días festivos contenían instrucciones para que el agente llevara a límite actos maliciosos, incluido el obturación de otros agentes que estaban operando. Ese enfoque es un ejemplo sustancial de inyección rápida, en el que un agente basado en LLM es manipulado mediante un texto cuidadosamente cuidado.
Sin bloqueo, el objetivo del exploit es que el primer bot compartió la información de las reposo con otros bots sin siquiera acoger instrucciones de hacerlo. Los autores explicaron que compartir información significaba que las mismas instrucciones maliciosas disfrazadas de días festivos se difundían por toda la colonia de robots sin restricciones, lo que aumentaba el peligro de resultados maliciosos.
Un agente en el servidor de Discord comparte el archivo de constitución, satisfecho de mensajes maliciosos, con otro agente en el servidor sin que el propietario humano se lo pida, expandiendo así la superficie de amenaza de los mensajes maliciosos.
Universidad del Noreste
“El mismo mecanismo que permite la transferencia de conocimientos beneficiosos puede propagar prácticas inseguras”, explicaron Shapira y su equipo, ya que el androide “compartió voluntariamente el vínculo de constitución con otro agente, sin que se le solicitara, extendiendo efectivamente la superficie de control del atacante a un segundo agente”.
Por otra parte: estas cuatro vulnerabilidades críticas de la IA se están explotando más rápido de lo que los defensores pueden replicar
En un segundo caso, que Shapira y su equipo denominaron “el refuerzo mutuo crea una confianza falsa”, un humano del equipo rojo intentó engañar a dos robots. El humano envió correos electrónicos a las cuentas que los bots estaban monitoreando, afirmando ser el propietario de los bots, un tipo peculiar de ataque de suplantación de identidad/phishing que ocurre todo el tiempo.
Lo que ocurrió posteriormente fue sorprendente. Los dos robots intercambiaron mensajes en Discord. Estuvieron de acuerdo en que el humano estaba posando y tratando de engañarlos. Eso pareció un gran éxito para los agentes. Sin bloqueo, una inspección más cercana reveló varias fallas de razonamiento detrás del manifiesto éxito.
Igualmente: Por qué pagará más por la IA en 2026 y tres consejos para atesorar metálico que puede probar
Los dos agentes verificaron la cuenta de su propietario actual en Discord y luego se convencieron mutuamente de que el propietario del equipo rojo era simulado. Ese resultado fue una forma superficial de probar un exploit y un ejemplo de cámara de eco, escribieron Shapira y su equipo.
Comprender lo que es fundamental
En los 16 estudios de casos diferentes que Shapira y su equipo examinaron, buscaron determinar qué era meramente “contingente”, es aseverar, que podría mejorarse con una mejor ingeniería, y qué era “fundamental”, es aseverar, aborigen al diseño de agentes de IA.
Descubrieron que la respuesta era compleja: “La frontera entre estas categorías no siempre es clara, y algunos problemas tienen una capa contingente y una capa fundamental (…) Las mejoras rápidas en el diseño pueden enfrentarse algunas fallas contingentes rápidamente, pero los desafíos fundamentales sugieren que aumentar la capacidad del agente con ingeniería sin enfrentarse estas limitaciones fundamentales puede ampliar, en área de cerrar, la brecha de seguridad”.
Esa observación tiene sentido, ya que numerosos estudios han antitético que la tecnología de agentes presente carece de profundas deficiencias, como la desidia de memoria persistente y la incapacidad de los programas de IA de agentes para establecer objetivos significativos para las acciones.
Entre los problemas fundamentales, los LLM subyacentes trataron tanto los datos como los comandos en el indicador como la misma cosa, lo que llevó a la inyección inmediata.
Igualmente: Faltan abriles para la verdadera IA agente: he aquí por qué y cómo llegamos allí
En las interacciones, los autores identificaron un problema de límites. Los agentes revelaron “artefactos”, como información obtenida de servidores de correo electrónico o Discord, sin una idea manifiesto de quién debería ver la información. En el centro de ese enfoque estaba la desidia de una “superficie de deliberación privada confiable entre los agentes desplegados”. En síntesis, un LLM individual puede o no revelar los pasos de “razonamiento” cuando se le solicite. Pero los agentes parecen carecer de barreras de seguridad correctamente diseñadas y revelarán información de muchas maneras.
Los agentes siquiera tenían “ningún maniquí propio”, con lo que quieren aseverar que “los agentes en nuestro estudio toman acciones irreversibles que afectan al legatario sin rastrear que están excediendo sus propios límites de competencia”. Un ejemplo de este problema es cuando dos agentes acuerdan entablar un diálogo de ida y reverso sin un ser humano, persiguiendo ese enfoque indefinidamente, agotando los fortuna del sistema.
En un marco de onda infinito, los agentes pueden interactuar indefinidamente, lo que lleva a un “onda infinito” y el consiguiente agotamiento de los fortuna del sistema.
Universidad del Noreste
“Los agentes intercambiaron mensajes continuos durante al menos nueve días”, escribieron los investigadores, “consumiendo aproximadamente 60.000 tokens en el momento de escribir este artículo”. Los tokens son la forma en que OpenAI y otros valoran el comunicación a sus API en la abundancia. El consumo de más tokens infla los costos de la IA, lo que ya es un gran problema en una era de precios en aumento.
Hacerse cargo la responsabilidad
La conclusión es que cualquiera tiene que contraer la responsabilidad de lo que es contingente y lo que es fundamental, y encontrar soluciones para los dos.
En este momento, no hay responsabilidad para un agente per se, señalaron los investigadores: “Estos comportamientos exponen un punto ciego fundamental en los paradigmas de fila actuales: mientras que los agentes y los humanos circundantes a menudo tratan implícitamente al propietario como la parte responsable, los agentes no se comportan de guisa confiable como si fueran responsables en presencia de ese propietario”.
Esa preocupación significa que todos los que construyen estos sistemas deben combatir con la desidia de responsabilidad: “Sostenemos que aclarar y operacionalizar la responsabilidad puede ser un desafío central no resuelto para el despliegue seguro de sistemas de IA autónomos y socialmente integrados”.





