
Cuando un agente de IA invitado un sitio web, es esencialmente un turista que no acento el idioma regional. Ya sea que esté construido sobre LangChain, Claude Code o el cada vez más popular entorno OpenClaw, el agente se reduce a adivinar qué recadero presionar: rozar HTML sin procesar, destinar capturas de pantalla a modelos multimodales y malgastar miles de tokens solo para descubrir dónde está una mostrador de búsqueda.
Esa era puede estar terminando. A principios de esta semana, el equipo de Google Chrome lanzó WebMCP – Protocolo de contexto de maniquí web: como panorámica previa temprana en Chrome 146 Canary. WebMCP, que fue desarrollado conjuntamente por ingenieros de Google y Microsoft e incubado a través del W3C Especie comunitario de formación instintivo webes un unificado web propuesto que permite que cualquier sitio web exponga herramientas estructuradas y ejecutables directamente a agentes de IA a través de una nueva API del navegador: navigator.modelContext.
Las implicaciones para la TI empresarial son significativas. En puesto de crear y apoyar servidores MCP back-end separados en Python o Node.js para conectar sus aplicaciones web a plataformas de IA, los equipos de crecimiento ahora pueden integrar su dialéctica JavaScript del flanco del cliente existente en herramientas legibles por los agentes, sin privación de retornar a diseñar una sola página.
Los agentes de IA son turistas caros y frágiles en la web
Cualquiera que los haya implementado a escalera comprende acertadamente los problemas de costo y confiabilidad con los enfoques actuales para la interacción entre agentes web y agentes de navegador. Los dos métodos dominantes (el raspado visual de la pantalla y el disección DOM) adolecen de ineficiencias fundamentales que afectan directamente los presupuestos empresariales.
Con enfoques basados en capturas de pantalla, los agentes pasan imágenes a modelos multimodales (como Claude y Gemini) y esperan que el maniquí pueda identificar no sólo lo que hay en la pantalla, sino además dónde se encuentran los recadero, campos de formulario y instrumentos interactivos. Cada imagen consume miles de tokens y puede tener una latencia prolongada. Con los enfoques basados en DOM, los agentes ingieren HTML y JavaScript sin procesar, un verbo extranjero saciado de diversas etiquetas, reglas CSS y traumatizado estructural que es irrelevante para la tarea en cuestión pero que aún consume espacio de ventana de contexto y costo de inferencia.
En los dos casos, el agente está traduciendo entre para qué fue diseñado el sitio web (fanales humanos) y lo que necesita el maniquí (datos estructurados sobre las acciones disponibles). Una búsqueda de un solo producto que un ser humano completa en segundos puede requerir docenas de interacciones secuenciales de agentes (hacer clic en filtros, desplazarse por páginas, analizar resultados), cada una de las cuales es una citación de inferencia que agrega latencia y costo.
Cómo funciona WebMCP: dos API, un unificado
WebMCP propone dos API complementarias que sirven como puente entre los sitios web y los agentes de IA.
El API declarativa maneja acciones unificado que se pueden detallar directamente en formularios HTML existentes. Para organizaciones con formas acertadamente estructuradas que ya están en producción, este camino requiere un trabajo adicional reducido; Al añadir nombres de herramientas y descripciones al traumatizado de formularios existentes, los desarrolladores pueden hacer que los agentes puedan avisar a esos formularios. Si sus formularios HTML ya están limpios y acertadamente estructurados, probablemente ya haya itinerario el 80% del camino.
El API imperativa maneja interacciones más complejas y dinámicas que requieren la ejecución de JavaScript. Aquí es donde los desarrolladores definen esquemas de herramientas más completos, conceptualmente similares a las definiciones de herramientas enviadas a los puntos finales de OpenAI o Anthropic API, pero que se ejecutan completamente en el flanco del cliente en el navegador. A través de RegisterTool(), un sitio web puede exponer funciones como searchProducts (consulta, filtros) u orderPrints (copias, tamaño de página) con esquemas de parámetros completos y descripciones en verbo natural.
La idea esencia es que una sola citación a una útil a través de WebMCP puede reemplazar lo que podrían deber sido docenas de interacciones de uso del navegador. Un sitio de comercio electrónico que registra una útil searchProducts permite al agente realizar una citación a una función estructurada y aceptar resultados JSON estructurados, en puesto de que el agente haga clic en los menús desplegables de filtros, se desplace por los resultados paginados y haga una captura de pantalla de cada página.
El caso empresarial: costo, confiabilidad y el fin del raspado frágil
Para los tomadores de decisiones de TI que evalúan implementaciones de IA agente, WebMCP aborda tres puntos débiles persistentes simultáneamente.
Reducción de costos es el beneficio cuantificable más inmediatamente. Al reemplazar secuencias de capturas de pantalla, llamadas de inferencia multimodal y disección DOM iterativo con llamadas de herramientas estructuradas únicas, las organizaciones pueden esperar reducciones significativas en el consumo de tokens.
Fiabilidad progreso porque los agentes ya no tienen que adivinar la estructura de la página. Cuando un sitio web publica explícitamente un pacto de útil: "aquí están las funciones que admito, aquí están sus parámetros, esto es lo que devuelven" — el agente opera con certeza en puesto de inferencia. Las interacciones fallidas oportuno a cambios en la interfaz de beneficiario, carga dinámica de contenido o identificación de instrumentos ambiguos se eliminan en gran medida para cualquier interacción cubierta por una útil registrada.
Velocidad de crecimiento se acelera porque los equipos web pueden usar su JavaScript front-end existente en puesto de utilizar una infraestructura backend separada. La determinación enfatiza que cualquier tarea que un beneficiario pueda realizar a través de la interfaz de beneficiario de una página se puede convertir en una útil reutilizando gran parte del código JavaScript existente de la página. Los equipos no necesitan educarse nuevos marcos de servidores ni apoyar superficies API separadas para los consumidores de agentes.
Humano en el circuito por diseño, no una ocurrencia tardía
Una valentía arquitectónica crítica separa a WebMCP del muestra de agente totalmente autónomo que ha dominado los titulares recientes. El unificado está diseñado explícitamente en torno a flujos de trabajo cooperativos y con billete humana, no en automatización no supervisada.
Según Khushal Sagar, ingeniero de software de Chrome, la determinación WebMCP identifica tres pilares que sustentan esta filosofía.
-
Contexto: Todos los agentes de datos deben comprender lo que está haciendo el beneficiario, incluido el contenido que a menudo no está visible en la pantalla.
-
Capacidades: acciones que el agente puede realizar en nombre del beneficiario, desde objetar preguntas hasta completar formularios.
-
Coordinación: Controlar el traspaso entre beneficiario y agente cuando el agente encuentra situaciones que no puede resolver de forma autónoma.
Los autores de la determinación en Google y Microsoft ilustran esto con un tablas de compras: una usuaria citación Maya le pide a su asistente de inteligencia industrial que le ayude a encontrar un vestido ecológico para una boda. El agente sugiere proveedores, abre un navegador en un sitio de vestimenta y descubre que la página expone herramientas WebMCP como getDresses() y showDresses(). Cuando los criterios de Maya van más allá de los filtros básicos del sitio, el agente fogata a esas herramientas para obtener datos del producto, utiliza su propio razonamiento para filtrar "traje de cóctel apropiado," y luego fogata a showDresses() para renovar la página solo con los resultados relevantes. Es un circuito fluido de elegancia humano y capacidad de los agentes, exactamente el tipo de navegación colaborativa para la que WebMCP está diseñado.
Este no es un unificado de navegación sin capital. El La determinación establece explícitamente que los escenarios sin capital y totalmente autónomos no son objetivos. Para esos casos de uso, los autores señalan protocolos existentes como el protocolo Agente a Agente (A2A) de Google. WebMCP negociación sobre el navegador, donde el beneficiario está presente, observa y colabora.
No es un sustituto de MCP, sino un complemento.
WebMCP no reemplaza el protocolo de contexto maniquí de Anthropic, a pesar de compartir un categoría conceptual y una parte de su nombre. No sigue la determinación JSON-RPC que utiliza MCP para la comunicación cliente-servidor. Mientras que MCP opera como un protocolo de back-end que conecta plataformas de inteligencia industrial con proveedores de servicios a través de servidores alojados, WebMCP opera completamente en el flanco del cliente interiormente del navegador.
La relación es complementaria. Una empresa de viajes podría apoyar un servidor MCP back-end para integraciones API directas con plataformas de inteligencia industrial como ChatGPT o Claude, al mismo tiempo que implementa herramientas WebMCP en su sitio web orientado al consumidor para que los agentes basados en navegador puedan interactuar con su flujo de reservas en el contexto de la sesión activa de un beneficiario. Los dos estándares sirven a diferentes patrones de interacción sin conflicto.
La distinción es importante para los arquitectos empresariales. Las integraciones de MCP back-end son apropiadas para la automatización de servicio a servicio donde no se necesita la interfaz de beneficiario del navegador. WebMCP es apropiado cuando el beneficiario está presente y la interacción se beneficia del contexto visual compartido, que describe la mayoría de las interacciones web orientadas al consumidor que interesan a las empresas.
Lo que viene luego: de la bandera al unificado
WebMCP está actualmente acondicionado en Chrome 146 Canary detrás del "WebMCP para pruebas" bandera en chrome://flags. Los desarrolladores pueden unirse al Software de panorámica previa anticipada de Chrome para penetrar a documentación y demostraciones. Otros navegadores aún no han anunciado cronogramas de implementación, aunque la coautoría activa de Microsoft de la determinación sugiere que es probable que se admita Edge.
Los observadores de la industria esperan anuncios formales sobre navegadores para mediados o finales de 2026, con Google Cloud Next y Google I/O como lugares probables para anuncios de implementación más amplios. La determinación está pasando de una incubación comunitaria interiormente del W3C a un proyecto formal, un proceso que históricamente lleva meses pero que indica un compromiso institucional serio.
La comparación que ha hecho Sagar es instructiva: WebMCP pretende convertirse en el USB-C de las interacciones de los agentes de IA con la web. Una interfaz única y estandarizada a la que cualquier agente puede conectarse, reemplazando la coetáneo maraña de estrategias de scraping personalizadas y frágiles scripts de automatización.
Que esa visión se haga sinceridad depende de la asimilación, tanto por parte de los proveedores de navegadores como de los desarrolladores web. Pero con Google y Microsoft enviando código conjuntamente, el W3C proporcionando un andamio institucional y Chrome 146 ya ejecutando la implementación detrás de una bandera, WebMCP ha superado el obstáculo más difícil que enfrenta cualquier unificado web: acontecer de una propuesta a un software práctico.






