
antrópico el martes libre Soneto de Claudio 4.6un maniquí que equivale a un evento sísmico de revisión de precios para la industria de la IA. Ofrece inteligencia casi emblemática a un costo medio y aterriza de empachado en medio de una prisa corporativa sin precedentes por implementar agentes de inteligencia químico y herramientas de codificación automatizadas.
El maniquí es una modernización completa en codificación, uso de computadoras, razonamiento de contexto derrochador, planificación de agentes, trabajo de conocimiento y diseño. Cuenta con una ventana de contexto de token de 1 millón en traducción beta. Ahora es el maniquí predeterminado en claude.ai y Claude Coworky el precio se mantiene estable en $3/$15 por millón de tokens, el mismo que el de su predecesor, Sonnet 4.5.
Ese detalle de precios es el titular que más importa. El buque insignia de Anthropic Los modelos Opus cuestan entre 15 y 75 dólares por millón de tokens — cinco veces el precio del Sonnet. Sin requisa, el rendimiento que anteriormente habría requerido alcanzar un maniquí de clase Opus, incluso en tareas de oficina económicamente valiosas del mundo vivo, ahora está habitable con Sonnet 4.6. Para las miles de empresas que ahora implementan agentes de IA que realizan millones de llamadas API por día, esas matemáticas lo cambian todo.
Por qué el coste de ejecutar agentes de IA a escalera acaba de caer drásticamente
Para comprender el significado de esta libramiento, es necesario comprender el momento en que llega. El año pasado estuvo dominado por el aberración idéntico de "codificación de vibraciones" y IA agente. Claude Code, la útil terminal de Anthropic para desarrolladores, se ha convertido en una fuerza cultural en Silicon Valley, donde los ingenieros crean aplicaciones completas a través de conversaciones en estilo natural. El New York Times perfiló su meteórico progreso en enero. The Verge declaró recientemente que Claude Code está teniendo un serio impacto "momento." Mientras tanto, OpenAI ha estado librando su propia ataque con aplicaciones de escritorio Codex y chips de inferencia más rápidos.
El resultado es una industria donde los modelos de IA ya no se evalúan de forma aislada. Se evalúan como motores en el interior de agentes autónomos: sistemas que funcionan durante horas, realizan miles de llamadas a herramientas, escriben y ejecutan código, navegan por navegadores e interactúan con software empresarial. Cada dólar desgastado por millón de tokens se multiplica entre esas miles de llamadas. A escalera, la diferencia entre 15 y 3 dólares por millón de tokens de entrada no es incremental. Es transformador.
La tabla de remisión publicada por Anthropic muestra un panorama sorprendente. En SWE-bench Verificadola prueba unificado de la industria para codificación de software del mundo vivo, Sonnet 4.6 obtuvo una puntuación del 79,6%, casi igualando el 80,8% de Opus 4.6. Sobre el uso agente de la computadora (OSWorld-Verified), Sonnet 4.6 obtuvo un 72,5%, esencialmente empatado con el 72,7% de Opus 4.6. En tareas de oficina (PIBval-AA Elo), Sonnet 4.6 en efectividad obtuvo 1633, superando los 1606 de Opus 4.6. En el prospección financiero agente, Sonnet 4.6 alcanzó un 63,3%, superando a todos los modelos en la comparación, incluido Opus 4.6 con un 60,1%.
Éstas no son diferencias marginales. En muchas de las categorías que más interesan a las empresas, Soneto 4.6 coincide o supera a modelos cuyo funcionamiento cuesta cinco veces más. Anteriormente, una empresa que ejecutaba un agente de IA que procesa 10 millones de tokens por día se veía obligada a nominar entre resultados inferiores a un costo último o resultados superiores a un costo que aumentaba rápidamente. Sonnet 4.6 elimina en gran medida esa compensación.
En Código Claudelas primeras pruebas encontraron que los usuarios preferían Soneto 4.6 sobre Sonnet 4.5 aproximadamente el 70% del tiempo. Los usuarios incluso prefirieron Sonnet 4.6 a Opus 4.5, el maniquí fronterizo de Anthropic de noviembre, el 59% de las veces. Calificaron a Sonnet 4.6 como significativamente menos propenso a un exceso de ingeniería y "desidia," y significativamente mejor en el seguimiento de instrucciones. Informaron menos afirmaciones falsas de éxito, menos alucinaciones y un seguimiento más consistente de tareas de varios pasos.
Cómo las habilidades de Claude para usar la computadora pasaron de ser “experimentales” a casi humanas en 16 meses
Una de las historias más dramáticas del dispersión es el progreso de Anthropic en el uso de computadoras: la capacidad de una IA para ejecutar una computadora como lo hace un humano, haciendo clic con el mouse, escribiendo en un teclado y navegando con software que carece de API modernas.
Cuando Anthropic introdujo esta capacidad por primera vez en octubre de 2024, la empresa reconoció que era "todavía empírico, a veces engorroso y propenso a errores." Desde entonces, las cifras cuentan una historia importante: en OSWorldClaude Sonnet 3.5 obtuvo un 14,9% en octubre de 2024. Sonnet 3.7 alcanzó un 28,0% en febrero de 2025. Sonnet 4 alcanzó un 42,2% en junio. Sonnet 4.5 subió hasta el 61,4% en octubre. Ahora Sonnet 4.6 ha cogido el 72,5%, casi cinco veces más en 16 meses.
Esto es importante porque el uso de la computadora es la capacidad que desbloquea el conjunto más amplio de aplicaciones empresariales para los agentes de IA. Casi todas las organizaciones tienen software heredado (portales de seguros, bases de datos gubernamentales, sistemas ERP, herramientas de programación hospitalaria) que se creó antaño de que existieran las API. Un maniquí que puede simplemente mirar una pantalla e interactuar con ella abre todo esto a la automatización sin carencia de construir conectores personalizados.
Jamie Cuffe, director ejecutante de Pace, dijo que Sonnet 4.6 alcanzó el 94% en su punto de remisión de uso de computadoras de seguros complejos, el más stop de cualquier maniquí de Claude probado. "Razona a través de errores y se autocorrige de maneras que no hemos conocido antaño." Cuffe dijo en un comunicado enviado a VentureBeat. Will Harvey, cofundador de Convey, lo llamó "una clara perfeccionamiento con respecto a cualquier otra cosa que hayamos probado en nuestras evaluaciones."
Igualmente llamó la atención la dimensión de seguridad del uso de la computadora. Anthropic señaló que el uso de la computadora plantea riesgos de inyección inmediata (actores maliciosos que ocultan instrucciones en sitios web para secuestrar el maniquí) y dijo que sus evaluaciones muestran que Sonnet 4.6 es una perfeccionamiento importante con respecto a Sonnet 4.5 en la resistor a tales ataques. Para las empresas que implementan agentes que navegan por la web e interactúan con sistemas externos, ese refuerzo no es opcional.
Los clientes empresariales dicen que el maniquí cierra la brecha entre los niveles de precios de Sonnet y Opus
La reacción de los clientes ha sido inusualmente específica sobre la dinámica costo-rendimiento. Varios de los primeros evaluadores describieron explícitamente que Sonnet 4.6 eliminaba la carencia de alcanzar el nivel Opus, más caro.
Caitlin Colgrove, CTO de Hex Technologies, dijo que la compañía está trasladando la veterano parte de su tráfico a Soneto 4.6señalando que con pensamiento adaptativo y gran esfuerzo, "Vemos un rendimiento de nivel Opus en todas las tareas analíticas, excepto en las más difíciles, con un perfil más competente y flexible. Con el precio de Sonnet, es una atrevimiento acomodaticio para nuestras cargas de trabajo."
Ben Kus, CTO de Box, dijo que el maniquí superó a Sonnet 4.5 en preguntas y respuestas de razonamiento intenso en 15 puntos porcentuales en documentos empresariales reales. Michele Catasta, presidente de Replit, calificó la relación rendimiento-coste "extraordinario." Ryan Wiggins, de Mercury Banking, lo expresó de guisa más directa: "Claude Sonnet 4.6 es más rápido, más saldo y tiene más probabilidades de alcanzar resultados en el primer intento. Esa combinación fue una combinación sorprendente de mejoras y no esperábamos verla a este precio."
Las mejoras en la codificación resuenan particularmente cedido el dominio de Claude Code en el mercado de herramientas para desarrolladores. David Loker, vicepresidente de IA de CodeRabbit, dijo que el maniquí "golpea muy por encima de su categoría de peso para la gran mayoría de las relaciones públicas del mundo vivo." Leo Tchourakov de Factory AI dijo que el equipo está "haciendo la transición de nuestro tráfico de Sonnet a este maniquí." El vicepresidente de producto de GitHub, Joe Binder, confirmó que el maniquí es "ya sobresale en correcciones de código complejas, especialmente cuando es esencial averiguar en grandes bases de código."
Brendan Falk, fundador y director ejecutante de Hercules, fue más allá: "Claude Sonnet 4.6 es el mejor maniquí que hemos conocido hasta la momento. Tiene precisión de nivel Opus 4.6, seguimiento de instrucciones e interfaz de heredero, todo por un costo significativamente último."
Una competencia empresarial simulada revela cómo los agentes de IA planifican durante meses, no en minutos
Enterrada en los detalles técnicos hay una capacidad que da pistas sobre en torno a dónde se dirigen los agentes autónomos de IA. La ventana de contexto de token de 1 millón de Sonnet 4.6 puede contener bases de código completas, contratos extensos o docenas de artículos de investigación en una sola solicitud. Anthropic dice que el maniquí razona eficazmente en todo ese contexto, una afirmación que la empresa demostró a través de una evaluación inusual.
El Arena del cárcel expendedor prueba qué tan correctamente un maniquí puede ejecutar un negocio simulado a lo derrochador del tiempo, con diferentes modelos de IA compitiendo entre sí para obtener las mayores ganancias. Sin indicaciones humanas, Soneto 4.6 desarrolló una táctica novedosa: invirtió fuertemente en capacidad durante los primeros diez meses simulados, gastando significativamente más que sus competidores, y luego dio un letra súbito para centrarse en la rentabilidad en el tramo final. El maniquí finalizó su simulación de 365 días con un saldo de aproximadamente $5,700, en comparación con los aproximadamente $2,100 del Sonnet 4.5.
Este tipo de planificación estratégica de varios meses, ejecutada de forma autónoma, representa una capacidad cualitativamente diferente a la de objetar preguntas o crear fragmentos de código. Es el tipo de razonamiento a derrochador plazo que hace que los agentes de IA sean viables para operaciones comerciales reales y ayuda a explicar por qué Anthropic está posicionando a Sonnet 4.6 no solo como una modernización de chatbot, sino como el motor de una nueva engendramiento de sistemas autónomos.
Sonnet 4.6 de Anthropic llega a medida que la compañía se expande a los mercados empresariales y de defensa
Este dispersión no llega de la mínimo. Anthropic se encuentra en medio de la destello más importante de su historia y el panorama competitivo se está intensificando en todos los frentes.
El mismo día de este dispersión, TechCrunch informó que el coloso indio de TI Infosys anunció una asociación con Anthropic para construir agentes de IA de nivel empresarial, integrando los modelos de Claude en la plataforma Topaz AI de Infosys para banca, telecomunicaciones y manufactura. El director ejecutante de Anthropic, Dario Amodei, dijo a TechCrunch que sí lo hay "una gran brecha entre un maniquí de IA que funciona en una demostración y uno que funciona en una industria regulada," y que Infosys ayude a superarlo. TechCrunch incluso informó que Anthropic abrió su primera oficina en India en Bengaluru, y que India ahora representa cerca de del 6% del uso integral de Claude, solo superada por los EE. UU. La compañía, que CNBC informó, está valorada en $183 mil millonesha estado ampliando rápidamente su presencia empresarial.
Mientras tanto, la presidenta de Anthropic, Daniela Amodei, dijo a ABC News la semana pasada que la IA permitiría especializarse en humanidades. "más importante que nunca," argumentando que las habilidades de pensamiento crítico se volverían más valiosas a medida que los modelos de estilo grandes dominen el trabajo técnico. Es el tipo de explicación que hace una empresa cuando cree que su tecnología está a punto de remodelar categorías enteras de empleo oficinista.
El panorama competitivo para Soneto 4.6 incluso es destacable. El maniquí supera al Gemini 3 Pro de Google y al GPT-5.2 de OpenAI en múltiples puntos de remisión. GPT-5.2 está a la trasera en el uso de computadoras con agentes (38,2 % frente a 72,5 %), búsqueda con agentes (77,9 % frente a 74,7 % para la puntuación no Pro de Sonnet 4.6) y prospección financiero con agentes (59,0 % frente a 63,3 %). Gemini 3 Pro muestra un desempeño competitivo en razonamiento visual y puntos de remisión multilingües, pero se queda detrás en las categorías de agentes donde la inversión empresarial está aumentando.
Es posible que la conclusión más amplia no se refiera a un solo maniquí. Se prostitución de lo que sucederá cuando la inteligencia de clase Opus esté habitable por unos pocos dólares por millón de tokens en espacio de unas pocas decenas de dólares. Las empresas que estaban probando cautelosamente agentes de IA con implementaciones pequeñas ahora enfrentan un cálculo de costos fundamentalmente diferente. Los agentes que en enero eran demasiado caros para funcionar de forma continua, de repente se vuelven asequibles en febrero.
Soneto de Claudio 4.6 ya está habitable en todos los planes de Claude, Claude Cowork, Claude Code, API y todas las principales plataformas en la abundancia. Anthropic incluso ha actualizado su nivel regalado a Sonnet 4.6 de forma predeterminada. Los desarrolladores pueden alcanzar a él inmediatamente usando claude-sonnet-4-6 a través de la API de Claude.






