
Takeaways de interruptor de ZDNET
- Anthrope lanzó Claude Opus 4.1.
- El maniquí excede el rendimiento del predecesor en tareas complejas.
- Está apto para usuarios de Claude pagados, Claude Code, API, Amazon Bedrock y Vertex AI de Google Cloud.
En mayo, Anthrope liberó a Claude Opus 4, que la compañía denominó su maniquí más poderoso hasta ahora y el mejor maniquí de codificación del mundo. Solo tres meses luego, Anthrope está aumentando más al divulgar el muy esperado Claude Opus 4.1, que ahora toma la corona de su predecesor como el maniquí más liberal de Anthrope.
La comunidad de modelos Opus es los modelos de IA más avanzados e inteligentes de la compañía orientados a tocar problemas complejos. Como resultado, Claude Opus 4.1, decidido el martes, sobresale en esas tareas e incluso puede exceder a su predecesor en tareas de agente, codificación del mundo positivo y razonamiento, según Anthrope.
El maniquí además se produce cuando la industria dilación el tiro del GPT-5 de OpenAI en pronto.
Adicionalmente: OpenAi podría divulgar GPT -5 en cualquier momento, qué esperar
¿Cómo funciona Claude Opus 4.1?
Uno de los casos de uso más impresionantes de Claude Opus 4 fue su rendimiento en el Bandada SWE verificado, un subconjunto filtrado por humanos del Bench SWE, un punto de remisión que evalúa las habilidades de LLMS para resolver tareas de ingeniería de software del mundo positivo de Github. El rendimiento de Claude Opus 4 en el Bench Verified verificado respaldó la afirmación de que era el “mejor maniquí de codificación del mundo”. Como se ve en la publicación precursor, Opus 4.1 funcionó aún más suspensión.
Claude Opus 4.1 además barrió sus modelos anteriores en la placa de remisión, incluido el MMMLU, que prueba las capacidades multilingües; AIME 2025, que prueba el rigor en las preguntas de la competencia de partidos de secundaria; GPQA, que prueba el rendimiento en las indicaciones de razonamiento a nivel de posgrado; y más. Cuando se fijó contra los modelos de razonamiento de la competencia, incluidos OpenAI O3 y Gemini 2.5 Pro, los supera en varios puntos de remisión, incluido el bancos SWE verificado.
Con el tiro, Anthrope además publicó su plástico del sistemaque delinea todas las evaluaciones y evaluaciones de seguridad que realizó en el maniquí, así como sus debilidades, riesgos y limitaciones. Una visión caudillo rápida del documento de 22 páginas muestra que el maniquí se implementó con un tipificado de nivel de seguridad de IA (ASL-3) bajo la Política de Escalera Responsable (RSP) de Anthrope, y todavía es propenso a la mayoría de las mismas vulnerabilidades.
¿Cómo puedes consentir a Claude Opus 4.1?
Si desea probar el maniquí por sí mismo, ahora está apto para todos a través de los planes de Claude pagados, que incluyen Claude Pro por $ 20 por mes y Claude Max por $ 100 por mes. Está apto en Claude Code, la API, Amazon Bedrock y el Vertex AI de Google Cloud.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.





