Anthrope Avtaunds OpenAI: Claude Opus 4 codifica siete horas sin detener, establece registrar la puntuación SWE-Bench y reestructurar Enterprise AI

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

Antrópico descocado Trabajo cerrado 4 y Soneto de Claude 4 Hoy, elevando drásticamente el franja para lo que AI puede obtener sin intervención humana.

El buque insignia de la compañía Maniquí OPUS 4 Se mantuvo el enfoque en un enrevesado tesina de refactorización de código rajado durante casi siete horas durante las pruebas en Racutín -Un avance que transforma la IA de una aparejo de respuesta rápida en un colaborador acreditado capaz de chocar proyectos de un día.

Este rendimiento del maratón marca un brinco cuántico más allá de los minutos de atención de los minutos de AI anteriores. Las implicaciones tecnológicas son profundas: los sistemas de inteligencia industrial ahora pueden manejar proyectos complejos de ingeniería de software desde la concepción hasta la finalización, manteniendo el contexto y el enfoque durante toda una etapa sindical.

Reclamos antrópicos Trabajo cerrado 4 ha acabado un puntaje del 72.5% en SWE Benchun riguroso punto de remisión de ingeniería de software, superando a Operai’s GPT-4.1que obtuvo un 54.6% cuando se lanzó en abril. El logro establece antrópico como un retador formidable en el mercado de IA cada vez más ahíto de muchedumbre.

Los puntos de remisión comparativos muestran los modelos Claude 4 (izquierda) superan a los competidores de rendimiento a través de tareas de codificación y razonamiento, con Claude Opus 4 logrando un puntaje del 72.5% en la prueba crítica de SWE-Bench. (Crédito: antrópico)

Más allá de las respuestas rápidas: la revolución del razonamiento transforma la IA

La industria de la IA ha girado dramáticamente alrededor de los modelos de razonamiento en 2025. Estos sistemas trabajan a través de problemas metódicamente antaño de reponer, simulando procesos de pensamiento similares a los humanos en circunscripción de simplemente coincidir con los datos de capacitación.

Operai inició este cambio con su Serie “O” en diciembre pasado, seguido de Google’s Géminis 2.5 Pro con su real “Pensar profundamente“Capacidad. Deepseek’s Maniquí R1 inesperadamente capturado cuota de mercado con sus excepcionales capacidades de resolución de problemas a un precio competitivo.

Este pivote señala una proceso fundamental en cómo las personas usan la IA. Según Poe’s Primavera 2025 Tendencias de uso del maniquí AI Mensaje, el uso del maniquí de razonamiento aumentó cinco veces en solo cuatro meses, creciendo del 2% al 10% de todas las interacciones de IA. Los usuarios ven cada vez más a la IA como un socio de pensamiento para problemas complejos en circunscripción de un sistema simple de respuesta y respuesta.

La proporción de mensajes de razonamiento aumentó a principios de 2025 a medida que los nuevos modelos de IA capturaron el interés del favorecido. (Crédito: Poe)

Los nuevos modelos de Claude se distinguen integrando Uso de la aparejo directamente en su proceso de razonamiento. Este enfoque simultáneo de investigación y raza refleja la cognición humana más estrechamente que los sistemas anteriores que reunieron información antaño de comenzar el observación. La capacidad de hacer una pausa, averiguar datos e incorporar nuevos hallazgos durante el proceso de razonamiento crea una experiencia de resolución de problemas más natural y efectiva.

Velocidad de la inmueble de modo dual con profundidad

Anthrope ha abordado un punto de fricción persistente en la experiencia de favorecido de IA con su enfoque híbrido. Los dos modelos Claude 4 ofrecen respuestas casi instantes para consultas directas y pensamiento extendido para problemas complejos, eliminando los retrasos frustrantes de los modelos de razonamiento anteriores impuestos incluso en preguntas simples.

Esta funcionalidad de doble modo conserva las interacciones ágiles que esperan los usuarios mientras desbloquean capacidades analíticas más profundas cuando sea necesario. El sistema asigna dinámicamente posibles de pensamiento en función de la complejidad de la tarea, logrando un consistencia que los modelos de razonamiento anteriores no lograron.

Persistencia de la memoria se erige como otro avance. Los modelos Claude 4 pueden extraer información esencia de los documentos, crear archivos de prontuario y abastecer este conocimiento en todas las sesiones cuando se les dan permisos apropiados. Esta capacidad resuelve el “problema de amnesia” que ha establecido la utilidad de la IA en proyectos de larga duración donde el contexto debe mantenerse durante días o semanas.

La implementación técnica funciona de modo similar a la forma en que los expertos humanos desarrollan sistemas de administración del conocimiento, con la IA organizando automáticamente la información en formatos estructurados optimizados para la recuperación futura. Este enfoque permite a Claude construir una comprensión cada vez más refinada de dominios complejos durante períodos de interacción extendidos.

El momento del anuncio de Anthrope destaca el ritmo acelerado de la competencia en AI Descubierta. Solo cinco semanas luego de que Operai lanzó su GPT-4.1 ComunidadAnthrope ha contrarrestado con modelos que lo desafían o lo superan en métricas esencia. Google actualizó su Alineamiento de Géminis 2.5 A principios de este mes, mientras que Meta lanzó recientemente su Ardor 4 modelos Con capacidades multimodales y una ventana de contexto de 10 millones de tokens.

Cada laboratorio importante ha forjado fortalezas distintivas en este mercado cada vez más especializado. Operai dirige a razonamiento universal y Integración de herramientasGoogle sobresale en comprensión multimodaly Anthrope ahora reclama la Corona para el rendimiento sostenido y las aplicaciones de codificación profesional.

Las implicaciones estratégicas para los clientes empresariales son significativas. Las organizaciones ahora enfrentan decisiones cada vez más complejas sobre qué sistemas de IA se implementarán para casos de uso específicos, sin ningún maniquí único que domine en todas las métricas. Esta fragmentación beneficia a los clientes sofisticados que pueden explotar las fortalezas especializadas de IA al tiempo que desafían a las empresas que buscan soluciones simples y unificadas.

Anthrope ha ampliado la integración de Claude en los flujos de trabajo de expansión con la permiso universal de Código Claude. El sistema ahora admite tareas de fondo a través de Acciones de Github y se integra de forma nativa con VS Código y Rejilla entornos, que muestran ediciones de código propuestas directamente en los archivos de los desarrolladores.

La valentía de Github de incorporar Claude Sonnet 4 como maniquí colchoneta para un nuevo agente de codificación en Copiloto de Github Ofrece una fuerza de mercado significativa. Esta asociación con la plataforma de expansión de Microsoft sugiere que las grandes compañías de tecnología están diversificando sus asociaciones de IA en circunscripción de subordinarse exclusivamente de proveedores individuales.

Anthrope ha complementado sus lanzamientos de maniquí con nuevas capacidades de API para desarrolladores: una aparejo de ejecución de código, conector MCP, API de archivos y almacenamiento en elegancia de hasta una hora. Estas características permiten la creación de agentes de IA más sofisticados que pueden persistir en flujos de trabajo complejos, esencial para la apadrinamiento empresarial.

Los desafíos de transparencia surgen a medida que los modelos se vuelven más sofisticados

Documento de investigación de April de Anthrope “,”Los modelos de razonamiento no siempre dicen lo que piensan“, Reveló sobre los patrones de cómo estos sistemas comunican sus procesos de pensamiento. Su estudio encontró Claude 3.7 soneto mencionó sugerencias cruciales que solía resolver problemas solo el 25% del tiempo, planteando preguntas significativas sobre la transparencia del razonamiento de IA.

Esta investigación destaca un desafío creciente: a medida que los modelos se vuelven más capaces, además se vuelven más opacos. La sesión de codificación autónoma de siete horas que muestra la resistor de Claude Opus 4 además demuestra lo difícil que sería para los humanos auditar completamente las cadenas de razonamiento extendidas.

La industria ahora enfrenta una paradoja en la que el aumento de la capacidad trae una disminución de la transparencia. Enfrentarse esta tensión requerirá nuevos enfoques para la supervisión de la IA que equilibran el rendimiento con explicación: un desafío que Anthrope en sí mismo ha obligado pero aún no está completamente resuelto.

Un futuro de colaboración sostenida de IA toma forma

La sesión de trabajo autónomo de siete horas de Claude Opus 4 ofrece un vistazo al futuro de la IA en el trabajo de conocimiento. A medida que los modelos desarrollan un enfoque extendido y una memoria mejorada, se parecen cada vez más a los colaboradores en circunscripción de herramientas, capaces de un trabajo sostenido y enrevesado con una supervisión humana mínima.

Esta progresión apunta a un cambio profundo en la forma en que las organizaciones estructurarán el conocimiento del conocimiento. Las tareas que una vez requerían atención humana continua ahora se pueden delegar a los sistemas de IA que mantienen el enfoque y el contexto durante horas o incluso días. Los impactos económicos y organizacionales serán sustanciales, particularmente en dominios como el expansión de software donde la escasez de talento persiste y los costos laborales siguen siendo altos.

Mientras Claude 4 desdibuja la secante entre la inteligencia humana y la máquina, enfrentamos una nueva efectividad en el circunscripción de trabajo. Nuestro desafío ya no se pregunta si la IA puede igualar las habilidades humanas, sino adaptarse al futuro en el que nuestros compañeros de equipo más productivos pueden ser digitales en circunscripción de humanos.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu superior, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Anthrope Avtaunds OpenAI: Claude Opus 4 codifica siete horas sin detener, establece registrar la puntuación SWE-Bench y reestructurar Enterprise AI

Más allá de las respuestas rápidas: la revolución del razonamiento transforma la IA

Velocidad de la inmueble de modo dual con profundidad

Los desafíos de transparencia surgen a medida que los modelos se vuelven más sofisticados

Un futuro de colaboración sostenida de IA toma forma

ztevenreal

Related Posts

El extremo Google TV de TCL no tiene biseles y una gran puesta al día de altavoces

El nuevo iPhone actualizará la cámara a 200MP, en comparación con 48MP por filtración

Leave a Reply Cancel reply

You Missed

Deslindar la huelga: ¿provocación o control?

Confianza de los consumidores repunta en mayo en EE. UU.

EEUU: Trump avisa a Putin de que está «jugando con fuego» | AlMomento.net

El abogado de Aquel Martínez dice que saldrá dispensado ya (video)

El extremo Google TV de TCL no tiene biseles y una gran puesta al día de altavoces

INABIE presenta logros del Software de Provisiones Escolar en Semana de la Alimentación

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Anthrope Avtaunds OpenAI: Claude Opus 4 codifica siete horas sin detener, establece registrar la puntuación SWE-Bench y reestructurar Enterprise AI

Más allá de las respuestas rápidas: la revolución del razonamiento transforma la IA

Velocidad de la inmueble de modo dual con profundidad

El panorama competitivo se intensifica a medida que los líderes de IA luchan por la cuota de mercado

Los desafíos de transparencia surgen a medida que los modelos se vuelven más sofisticados

Un futuro de colaboración sostenida de IA toma forma

ztevenreal

Related Posts

El extremo Google TV de TCL no tiene biseles y una gran puesta al día de altavoces

El nuevo iPhone actualizará la cámara a 200MP, en comparación con 48MP por filtración

Leave a Reply Cancel reply

You Missed

Deslindar la huelga: ¿provocación o control?

Confianza de los consumidores repunta en mayo en EE. UU.

EEUU: Trump avisa a Putin de que está «jugando con fuego» | AlMomento.net

El abogado de Aquel Martínez dice que saldrá dispensado ya (video)

El extremo Google TV de TCL no tiene biseles y una gran puesta al día de altavoces

INABIE presenta logros del Software de Provisiones Escolar en Semana de la Alimentación