El texto de jugadas de IA interpretable: lo que significa la investigación de Anthrope para su táctica empresarial LLM


Únase al evento confiable por los líderes empresariales durante casi dos décadas. VB Transform reúne a las personas que construyen una táctica de IA empresarial verdadero. Obtenga más información


Antrópico El CEO DARIO AMODEI hizo un empuje urgente En abril, para la obligación de comprender cómo piensan los modelos de IA.

Esto llega en un momento crucial. Como antrópico batallas En las clasificaciones globales de IA, es importante tener en cuenta qué lo distingue de otros laboratorios de IA. Desde su fundación en 2021, cuando siete Opadai empleados se separó Sobre las preocupaciones sobre la seguridad de la IA, Anthrope ha construido modelos de IA que se adhieren a un conjunto de principios de títulos humanos, un sistema que llaman AI constitucional. Estos principios aseguran que los modelos sean “útil, honesto e inofensivo“Y generalmente actúa en el mejor interés de la sociedad. Al mismo tiempo, el mecenas de investigación de Anthrope está profundizando para comprender cómo sus modelos piensan sobre el mundo, y por qué Producen respuestas aperos (y a veces dañinas).

El maniquí insignia de Anthrope, el soneto Claude 3.7, dominó los puntos de relato de codificación cuando se lanzó en febrero, lo que demuestra que los modelos AI pueden sobresalir tanto en rendimiento como en seguridad. Y el fresco propagación de Claude 4.0 Opus y Sonnet nuevamente pone a Claude en el superior de los puntos de relato de codificación. Sin secuestro, en el mercado AI rápido e hipercompetitivo de hoy en día, los rivales de Anthrope como Gemini 2.5 Pro de Google y Open AI’s O3 tienen sus propias impresionantes exhibiciones para codificar la destreza, mientras que son ya dominando Claude en matemáticas, escritura creativa y razonamiento común en muchos idiomas.

Si los pensamientos de Amodei son una indicación, Anthrope está planeando el futuro de la IA y sus implicaciones en campos críticos como la medicina, la psicología y el derecho, donde la seguridad del maniquí y los títulos humanos son imperativos. Y se muestra: Anthrope es el laboratorio de IA líder que se enfoca estrictamente en desarrollar IA “interpretable”, que son modelos que permiten comprender, hasta cierto punto de certeza, lo que el maniquí está pensando y cómo llega a una conclusión particular.

Amazon y Google ya han invertido miles de millones de dólares en antrópico, incluso cuando construyen sus propios modelos de inteligencia fabricado, por lo que quizás la preeminencia competitiva de Anthrope sigue siendo incipiente. Los modelos interpretables, como sugiere antrópico, podrían achicar significativamente los costos operativos a extenso plazo asociados con la depuración, auditoría y mitigación de riesgos en implementaciones complejas de IA.

Saysh Kapoorun investigador de seguridad de IA sugiere que si admisiblemente la interpretabilidad es valiosa, es solo una de las muchas herramientas para tener la llave de la despensa el peligro de IA. En su opinión, “la interpretabilidad no es necesaria ni suficiente” para respaldar que los modelos se comporten de guisa segura; es más importante cuando se combina con filtros, verificadores y diseño centrado en el ser humano. Esta visión más expansiva considera la interpretabilidad como parte de un ecosistema más amplio de estrategias de control, particularmente en las implementaciones de IA del mundo verdadero donde los modelos son componentes en sistemas de toma de decisiones más amplios.

La obligación de IA interpretable

Hasta hace poco, muchos pensaban que la IA todavía estaba a abriles de avances como los que ahora están ayudando a Claude, Gemini y Chatgpt alarde Admisión del mercado fantástico. Si admisiblemente estos modelos ya están presionando las fronteras del conocimiento humano, su uso generalizado es atribuible a lo buenos que son para resolver una amplia gradación de problemas prácticos que requieren resolución creativa de problemas o investigación detallado. Como los modelos se ponen a la tarea sobre problemas cada vez más críticos, es importante que produzcan respuestas precisas.

Amodei teme que cuando una IA responda a un aviso: “No tenemos idea … por qué elige ciertas palabras sobre otras, o por qué ocasionalmente comete un error a pesar de ser exacto”. Tales errores, alucinaciones de información inexacta, o respuestas que no se alinean con los títulos humanos, impedirán que los modelos de IA alcancen su mayor potencial. De hecho, hemos gastado muchos ejemplos de IA continuando luchando alucinaciones y comportamiento poco ético.

Para AmoDei, la mejor guisa de resolver estos problemas es comprender cómo piensa una IA: “Nuestra incapacidad para comprender los mecanismos internos de los modelos significa que no podemos predecir de guisa significativa tales comportamientos (dañinos) y, por lo tanto, guerrear para descartarlos … si fuera posible mirar interiormente de los modelos, podríamos aislar sistemáticamente todos los breakbreaks y igualmente caracterizar qué conocimiento peligroso tienen los modelos”.

Amodei igualmente ve la opacidad de los modelos actuales como una barrera para desplegar modelos de IA en “entornos financieros o críticos de seguridad de suspensión peligro, porque no podemos establecer completamente los límites en su comportamiento, y una pequeña cantidad de errores podría ser muy dañino”. En la toma de decisiones que afecta directamente a los humanos, como el diagnosis médico o las evaluaciones hipotecarias, permitido regulaciones requiere que AI explique sus decisiones.

Imagine una institución financiera que utiliza un maniquí de jerga amplio (LLM) para la detección de fraude: la interpretabilidad podría significar explicar una solicitud de préstamo denegada a un cliente según lo exige la ley. O una empresa manufacturera que optimiza las cadenas de suministro: comprender por qué una IA sugiere que un proveedor particular podría desbloquear eficiencias y evitar cuellos de botella imprevistos.

Correcto a esto, Amodei explica, “Anthrope se está duplicando la interpretabilidad, y tenemos el objetivo de demorar a ‘interpretabilidad puede detectar de guisa confiable la mayoría de los problemas maniquí’ para 2027”.

Con ese fin, Anthrope participó recientemente en $ 50 millones inversión en Buen fuegoun laboratorio de investigación de IA que avanza en el avance en los “escaneos cerebrales” de IA. Su plataforma de inspección de modelos, Ember, es una aparejo agnóstica que identifica conceptos aprendidos interiormente de los modelos y permite a los usuarios manipularlos. En un fresco manifestaciónla compañía mostró cómo Ember puede inspeccionar conceptos visuales individuales interiormente de una IA de reproducción de imágenes y luego dejar que los usuarios pintar Estos conceptos en un panel para gestar nuevas imágenes que siguen el diseño del legatario.

La inversión de Anthrope en Ember sugiere el hecho de que desarrollar modelos interpretables es lo suficientemente difícil de que Anthrope no tenga la mano de obra para obtener la interpretabilidad por su cuenta. Los modelos creativos interpretables requieren nuevas cadenas de herramientas y desarrolladores calificados para construirlos

Contexto más amplio: la perspectiva de un investigador de IA

Para romper la perspectiva de Amodei y anexar un contexto muy necesario, VentureBeat entrevistó a Kapoor como investigador de seguridad de IA en Princeton. Kapoor es coautor del texto Unto de serpiente aiun examen crítico de afirmaciones exageradas que rodean las capacidades de los principales modelos de IA. Además es coautor de “AI como tecnología común“, En el que aboga por tratar la IA como una aparejo de transformación habitual como Internet o la electricidad, y promueve una perspectiva realista de su integración en los sistemas cotidianos.

Kapoor no disputa que la interpretabilidad es valiosa. Sin secuestro, es escéptico de tratarlo como el pilar central de la línea de la IA. “No es una bala de plata”, dijo Kapoor a VentureBeat. Muchas de las técnicas de seguridad más efectivas, como el filtrado posterior a la respuesta, no requieren destapar el maniquí en invariable, dijo.

Además advierte contra lo que los investigadores llaman la “hipocresía de la inescrutabilidad”, la idea de que si no entendemos completamente las partes internas de un sistema, no podemos usarla o regularla de guisa responsable. En la destreza, la transparencia total no es cómo se evalúan la mayoría de las tecnologías. Lo que importa es si un sistema funciona de guisa confiable en condiciones reales.

Esta no es la primera vez que Amodei advierte sobre los riesgos de que la IA supere nuestra comprensión. En su octubre de 2024 correo“Máquinas de simpatía amorosa”, dibujó una visión de modelos cada vez más capaces que podrían tomar acciones significativas del mundo verdadero (y tal vez duplicar nuestras vidas).

Según Kapoor, hay una distinción importante que se puede hacer aquí entre un maniquí capacidad y es fuerza. Las capacidades del maniquí, sin duda, aumentan rápidamente, y pronto pueden desarrollar suficiente inteligencia para encontrar soluciones para muchos problemas complejos que desafían a la humanidad hoy. Pero un maniquí es tan poderoso como las interfaces que le proporcionamos para interactuar con el mundo verdadero, incluyendo dónde y cómo se implementan los modelos.

Amodei ha argumentado por separado que Estados Unidos debería abastecer un liderazgo en el ampliación de IA, en parte a través de controles de exportación ese conclusión de comunicación a modelos poderosos. La idea es que los gobiernos autoritarios puedan usar los sistemas de IA fronterizos de guisa valeverguista, o exprimir la preeminencia geopolítica y económica que conlleva desplegarlos primero.

Para Kapoor, “incluso los mayores proponentes de los controles de exportación están de acuerdo en que nos dará como mayor uno o dos abriles”. Él piensa que deberíamos tratar a la IA como un “tecnología común“Al igual que la electricidad o Internet. Si admisiblemente es revolucionario, tardó décadas en que ambas tecnologías se realizaran plenamente en toda la sociedad. Kapoor cree que es lo mismo para la IA: la mejor guisa de abastecer el borde geopolítico es centrarse en el” pernio extenso “de mudar las industrias para usar IA de guisa efectiva.

Otros criticando a Amodei

Kapoor no es el único que critica la postura de Amodei. La semana pasada en Vivatech en París, Jansen Huang, CEO de Nvidia, declaró su desacuerdo con las opiniones de Amodei. Huang cuestionó si la autoridad para desarrollar IA debería sujetarse a algunas entidades poderosas como Anthrope. Él dijo: “Si quieres que las cosas se hagan de guisa segura y responsable, lo haces a la intemperie … no lo hagas en una habitación oscura y dime que es seguro”.

En respuesta, antrópico fijado: “Dario nunca ha afirmado que ‘solo antrópico’ puede construir una IA segura y poderosa. Como mostrará el registro notorio, Dario ha abogado por un habitual de transparencia franquista para los desarrolladores de IA (incluidos los antrópicos) para que los encargados de formular políticas son conscientes de las capacidades y riesgos de los modelos y puedan prepararse en consecuencia”.

Además vale la pena señalar que el antrópico no está solo en su búsqueda de la interpretabilidad: el equipo de interpretabilidad profunda de Google, dirigido por Neel Nanda, igualmente ha hecho contribuciones serias a la investigación de la interpretabilidad.

En última instancia, los principales laboratorios e investigadores de IA están proporcionando evidencia sólida de que la interpretabilidad podría ser un diferenciador secreto en el mercado competitivo de IA. Las empresas que priorizan la interpretabilidad temprano pueden obtener una preeminencia competitiva significativa al construir sistemas de IA más confiables, compatibles y adaptables.


Related Posts

Google Gemini ahora te permite subir videos, y analiza el contenido

Google está lanzando una nueva característica para su aplicación Gemini. Puede cargar videos y pedirle a la IA que proporcione un disección de los contenidos. 9to5googleAbner Li informa que pudo…

Lo que deberías estar usando en división de un puente Philips Hue

Al comprar cualquier bombilla Philips Hue, necesitará un método de conexión. Esto se puede obtener a través de Bluetooth, pero está definido al entrada particular y debe estar interiormente de…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Irán rechaza rendirse y amenaza con consecuencias graves en presencia de posible intervención de EEUU

Irán rechaza rendirse y amenaza con consecuencias graves en presencia de posible intervención de EEUU

Google Gemini ahora te permite subir videos, y analiza el contenido

Google Gemini ahora te permite subir videos, y analiza el contenido

“Quisiera seguir viviendo”, novicio pide ayuda (video) – Remolacha

“Quisiera seguir viviendo”, novicio pide ayuda (video) – Remolacha

Consultorio Ecológico: Protección y restauración del Río Yaguasa

Consultorio Ecológico: Protección y restauración del Río Yaguasa

Apresan hombre por presunta malversación de más de RD$300,000 en banca de suerte en SJM

Apresan hombre por presunta malversación de más de RD0,000 en banca de suerte en SJM

Contraloría informa que refuerza controles para detener irregularidades en tiempo positivo

Contraloría informa que refuerza controles para detener irregularidades en tiempo positivo