
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Los modelos de idiomas grandes (LLM) están transformando cómo operan las empresas, pero su naturaleza de “caja negra” a menudo deja a las empresas que requieren imprevisibilidad. Encarar este desafío crítico, Antrópico recientemente de código amplio su Aparejo de seguimiento de circuitospermitiendo a los desarrolladores e investigadores comprender y controlar directamente el funcionamiento interno de los modelos.
Esta útil permite a los investigadores investigar errores inexplicables y comportamientos inesperados en modelos de peso amplio. Igualmente puede ayudar con el ajuste fino granular de LLM para funciones internas específicas.
Comprender la razonamiento interna de la IA
Esta útil de rastreo de circuitos funciona en función de la “interpretabilidad mecanicista”, un campo floreciente dedicado a comprender cómo funcionan los modelos de IA en función de sus activaciones internas en sitio de simplemente observar sus entradas y futuro.
Mientras que la investigación auténtico de Anthrope sobre el rastreo de circuitos aplicó esta metodología a su propio maniquí Claude 3.5 Haiku, la útil de código amplio extiende esta capacidad a los modelos de peso amplio. El equipo de Anthrope ya ha utilizado la útil para rastrear circuitos en modelos como Gemma-2-2B y LLAMA-3.2-1B y ha atrevido un Cuaderno de colab Eso ayuda a usar la biblioteca en modelos abiertos.
El núcleo de la útil radica en gestar gráficos de atribución, mapas causales que rastrean las interacciones entre las características a medida que el maniquí procesa la información y genera una salida. (Las características son patrones de activación internos del maniquí que se pueden asignar aproximadamente a conceptos comprensibles). Es como obtener un diagrama de cableado detallado del proceso de pensamiento interno de una IA. Más importante aún, la útil permite “experimentos de intervención”, lo que permite a los investigadores modificar directamente estas características internas y observar cómo los cambios en los estados internos de la IA afectan sus respuestas externas, lo que hace posible depurar modelos.
La útil se integra con Neuronpediauna plataforma abierta para la comprensión y la experimentación con redes neuronales.

Practicidades e impacto futuro para la IA empresarial
Si proporcionadamente la útil de rastreo de circuitos de Anthrope es un gran paso en dirección a la IA explicable y controlable, tiene desafíos prácticos, incluidos los altos costos de memoria asociados con la ejecución de la útil y la complejidad inherente de interpretar los gráficos de atribución detallados.
Sin requisa, estos desafíos son típicos de la investigación de vanguardia. La interpretabilidad mecanicista es una gran campo de acción de investigación, y la mayoría de los grandes laboratorios de IA están desarrollando modelos para investigar el funcionamiento interno de los modelos de idiomas grandes. Al emitir amplio la útil de rastreo de circuitos, Anthrope permitirá a la comunidad desarrollar herramientas de interpretación que sean más escalables, automatizadas y accesibles para una matiz más amplia de usuarios, abriendo el camino para aplicaciones prácticas de todo el esfuerzo que se dedica a comprender LLM.
A medida que las herramientas maduran, la capacidad de comprender por qué una LLM toma una determinada osadía puede traducirse en beneficios prácticos para las empresas.
El trazado de circuitos explica cómo los LLM realizan un razonamiento sofisticado de varios pasos. Por ejemplo, en su estudio, los investigadores pudieron rastrear cómo un maniquí inferió a “Texas” de “Dallas” antaño de conmover a “Austin” como la hacienda. Igualmente reveló mecanismos de planificación descubierta, como un maniquí de palabras de rima previa a la selección en un poema para llevar la composición de la tendencia. Las empresas pueden usar estas ideas para analizar cómo sus modelos abordan tareas complejas como el investigación de datos o el razonamiento procesal. La identificación de los pasos de planificación o razonamiento interno permite la optimización dirigida, mejorando la eficiencia y la precisión en procesos comerciales complejos.

Encima, el rastreo de circuitos ofrece una mejor claridad en las operaciones numéricas. Por ejemplo, en su estudio, los investigadores descubrieron cómo los modelos manejan la aritmética, como 36+59 = 95, no a través de algoritmos simples sino a través de vías paralelas y características de “tabla de búsqueda” para dígitos. Por ejemplo, las empresas pueden usar dichas ideas para auditar cálculos internos que conducen a resultados numéricos, identificar el origen de los errores e implementar correcciones específicas para respaldar la integridad de los datos y la precisión del cálculo interiormente de sus LLM de código amplio.
Para las implementaciones globales, la útil proporciona información sobre la consistencia multilingüe. La investigación previa de Anthrope muestra que los modelos emplean circuitos de “verbo mental universal” de verbo específico y impreciso e independientes del verbo, con modelos más grandes que demuestran una longevo propagación. Esto puede ayudar a depurar los desafíos de delimitación al implementar modelos en diferentes idiomas.
Finalmente, la útil puede ayudar a combatir las alucinaciones y mejorar la saco objetiva. La investigación reveló que los modelos tienen “circuitos predeterminados de rechazo” para consultas desconocidas, que se suprimen por características de “respuesta conocida”. Las alucinaciones pueden ocurrir cuando este circuito inhibitorio “fallan”.

Más allá de la depuración de problemas existentes, esta comprensión mecanicista desbloquea nuevas vías para LLMS conveniente. En sitio de simplemente ajustar el comportamiento de salida a través de prueba y error, las empresas pueden identificar y apuntar a los mecanismos internos específicos que impulsan los rasgos deseados o no deseados. Por ejemplo, la comprensión de cómo la “persona asistente” de un maniquí incorpora inadvertidamente los sesgos del maniquí de retribución oculto, como se muestra en la investigación de Anthrope, permite a los desarrolladores retornar a ajustar con precisión los circuitos internos responsables de la alineamiento, lo que lleva a implementaciones de IA más robustas y éticamente consistentes.
A medida que los LLM se integran cada vez más en funciones empresariales críticas, su transparencia, interpretabilidad y control se vuelven cada vez más críticos. Esta nueva concepción de herramientas puede ayudar a cerrar la brecha entre las poderosas capacidades de la IA y la comprensión humana, construyendo confianza fundamental y respaldar que las empresas puedan implementar sistemas de IA que sean confiables, auditables y alineados con sus objetivos estratégicos.