
Investigadores de Meta FAIR y la Universidad de Edimburgo han desarrollado una nueva técnica que puede predecir la exactitud del razonamiento de un maniquí de jerga egregio (LLM) e incluso intervenir para corregir sus errores. Llamado Comprobación de razonamiento basada en circuitos (CRV), el método mira interiormente de un LLM para monitorear sus “circuitos de razonamiento” internos y detectar signos de errores computacionales a medida que el maniquí resuelve un problema.
Sus hallazgos muestran que CRV puede detectar errores de razonamiento en LLM con suscripción precisión mediante la construcción y observación de un manifiesto computacional a partir de las activaciones internas del maniquí. En un avance esencia, los investigadores todavía demostraron que pueden utilizar este conocimiento profundo para aplicar intervenciones específicas que corrijan el razonamiento defectuoso de un maniquí sobre la marcha.
La técnica podría ayudar a resolver uno de los grandes desafíos de la IA: asegurar que el razonamiento de un maniquí sea fiel y correcto. Este podría ser un paso fundamental con destino a la creación de aplicaciones de IA más confiables para las empresas, donde la confiabilidad es primordial.
Investigar el razonamiento en condena de pensamiento
El razonamiento en condena de pensamiento (CoT) ha sido un método poderoso para mejorar el desempeño de los LLM en tareas complejas y ha sido uno de los ingredientes esencia en el éxito de modelos de razonamiento como la serie o de OpenAI y DeepSeek-R1.
Sin retención, a pesar del éxito de CoT, no es totalmente fiable. El proceso de razonamiento en sí mismo suele ser defectuoso y varios estudios han demostrado que los tokens CoT que genera un LLM no siempre son una representación fiel de su proceso de razonamiento interno.
Los remedios actuales para revisar CoT se dividen en dos categorías principales. Los enfoques de “caja negra” analizan el token final generado o las puntuaciones de confianza de diferentes opciones de tokens. Los enfoques de “caja aburrido” van un paso más allá y analizan el estado interno del maniquí mediante el uso de sondas simples en sus activaciones neuronales en bruto.
Pero si proporcionadamente estos métodos pueden detectar que el estado interno de un maniquí está correlacionado con un error, no pueden explicar por qué el cálculo subyacente falló. Para aplicaciones del mundo verdadero donde es crucial comprender la causa raíz de una error, esta es una brecha significativa.
Un enfoque de caja blanca para la comprobación
CRV se podio en la idea de que los modelos realizan tareas utilizando subgrafos especializados, o "circuitos," de neuronas que funcionan como algoritmos latentes. Entonces, si el razonamiento del maniquí error, es causado por una error en la ejecución de uno de estos algoritmos. Esto significa que al inspeccionar el proceso computacional subyacente, podemos diagnosticar la causa de la error, de forma similar a cómo los desarrolladores examinan los rastros de ejecución para depurar el software tradicional.
Para que esto sea posible, los investigadores primero hacen que el LLM objetivo sea interpretable. Reemplazan las densas capas tipificado de los bloques de transformadores con capacitadas. "transcodificadores." Un transcodificador es un componente especializado de formación profundo que obliga al maniquí a representar sus cálculos intermedios no como un vector de números denso e ilegible, sino como un conjunto de características escaso y significativo. Los transcodificadores son similares a los codificadores automáticos dispersos (SAE) utilizados en la investigación de interpretabilidad mecanicista con la diferencia de que todavía preservan la funcionalidad de la red que emulan. Esta modificación instala efectivamente un puerto de diagnosis en el maniquí, lo que permite a los investigadores observar su funcionamiento interno.
Con este maniquí interpretable implementado, el proceso CRV se desarrolla en unos pocos pasos. Para cada paso de razonamiento que toma el maniquí, CRV construye un "manifiesto de atribución" que mapea el flujo causal de información entre las características interpretables del transcodificador y los tokens que está procesando. De este manifiesto se extrae un "huella digital estructural" que contiene un conjunto de características que describen las propiedades del manifiesto. Finalmente, se entrena un maniquí de “clasificador de diagnosis” con estas huellas dactilares para predecir si el paso de razonamiento es correcto o no.
En el momento de la inferencia, el clasificador monitorea las activaciones del maniquí y proporciona feedback sobre si el huella de razonamiento del maniquí está en el camino correcto.
Encontrar y corregir errores
Los investigadores probaron su método en un Apasionamiento 3.1 8B Maniquí de instrucciones modificado con los transcodificadores, evaluándolo en una combinación de conjuntos de datos sintéticos (booleanos y aritméticos) y del mundo verdadero (problemas matemáticos GSM8K). Compararon CRV con un conjunto completo de líneas de pulvínulo de caja negra y caja aburrido.
Los resultados proporcionan un resistente apoyo empírico a la hipótesis central: las firmas estructurales en la traza computacional de un paso de razonamiento contienen una señal verificable de su corrección. CRV superó consistentemente a todos los métodos de narración en todos los conjuntos de datos y métricas, lo que demuestra que una visión estructural profunda del cálculo del maniquí es más poderosa que el investigación a nivel de superficie.
Curiosamente, el investigación reveló que las firmas de error son muy específicas de un dominio. Esto significa que las fallas en diferentes tareas de razonamiento (método formal frente a cálculo aritmético) se manifiestan como patrones computacionales distintos. Un clasificador entrenado para detectar errores en un dominio no se transfiere proporcionadamente a otro, lo que pone de relieve que los diferentes tipos de razonamiento dependen de diferentes circuitos internos. En la destreza, esto significa que es posible que necesites entrenar un clasificador separado para cada tarea (aunque el transcodificador permanece sin cambios).
Sin retención, el hallazgo más significativo es que estas firmas de error no son sólo correlacionales sino causales. Correcto a que CRV proporciona una horizonte transparente del cálculo, una error prevista se puede rastrear hasta un componente específico. En un estudio de caso, el maniquí cometió un error en el orden de las operaciones. CRV marcó el paso e identificó que un "multiplicación" La función se disparaba prematuramente. Los investigadores intervinieron suprimiendo manualmente esa única característica, y el maniquí inmediatamente corrigió su trayectoria y resolvió el problema correctamente.
Este trabajo representa un paso con destino a una ciencia más rigurosa de la interpretabilidad y el control de la IA. Como concluye el artículo, “estos hallazgos establecen el CRV como una prueba de concepto para el investigación mecanicista, mostrando que acontecer de activaciones opacas a una estructura computacional interpretable permite una comprensión causal de cómo y por qué los LLM no razonan correctamente”. Para respaldar futuras investigaciones, el equipo planea hacer públicos sus conjuntos de datos y transcodificadores capacitados.
Por que es importante
Si proporcionadamente CRV es una prueba de concepto de investigación, sus resultados apuntan a un futuro significativo para el ampliación de la IA. Los modelos de IA aprenden algoritmos internos, o "circuitos," para diferentes tareas. Pero como estos modelos son opacos, no podemos depurarlos como los programas informáticos tipificado, rastreando los errores en pasos específicos del cálculo. Los gráficos de atribución son lo más parecido que tenemos a un seguimiento de ejecución y muestran cómo se deriva un resultado a partir de pasos intermedios.
Esta investigación sugiere que los gráficos de atribución podrían ser la pulvínulo de una nueva clase de depuradores de modelos de IA. Estas herramientas permitirían a los desarrolladores comprender la causa raíz de las fallas, ya sea datos de entrenamiento insuficientes o interferencia entre tareas en competencia. Esto permitiría mitigaciones precisas, como ajustes específicos o incluso tiraje directa del maniquí, en superficie de un costoso reentrenamiento a gran escalera. Incluso podrían permitir una intervención más válido para corregir errores del maniquí durante la inferencia.
El éxito de CRV en la detección y circunscripción de errores de razonamiento es una señal alentadora de que dichos depuradores podrían convertirse en una ingenuidad. Esto allanaría el camino para LLM más sólidos y agentes autónomos que puedan manejar la imprevisibilidad del mundo verdadero y, al igual que los humanos, corregir el rumbo cuando cometen errores de razonamiento.





