
Un nuevo estudio de Google sugiere que los modelos de razonamiento progresista logran un detención rendimiento al aparentar debates tipo multiagente que involucran diversas perspectivas, rasgos de personalidad y experiencia en el dominio.
Sus experimentos demuestran que este debate interno, que denominan “sociedad de pensamiento“, progreso significativamente el rendimiento del maniquí en tareas complejas de razonamiento y planificación. Los investigadores descubrieron que los modelos de razonamiento líderes como DeepSeek-R1 y QwQ-32B, que se entrenan a través de estudios por refuerzo (RL), desarrollan inherentemente esta capacidad de participar en conversaciones de sociedad de pensamiento sin instrucción explícita.
Estos hallazgos ofrecen una hoja de ruta sobre cómo los desarrolladores pueden crear aplicaciones LLM más sólidas y cómo las empresas pueden entrenar modelos superiores utilizando sus propios datos internos.
¿Qué es la sociedad de pensamiento?
La premisa central de la sociedad de pensamiento es que los modelos de razonamiento aprenden a luchar diálogos sociales entre múltiples agentes para refinar su razonamiento. Esta hipótesis se base en la ciencia cognitiva, específicamente en la idea de que la razón humana evolucionó principalmente como un proceso social para resolver problemas mediante la argumentación y el compromiso con diferentes puntos de clarividencia.
Los investigadores escriben que "La diversificación cognitiva, que surge de la variación en la experiencia y los rasgos de personalidad, progreso la resolución de problemas, particularmente cuando va acompañada de un auténtico disentimiento." En consecuencia, sugieren que la integración de diversas perspectivas permite a los LLM desarrollar estrategias de razonamiento sólidas. Al aparentar conversaciones entre diferentes personas internas, los modelos pueden realizar comprobaciones esenciales (como demostración y seguimiento) que ayudan a evitar errores comunes como sesgos no deseados y adulación.
En modelos como DeepSeek-R1, esto "sociedad" se manifiesta directamente en el interior de la sujeción de pensamiento. Los investigadores señalan que no se necesitan modelos o indicaciones separados para forzar esta interacción; el debate emerge de forma autónoma en el interior del proceso de razonamiento de una única instancia maniquí.
Ejemplos de sociedad de pensamiento
El estudio proporciona ejemplos tangibles de cómo esta fricción interna conduce a mejores resultados. En un prueba que involucra un enredado problema de síntesis de química orgánica, DeepSeek-R1 simuló un debate entre múltiples perspectivas internas distintas, incluida una "Planificador" y un "Verificador crítico."
El Planificador propuso inicialmente una vía de reacción standard. Sin requisa, el Verificador Crítico (caracterizado por tener un detención nivel de esmero y poca amabilidad) interrumpió para cuestionar la suposición y proporcionó un contraargumento con nuevos hechos. A través de esta demostración contradictoria, el maniquí descubrió el error, concilió los puntos de clarividencia contradictorios y corrigió el camino de síntesis.
Una dinámica similar apareció en las tareas creativas. Cuando se le pidió que reescribiera la oración, "Arrojé mi odio al fuego impetuoso," El maniquí simuló una negociación entre un "Ideador creativo" y un "Comprobador de fidelidad semántica." Luego de que el creador sugirió una traducción usando la palabra "profundamente arraigado," el corrector replicó, "Pero eso añade “profundamente arraigado”, que no estaba en el diferente. Deberíamos evitar añadir nuevas ideas." El maniquí finalmente llegó a un compromiso que mantuvo el significado diferente y al mismo tiempo mejoró el estilo.
Quizás la desarrollo más sorprendente se produjo en "esparcimiento de cuenta regresiva," un rompecabezas matemático donde el maniquí debe usar números específicos para alcanzar un valía objetivo. Al principio del entrenamiento, el maniquí intentó resolver el problema mediante un enfoque de monólogo. Como supo a través de RL, se dividió espontáneamente en dos personajes distintos: un "Solucionador de problemas metódico" realizar cálculos y "Pensador exploratorio" monitorear el progreso, ¿quién interrumpiría los caminos fallidos con comentarios como "Nuevamente no hubo suerte… Tal vez podamos intentar usar números negativos," incitando al solucionador metódico a cambiar de logística.
Estos hallazgos desafían la suposición de que cadenas de pensamiento más largas dan automáticamente como resultado una longevo precisión. En cambio, comportamientos diversos, como observar las respuestas a través de diferentes anteojos, corroborar suposiciones anteriores, retroceder y explorar alternativas, impulsan las mejoras en el razonamiento. Los investigadores reforzaron esto dirigiendo artificialmente el espacio de activación de un maniquí para desencadenar una sorpresa conversacional; Esta intervención activó una variedad más amplia de características relacionadas con la personalidad y la experiencia, duplicando la precisión en tareas complejas.
La implicación es que el razonamiento social emerge de modo autónoma a través de la RL como una función del impulso del maniquí para producir respuestas correctas, en ocupación de a través de una supervisión humana explícita. De hecho, los modelos de entrenamiento en monólogos tuvieron un rendimiento inferior al de la RL sin procesar que lógicamente desarrollaba conversaciones entre múltiples agentes. Por el contrario, realizar ajuste supervisado (SFT) en conversaciones multipartidistas y el debate superó significativamente a SFT en cadenas de pensamiento standard.
Implicaciones para la IA empresarial
Para los desarrolladores y tomadores de decisiones empresariales, estos conocimientos ofrecen pautas prácticas para crear aplicaciones de IA más potentes.
Ingeniería rápida para el ‘conflicto’
Los desarrolladores pueden mejorar el razonamiento en modelos de propósito normal instándolos explícitamente a adoptar una estructura de sociedad de pensamiento. Sin requisa, no hilván con pedirle al maniquí que charle consigo mismo.
"No hilván con ‘tener un debate’ sino tener diferentes puntos de clarividencia y disposiciones que hagan que el debate sea inapelable y permitan que ese debate explore y discrimine entre alternativas." James Evans, coautor del artículo, dijo a VentureBeat.
En ocupación de roles genéricos, los desarrolladores deberían diseñar indicaciones que asignen disposiciones opuestas (por ejemplo, un oficial de cumplimiento con inquina al aventura contra un directivo de producto centrado en el crecimiento) para vincular al maniquí a discriminar entre alternativas. Incluso señales simples que guían al maniquí a expresar "sorpresa" puede desencadenar estas vías de razonamiento superiores.
Diseño para escalamiento social
A medida que los desarrolladores escalan la computación en tiempo de prueba para permitir que los modelos "pensar" Por más tiempo, deberían distribuir este tiempo como un proceso social. Las aplicaciones deben allanar una "societal" proceso donde el maniquí usa pronombres como "nosotros," se hace preguntas y debate explícitamente alternativas antaño de converger en una respuesta.
Este enfoque además puede expandirse a sistemas de múltiples agentes, donde distintas personalidades asignadas a diferentes agentes participan en un debate crítico para tomar mejores decisiones.
Deja de desinfectar tus datos de entrenamiento
Quizás la implicación más significativa resida en cómo las empresas entrenan o perfeccionan sus propios modelos. Tradicionalmente, los equipos de datos limpian sus conjuntos de datos para crear "Respuestas doradas" que proporcionan caminos lineales perfectos con destino a una posibilidad. El estudio sugiere que esto podría ser un error.
Los modelos ajustados a partir de datos conversacionales (por ejemplo, transcripciones de debates y resoluciones de múltiples agentes) mejoran el razonamiento significativamente más rápido que aquellos entrenados con monólogos limpios. Incluso tienen valía los debates que no conducen a la respuesta correcta.
"Nos entrenamos en un andamio conversacional que conducía a la respuesta incorrecta, luego reforzamos el maniquí y descubrimos que funcionaba igual de acertadamente como refuerzo en la respuesta correcta, lo que sugiere que los hábitos conversacionales de explorar soluciones eran los más importantes para nuevos problemas." Dijo Evans.
Esto implica que las empresas deberían dejar de desechar "difícil" registros de ingeniería o subprocesos de Slack donde los problemas se resolvieron de forma iterativa. El "desorden" Es donde el maniquí aprende el habilidad de la exploración.
Exponiendo la ‘caja negra’ de la confianza y la auditoría
Para casos de uso empresarial de detención aventura, simplemente obtener una respuesta no es suficiente. Evans sostiene que los usuarios necesitan ver la disidencia interna para esperar en el resultado, lo que sugiere un cambio en el diseño de la interfaz de beneficiario.
"Necesitamos una nueva interfaz que nos exponga sistemáticamente los debates internos para que podamos “participar” en calibrar la respuesta correcta." Dijo Evans. "Nos va mejor con el debate; A las IA les va mejor con el debate; y lo hacemos mejor cuando estamos expuestos al debate de la IA."
El caso importante de las mancuerna abiertas
Estos hallazgos proporcionan un nuevo argumento en la "construir contra comprar" Debate sobre modelos de peso libre contra API propietarias. Muchos modelos de razonamiento patentados ocultan su sujeción de pensamiento y tratan el debate interno como un secreto comercial o una responsabilidad de seguridad.
Pero Evans sostiene que "nadie ha proporcionado efectivamente una excusa para exponer esta sociedad de pensamiento antaño," pero que el valía de auditar estos conflictos internos se está volviendo innegable. Hasta que los proveedores propietarios ofrezcan total transparencia, las empresas en sectores de detención cumplimiento pueden encontrar que los modelos de peso libre ofrecen una clara superioridad: la capacidad de ver el desacuerdo, no solo la osadía.
"Creo que los grandes modelos propietarios comenzarán a ofrecer (y a otorgar licencias) la información una vez que se den cuenta de que tiene valía." Dijo Evans.
La investigación sugiere que el trabajo de un arquitecto de IA está pasando del entrenamiento de modelos puros a poco más cercano a la psicología organizacional.
"Creo que esto abre una frontera completamente nueva en el diseño organizacional y de grupos pequeños en el interior y entre modelos que probablemente permitirá nuevas clases de desempeño," Dijo Evans. "Mi equipo está trabajando en esto y espero que otros además lo estén."





