¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Investigadores de la Universidad de Illinois Urbana-Champaign y la Universidad de Virginia han desarrollado una nueva bloque maniquí que podría conducir a sistemas de IA más robustos con capacidades de razonamiento más potentes.
Llamado transformador basado en energía (EBT), la bloque muestra una capacidad natural para usar escalera de tiempo de inferencia para resolver problemas complejos. Para la empresa, esto podría traducirse en aplicaciones de IA rentables que pueden generalizarse a situaciones novedosas sin la indigencia de modelos especializados ajustados.
El desafío del pensamiento del sistema 2
En psicología, el pensamiento humano a menudo se divide en dos modos: el sistema 1, que es rápido e intuitivo, y el sistema 2, que es pausado, deliberado y analítico. Los modelos actuales de idiomas grandes (LLM) se destacan en las tareas de estilo 1 estilo System 1, pero la industria de la inteligencia industrial se centra cada vez más en permitir el pensamiento del Sistema 2 para contraponer desafíos de razonamiento más complejos.
Los modelos de razonamiento utilizan diversas técnicas de escalera de inferencia para mejorar su rendimiento en problemas difíciles. Un método popular es el educación de refuerzo (RL), utilizado en modelos como Deepseek-R1 y los modelos “O-Series” de Openii, donde la IA es recompensada por producir tokens de razonamiento hasta que alcanza la respuesta correcta. Otro enfoque, a menudo llamado Best-of-N, implica gestar múltiples respuestas potenciales y usar un mecanismo de demostración para preferir el mejor.
Sin bloqueo, estos métodos tienen inconvenientes significativos. A menudo se limitan a una grado estrecha de problemas fácilmente verificables, como las matemáticas y la codificación, y pueden degradar el rendimiento de otras tareas, como la escritura creativa. Por otra parte, evidencia flamante sugiere que los enfoques basados en RL podrían no estar enseñando modelos nuevas habilidades de razonamiento, en su extensión, solo es probable que usen patrones de razonamiento exitosos que ya conocen. Esto limita su capacidad para resolver problemas que requieren una verdadera exploración y están más allá de su régimen de entrenamiento.
Modelos basados en energía (EBM)
La bloque propone un enfoque diferente basado en una clase de modelos conocidos como modelos basados en energía (EBMS). La idea central es simple: en extensión de gestar directamente una respuesta, el maniquí aprende una “función de energía” que actúa como un verificador. Esta función toma una entrada (como un aviso) y una predicción de candidato y asigna un valencia, o “energía”. Una puntuación de herido energía indica una inscripción compatibilidad, lo que significa que la predicción es una buena opción para la entrada, mientras que una puntuación de inscripción energía significa una mala coincidencia.
Aplicando esto al razonamiento de IA, los investigadores proponen en un papel que los desarrolladores deben ver “el pensamiento como un procedimiento de optimización con respecto a un verificador aprendido, que evalúa la compatibilidad (probabilidad no anormalizada) entre una entrada y una predicción de candidatos”. El proceso comienza con una predicción aleatoria, que luego se refina progresivamente minimizando su puntaje de energía y explorando el espacio de posibles soluciones hasta que converge en una respuesta en gran medida compatible. Este enfoque se sostén en el principio de que comprobar una alternativa a menudo es mucho más tratable que gestar uno desde cero.

Este diseño “centrado en el verificador” aborda tres desafíos secreto en el razonamiento de IA. Primero, permite la asignación dinámica de cuenta, lo que significa que los modelos pueden “pensar” para más tiempo en problemas más difíciles y más corto en problemas fáciles. En segundo extensión, EBMS puede manejar lógicamente la incertidumbre de los problemas del mundo efectivo donde no hay una respuesta clara. Tercero, actúan como sus propios verificadores, eliminando la indigencia de modelos externos.
A diferencia de otros sistemas que utilizan generadores y verificadores separados, EBMS se combinan en un solo maniquí unificado. Una superioridad secreto de este arreglo es una mejor extensión. Correcto a que comprobar una alternativa en los datos nuevos y desactualizados (OOD) a menudo es más tratable que gestar una respuesta correcta, EBMS puede manejar mejor escenarios desconocidos.
A pesar de su promesa, EBMS ha luchado históricamente con la escalabilidad. Para resolver esto, los investigadores introducen EBTS, que son especializados modelos de transformadores Diseñado para este modelo. Los EBT están capacitados para comprobar primero la compatibilidad entre un contexto y una predicción, luego refinar las predicciones hasta que encuentren la producción de energía más herido (más compatible). Este proceso simula efectivamente un proceso de pensamiento para cada predicción. Los investigadores desarrollaron dos variantes EBT: un maniquí de decodificador inspirado en la bloque GPT y un maniquí bidireccional similar a Bert.

La bloque de los EBT los hace flexibles y compatibles con varias técnicas de escalera de tiempo de inferencia. “Los EBT pueden gestar cunas más largas, autoverificar, hacer lo mejor de N (o) que puede probar de muchos EBT”, dijo a VentureBeat, un estudiante de doctorado en ciencias de la computación en la Universidad de Illinois Urbana y autor principal del diario. “La mejor parte es que todas estas capacidades se aprenden durante el pretrénmente”.
EBTS en batalla
Los investigadores compararon los EBT con las arquitecturas establecidas: las populares Transformador ++ Fórmula para la engendramiento de texto (modalidades discretas) y el transformador de difusión (DIT) para tareas como la predicción de video y la renovación de imágenes (modalidades continuas). Evaluaron los modelos en dos criterios principales: “escalabilidad de educación”, o cuán eficientemente entrenan y “escalabilidad de pensamiento”, que mide cómo el rendimiento restablecimiento con más cálculo en el tiempo de inferencia.
Durante el pretrete, los EBT demostraron una eficiencia superior, logrando una tasa de escalera hasta un 35% más inscripción que el transformador ++ a través de datos, tamaño por lotes, parámetros y cuenta. Esto significa que los EBT pueden ser entrenados de modo más rápida y económica.
En inferencia, EBTS igualmente superó a los modelos existentes en tareas de razonamiento. Al “pensar más” (usando más pasos de optimización) y realizar la “autoverificación” (generando múltiples candidatos y nominar el que tiene la energía más herido), EBTS mejoró el rendimiento del modelado de habla en un 29% más que Transformer ++. “Esto se alinea con nuestras afirmaciones de que adecuado a que los transformadores de avance tradicionales no pueden asignar dinámicamente un cálculo adicional para cada predicción que se realiza, no pueden mejorar el rendimiento de cada token al pensar durante más tiempo”, escriben los investigadores.
Para la descenso de la imagen, EBTS logró mejores resultados que los dits al tiempo que usa el 99% menos de pases en torno a delante.
Crucialmente, el estudio encontró que los EBT se generalizan mejor que las otras arquitecturas. Incluso con el mismo o peor rendimiento previo, EBT superó los modelos existentes en las tareas aguas debajo. Las ganancias de rendimiento del pensamiento del Sistema 2 fueron más sustanciales en los datos que estuvieron más desactualizados (diferentes de los datos de capacitación), lo que sugiere que los EBT son particularmente robustos cuando se enfrentan a tareas novedosas y desafiantes.
Los investigadores sugieren que “los beneficios del pensamiento de EBTS no son uniformes en todos los datos, sino que escalan positivamente con la magnitud de los cambios de distribución, destacando el pensamiento como un mecanismo crítico para una extensión robusta más allá de las distribuciones de capacitación”.
Los beneficios de los EBT son importantes por dos razones. Primero, sugieren que a la escalera masiva de los modelos de cimientos actuales, los EBT podrían pasar significativamente la bloque de transformador clásico utilizada en LLMS. Los autores señalan que “a la escalera de los modelos de cojín modernos capacitados en 1,000x más datos con modelos 1,000x más grandes, esperamos que el rendimiento previo a la pretenerse de los EBT sea significativamente mejor que el de la fórmula Transformer ++”.
En segundo extensión, los EBT muestran una eficiencia de datos mucho mejor. Esta es una superioridad crítica en una era en la que los datos de entrenamiento de inscripción calidad se están convirtiendo en un cuello de botella importante para resquilar la IA. “A medida que los datos se han convertido en uno de los principales factores limitantes en una anciano escalera, esto hace que los EBTS sean especialmente atractivos”, concluye el documento.
A pesar de su diferente mecanismo de inferencia, la bloque EBT es en gran medida compatible con el transformador, lo que hace posible usarlos como un reemplazo de LLM presente.
“Los EBT son muy compatibles con los marcos actuales de hardware/inferencia”, dijo Gladstone, incluida la decodificación especulativa utilizando modelos de comestibles en GPU o TPU. Dijo que igualmente confía en que pueden ejecutarse en aceleradores especializados como LPU y algoritmos de optimización como FlashAttent-3, o pueden implementarse a través de marcos de inferencias comunes como VLLM.
Para los desarrolladores y las empresas, las fuertes capacidades de razonamiento y extensión de EBTS podrían convertirlos en una cojín poderosa y confiable para construir la próxima engendramiento de aplicaciones de IA. “Pensar más tiempo puede ayudar en genérico en casi todas las aplicaciones empresariales, pero creo que lo más emocionante será aquellos que requieran decisiones, seguridad o aplicaciones más importantes con datos limitados”, dijo Gladstone.





