
En el caótico mundo de la optimización del maniquí de habla excelso (LLM), los ingenieros han pasado los últimos primaveras desarrollando rituales cada vez más esotéricos para obtener mejores respuestas.
hemos pasado "Sujeción de pensamiento" (pidiendo al maniquí que piense paso a paso y, a menudo, muestre esos "rastros de razonamiento" al heredero), "Chantaje emocional" (Decirle a la maniquí que su carrera depende de la respuesta, o que es ser pronunciado de conducta sexual inapropiada) y marcos complejos de indicaciones de múltiples disparos.
Pero un nuevo artículo publicado por Google Research sugiere que es posible que hayamos estado pensando demasiado en ello. Los investigadores descubrieron que simplemente repetir la consulta de entrada (textualmente copiar y pegar el mensaje para que aparezca dos veces) restablecimiento constantemente el rendimiento en los principales modelos, incluidos Gemini, GPT-4o, Claude y DeepSeek.
El documento, titulado "La repetición rápida restablecimiento los LLM sin razonamiento," publicado el mes pasado acordado antaño de las holganza, presenta un hallazgo que es casi sospechosamente simple: para tareas que no requieren pasos de razonamiento complejos, formular la indicación dos veces produce resultados significativamente mejores que formularla una vez.
Aún mejor, correcto a cómo funciona la cimentación del transformador, esto "un truco extraño" viene con una penalización prácticamente nula en términos de velocidad de vivientes.
El punto ciego causal
Para comprender por qué repetir una pregunta hace que una supercomputadora sea más inteligente, hay que observar las limitaciones arquitectónicas del maniquí Transformer normalizado.
La mayoría de los LLM modernos están capacitados como "causal" modelos lingüísticos. Esto significa que procesan el texto estrictamente de izquierda a derecha. Cuando el maniquí está procesando la villa ficha de su oración, puede "asistir" (preste atención) a las fichas 1 a 4, pero no tiene conocimiento de la ficha 6, porque aún no ha sucedido.
Esto crea una traba fundamental en la forma en que los modelos entienden las consultas de los usuarios. Como señalan los autores, el orden de la información es sumamente importante.
Una consulta formateada como <CONTEXT> <QUESTION> a menudo produce resultados diferentes a los <QUESTION> <CONTEXT> porque, en el posterior caso, el maniquí lee la pregunta antaño de conocer el contexto al que se supone que debe aplicarla.
La repetición rápida elimina esta traba al transfigurar una entrada de <QUERY> en <QUERY><QUERY>.
Cuando el maniquí comienza a procesar el segundo iteración de la consulta, ya ha "observar" la primera iteración. Esto permite que los tokens de la segunda copia atiendan cada token de la primera copia.
Efectivamente, la segunda repetición disfruta de una forma de atención bidireccional: puede "mirar en torno a detrás" en toda la consulta para resolver ambigüedades o recuperar detalles específicos que podrían haberse pasado por stop en una sola pasada.
Los puntos de remisión: 47 victorias, 0 derrotas
Los investigadores, Yaniv Leviathan, Matan Kalman y Yossi Matias, probaron esta hipótesis en un conjunto de siete puntos de remisión populares, incluidos ARC, OpenBookOA, GSM8K y MMLU-Pro. Evaluaron siete modelos diferentes, desde modelos livianos como Gemini 2.0 Flash Lite y GPT-4o-mini hasta pesos pesados como Claude 3.7 Sonnet y DeepSeek V3. Los resultados fueron estadísticamente claros. Al preguntar a los modelos no Para utilizar el razonamiento visible (es afirmar, simplemente dar una respuesta directa), la repetición de indicaciones ganó 47 de 70 pruebas comparativas con la secante de saco, sin pérdidas. Las ganancias fueron particularmente dramáticas en tareas que requerían una recuperación precisa de una indicación. El equipo diseñó una costumbre "NombreÍndice" punto de remisión, donde al maniquí se le da una directorio de 50 nombres y se le pide que identifique el número 25.
-
Rendimiento de remisión: Gemini 2.0 Flash-Lite obtuvo una puntuación deprimente 21,33% exactitud.
-
Con repetición: La precisión se disparó a 97,33%.
Este enorme brinco ilustra la "punto ciego causal" perfectamente. En una sola pasada, el maniquí podría perder la cuenta cuando llegue al nombre número 25. En la pasada repetida, el maniquí efectivamente tiene la directorio completa en su "memoria de trabajo" antaño de intentar resolver la tarea de recuperación.
El "Tentempié de balde" de latencia
Por lo universal, amplificar texto a un mensaje aumenta los costos y la latencia. Si duplicas la entrada, ¿seguramente duplicas el tiempo de demora? Sorprendentemente, no. El artículo demuestra que la repetición rápida es esencialmente "de balde" con respecto a la latencia percibida por el heredero. El procesamiento LLM se divide en dos etapas:
-
Precarga: El maniquí procesa la solicitud de entrada. Esto es en gran medida paralelizable; la GPU puede procesar toda la matriz de mensajes simultáneamente.
-
Engendramiento (Decodificación): El maniquí genera la respuesta un token a la vez. Esto es serial y pausado.
La repetición rápida sólo aumenta el trabajo en el prellenar marco. Adecuado a que el hardware reciente maneja el prellenado de forma tan capaz, el heredero escasamente nota la diferencia. Los investigadores encontraron que repetir la indicación no no aumentó la distancia de la respuesta generada, ni aumentó la "tiempo hasta la primera ficha" latencia para la mayoría de los modelos. Las únicas excepciones fueron los modelos de Anthropic (Claude Haiku y Sonnet) en solicitudes extremadamente largas, donde la etapa de precarga finalmente encontró un cuello de botella. Pero para la gran mayoría de los casos de uso, la técnica restablecimiento la precisión sin detener la experiencia del chat.
Razonamiento contra repetición
Hay una advertencia: esta técnica es principalmente para "sin razonamiento" Tareas: escenarios en los que desea una respuesta directa en extensión de una derivación paso a paso.
Cuando los investigadores probaron la repetición rápida combinada con "Sujeción de pensamiento" (pidiendo al maniquí que "piensa paso a paso"), las ganancias desaparecieron en gran medida, mostrando resultados neutrales a levemente positivos (5 victorias, 1 derrota, 22 empates).
Los autores postulan que los modelos de razonamiento realizan ellos mismos de forma natural una traducción de repetición. cuando un maniquí "piensa," a menudo reafirma la premisa de la pregunta en el resultado generado antaño de resolverla. Por lo tanto, repetir explícitamente el mensaje en la entrada se vuelve redundante.
Sin incautación, para aplicaciones en las que se necesita una respuesta rápida y directa sin la verbosidad (y el costo) de un grande rastreo de razonamiento, la repetición rápida ofrece una poderosa alternativa.
Implementación estratégica para la empresa
Para el liderazgo empresarial, esta investigación representa lo más raro en el crecimiento de la IA: una "de balde" mejoramiento. Pero las mayúsculas requieren matices; Esta no es una configuración para turnar ciegamente en toda una ordenamiento, sino más correctamente un ajuste táctico que afecta a la ingeniería, la orquestación y la seguridad.
Para los líderes técnicos que equilibran el interminable triángulo de velocidad, calidad y costo, la repetición rápida ofrece una forma de pasar su categoría de peso. Los datos muestran que los modelos más pequeños y rápidos, como Gemini 2.0 Flash Lite, pueden obtener una precisión de recuperación casi perfecta (pasando del 21,33 % al 97,33 %) simplemente procesando la entrada dos veces.
Esto cambia el cálculo para la selección del maniquí: antaño de refrescar a un maniquí más excelso y costoso para resolver un cuello de botella en la precisión, los ingenieros primero deben probar si la simple repetición permite su presente "informal" modelos para cerrar la brecha. Es una logística potencial para conservar la velocidad y los beneficios de costos de la infraestructura liviana sin inmolar el rendimiento en las tareas de linaje y recuperación.
Esta deducción, lógicamente, traslada la carga a la capa de orquestación. Para quienes administran el middleware y las puertas de enlace API que unen las aplicaciones de IA, la repetición rápida probablemente debería convertirse en un componente normalizado e invisible de la deducción del proceso en extensión de un comportamiento del heredero.
Sin incautación, correcto a que la técnica es neutro para tareas con mucho razonamiento pero muy efectiva para respuestas directas, requiere una aplicación condicional. Un arnés de orquestación inteligente identificaría automáticamente las solicitudes dirigidas a puntos finales que no razonan (como linaje de entidades, clasificación o preguntas y respuestas simples) y duplicaría el mensaje antaño de pasarlo al maniquí. Esto optimiza el rendimiento a nivel de infraestructura, entregando mejores resultados sin requerir argumento por parte de los usuarios finales ni aumentar el presupuesto de vivientes.
Finalmente, esta maduro atención introduce una nueva variable para los equipos de seguridad.
Si repetir un mensaje aclara la intención de un heredero en el maniquí, es razonable que todavía se aclaren las intenciones maliciosas. Los directores de seguridad deberán refrescar sus protocolos de formación de equipos rojos para realizar pruebas. "inyección repetida" ataques: repasar si repetir un comando de jailbreak (p. ej., "Ignorar instrucciones anteriores") hace el maniquí "asistir" a la infracción de forma más eficaz. Por el contrario, este mecanismo ofrece una nueva utensilio defensiva: repetir las indicaciones del sistema.
Indicar barreras de seguridad dos veces al inicio de la ventana de contexto podría mover al maniquí a atender las restricciones de seguridad de forma más rigurosa, actuando como un refuerzo de bajo costo para operaciones de seguridad sólidas.
Por qué esto importa
Esta investigación destaca una idea crucial para los desarrolladores que construyen sobre LLM: nuestros modelos actuales todavía están profundamente limitados por su naturaleza unidireccional. Mientras esperamos nuevas arquitecturas que puedan resolver la ceguera causal, soluciones alternativas burdas pero efectivas, como la repetición rápida, ofrecen un valía inmediato. Los autores sugieren que esto podría convertirse en un comportamiento predeterminado para sistemas futuros.
Es posible que pronto veamos motores de inferencia que silenciosamente duplican nuestras indicaciones en segundo plano antaño de enviarlas al maniquí, o "Razonamiento" modelos entrenados para internalizar esta logística de repetición para ser más eficientes. Por ahora, si tiene dificultades para obtener que un maniquí siga instrucciones complejas o recupere detalles específicos de un documento extenso, es posible que la alternativa no sea una mejor opción. Quizás necesites decirlo de nuevo.






