El éxito de Deepseek muestra por qué la motivación es esencia para la innovación de IA


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Enero de 2025 sacudió el paisaje de IA. El OpenAI aparentemente imparable y los poderosos gigantes tecnológicos estadounidenses se sorprendieron por lo que ciertamente podemos gustar un desvalido en el ámbito de grandes modelos de idiomas (LLM). Deepseek, una empresa china que no está en el radar de nadie, de repente desafió a OpenAi. No es que Deepseek-R1 fuera mejor que los mejores modelos de los gigantes estadounidenses; Estaba sutilmente retrasado en términos de los puntos de narración, pero de repente hizo que todos pensaran en la eficiencia en términos de hardware y uso de energía.

Dada la desliz de disponibilidad del mejor hardware de reincorporación tonalidad, parece que Deepseek estaba motivado para innovar en el ámbito de eficiencia, lo cual era una preocupación último para los jugadores más grandes. Operai ha afirmado que tienen evidencia que sugiere que Deepseek puede suceder usado su maniquí para la capacitación, pero no tenemos pruebas concretas para respaldar esto. Entonces, ya sea cierto o que sea OpenAi simplemente tratar de apaciguar a sus inversores es un tema de debate. Sin confiscación, Deepseek ha publicado su trabajo, y las personas han verificado que los resultados son reproducibles al menos en una escalera mucho más pequeña.

Pero, ¿cómo podría Deepseek alcanzar tales ahorradores de costos, mientras que las empresas estadounidenses no podían? La respuesta corta es simple: tenían más motivación. La respuesta larga requiere un poco más de una explicación técnica.

Deepseek usó la optimización de KV-Cache

Un capital importante de costos para la memoria de GPU fue la optimización del elegancia de valía esencia utilizado en cada capa de atención en un LLM.

Los LLM están formados por bloques de transformadores, cada uno de los cuales comprende una capa de atención seguida de una red regular de viandas de vainica. La red de feed-forward modela las relaciones arbitrarias conceptuales, pero en la experiencia, es difícil para él determinar siempre los patrones en los datos. La capa de atención resuelve este problema para el modelado de idiomas.

El maniquí procesa textos utilizando tokens, pero por simplicidad, nos referiremos a ellos como palabras. En un LLM, a cada palabra se le asigna un vector en una dimensión reincorporación (por ejemplo, mil dimensiones). Conceptualmente, cada dimensión representa un concepto, como ser caliente o frío, ser verde, ser suave, ser un sustantivo. La representación vectorial de una palabra es su significado y títulos según cada dimensión.

Sin confiscación, nuestro verbo permite que otras palabras modifiquen el significado de cada palabra. Por ejemplo, una manzana tiene un significado. Pero podemos tener una manzana verde como traducción modificada. Un ejemplo más extremo de modificación sería que una Apple en un contexto de iPhone difiere de una Apple en un contexto de prado. ¿Cómo dejamos que nuestro sistema modifique el significado vectorial de una palabra basado en otra palabra? Aquí es donde entra la atención.

El maniquí de atención asigna otros dos vectores a cada palabra: una esencia y una consulta. La consulta representa las cualidades del significado de una palabra que se puede modificar, y la esencia representa el tipo de modificaciones que puede proporcionar a otras palabras. Por ejemplo, la palabra ‘verde’ puede proporcionar información sobre color y verde. Entonces, la esencia de la palabra ‘verde’ tendrá un detención valía en la dimensión ‘verde’. Por otro banda, la palabra ‘manzana’ puede ser verde o no, por lo que el vector de consulta de ‘manzana’ igualmente tendría un detención valía para la dimensión verde. Si tomamos el producto DOT de la esencia de ‘verde’ con la consulta de ‘manzana’, el producto debe ser relativamente extenso en comparación con el producto de la esencia de ‘tabla’ y la consulta de ‘manzana’. La capa de atención luego agrega una pequeña fracción del valía de la palabra ‘verde’ al valía de la palabra ‘manzana’. De esta guisa, el valía de la palabra ‘Apple’ se modifica para ser un poco más verde.

Cuando el LLM genera texto, lo hace una palabra tras otra. Cuando genera una palabra, todas las palabras generadas anteriormente se convierten en parte de su contexto. Sin confiscación, las teclas y los títulos de esas palabras ya están calculados. Cuando se agrega otra palabra al contexto, su valía debe actualizarse en función de su consulta y las claves y títulos de todas las palabras anteriores. Es por eso que todos esos títulos se almacenan en la memoria de la GPU. Este es el elegancia KV.

Deepseek determinó que la esencia y el valía de una palabra están relacionados. Entonces, el significado de la palabra verde y su capacidad para afectar la verdura están obviamente muy estrechamente relacionados. Por lo tanto, es posible comprimir tanto como un vector único (y tal vez más pequeño) y descomprimir mientras se procesa muy fácilmente. Deepseek ha descubierto que afecta su rendimiento en los puntos de narración, pero ahorra mucha memoria de GPU.

Deepseek adaptado moe

La naturaleza de una red neuronal es que toda la red debe ser evaluada (o calculada) para cada consulta. Sin confiscación, no todo esto es un cálculo útil. El conocimiento del mundo se encuentra en los pesos o parámetros de una red. El conocimiento sobre la Torre Eiffel no se usa para replicar preguntas sobre la historia de las tribus sudamericanas. Enterarse que una manzana es una fruta no es útil al replicar preguntas sobre la teoría común de la relatividad. Sin confiscación, cuando se calcula la red, todas las partes de la red se procesan independientemente. Esto incurre en grandes costos de cálculo durante la concepción de texto que idealmente deberían evitarse. Aquí es donde entra la idea de la mezcla de expertos (MOE).

En un maniquí MOE, la red neuronal se divide en múltiples redes más pequeñas llamadas expertos. Tenga en cuenta que el ‘hábil’ en el tema no está definido explícitamente; La red lo resuelve durante el entrenamiento. Sin confiscación, las redes asignan una puntuación de relevancia a cada consulta y solo activan las partes con puntajes de coincidencia más altos. Esto proporciona un gran capital de costos en el cálculo. Tenga en cuenta que algunas preguntas necesitan experiencia en múltiples áreas para ser respondidas correctamente, y el rendimiento de tales consultas se degradará. Sin confiscación, correcto a que las áreas se resuelven a partir de los datos, se minimiza el número de tales preguntas.

La importancia del enseñanza de refuerzo

Se le enseña a un LLM a pensar a través de un maniquí de dependencia de pensamiento, con el maniquí preciso para imitar el pensamiento antaño de entregar la respuesta. Se le pide al maniquí que verbalice su pensamiento (genere el pensamiento antaño de ocasionar la respuesta). Luego se evalúa el maniquí tanto en el pensamiento como en la respuesta, y se entrena con enseñanza de refuerzo (recompensado para una coincidencia correcta y penalizado para una coincidencia incorrecta con los datos de entrenamiento).

Esto requiere datos de entrenamiento costosos con el token de pensamiento. Deepseek solo le pidió al sistema que generara los pensamientos entre las etiquetas y y para ocasionar las respuestas entre las etiquetas y . El maniquí es recompensado o penalizado puramente en función de la forma (el uso de las etiquetas) y la coincidencia de las respuestas. Esto requirió datos de capacitación mucho menos costosos. Durante la período temprana de RL, el maniquí probado generó muy poco pensamiento, lo que resultó en respuestas incorrectas. Finalmente, el maniquí aprendió a ocasionar pensamientos largos y coherentes, que es lo que Deepseek lumbre el momento ‘a-ha’. Luego de este punto, la calidad de las respuestas mejoró asaz.

Deepseek emplea varios trucos de optimización adicionales. Sin confiscación, son muy técnicos, por lo que no los profundizaré aquí.

Pensamientos finales sobre Deepseek y el mercado más extenso

En cualquier investigación de tecnología, primero necesitamos ver lo que es posible antaño de mejorar la eficiencia. Esta es una progresión natural. La contribución de Deepseek al paisaje LLM es fenomenal. La contribución académica no se puede ignorar, ya sea que estén o no entrenando o no la salida de OpenAI. Además puede mudar la forma en que funcionan las startups. Pero no hay razón para que Operai o los otros gigantes estadounidenses se desesperen. Así es como funciona la investigación: un conjunto se beneficia de la investigación de los otros grupos. Deepseek ciertamente se benefició de las investigaciones anteriores realizadas por Google, Operai y muchos otros investigadores.

Sin confiscación, la idea de que Operai dominará el mundo LLM indefinidamente ahora es muy poco probable. Ninguna cantidad de conspiración regulatorio o señalar con el dedo preservará su monopolio. La tecnología ya está en manos de muchos y fuera de la intemperie, lo que hace que su progreso sea imparable. Aunque esto puede ser un poco de dolor de inicio para los inversores de OpenAI, en última instancia es una triunfo para el resto de nosotros. Si acertadamente el futuro pertenece a muchos, siempre estaremos agradecidos con los primeros contribuyentes como Google y OpenAI.

Debrasish Ray Chawdhuri es ingeniero principal senior en Software Talentica.


Related Posts

Aquí están las nuevas empresas de América Latina basadas en la valoración.

No hace mucho tiempo, la idea de que las compañías de tecnología pública que emergen de América Latina parecían descabelladas, y Mercado Disponible una vez parecía tan rara y mítica…

Clair Obscur: las batallas de Expedition 33 son las mejores cuando las rompes

Clear Obscure: Expedition 33 Tiene batallas llamativas y emocionantes, pero lo mejor de ellas es cómo puedes torcer los muchos sistemas del ocio para tu preeminencia. El combate RPG por…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Pequeño flujo de indocumentados en hospitales por eficaz migratorio

Pequeño flujo de indocumentados en hospitales por eficaz migratorio

Arrestan a un hombre e incautan mercancía durante un igualación en Elías Piña

Arrestan a un hombre e incautan mercancía durante un igualación en Elías Piña

Un sospechoso del robo de joyas de Kim Kardashian asumirá su culpabilidad en el cordura en París

Un sospechoso del robo de joyas de Kim Kardashian asumirá su culpabilidad en el cordura en París

“Filmar en RD es un acto de fe, coraje, ingenio y alma”

“Filmar en RD es un acto de fe, coraje, ingenio y alma”

Aquí están las nuevas empresas de América Latina basadas en la valoración.

Aquí están las nuevas empresas de América Latina basadas en la valoración.

Víctor Pichardo constata prioridades educativas en Samaná

Víctor Pichardo constata prioridades educativas en Samaná