¿Cuánta información efectivamente memorizan los LLM? Ahora sabemos, gracias a Meta, Google, Nvidia y Cornell


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


La mayoría de las personas interesadas en la IA generativa probablemente ya sepan que los modelos de idiomas grandes (LLM), como los detrás de ChatGPT, el Claude de Anthrope y Géminis de Google, están entrenados en conjuntos de datos masivos: billones de palabras extraídas de sitios web, libros, bases de código y, cada vez más, otros medios como imágenes, audio y video. ¿Pero por qué?

A partir de estos datos, los LLM desarrollan una comprensión estadística y generalizada del verbo, sus patrones y el mundo, codificados en forma de miles de millones de parámetros o “configuraciones”, en una red de neuronas artificiales (que son funciones matemáticas que transforman los datos de entrada en señales de salida).

Al estar expuestos a todos estos datos de entrenamiento, los LLM aprenden a detectar y internacionalizar patrones que se reflejan en los parámetros de sus neuronas. Por ejemplo, la palabra “manzana” a menudo aparece cerca de términos relacionados con alimentos, frutas o árboles, y a veces las computadoras. El maniquí recoge que las manzanas pueden ser rojos, verdes o amarillos, o incluso a veces otros colores si están podridos o raros, se escriben “manzana” en inglés y son comestibles. Este conocimiento estadístico influye en cómo replica el maniquí cuando un afortunado entra en un aviso: dar forma a la salida que genera en función de las asociaciones que “aprendió” de los datos de capacitación.

Pero sigue siendo una gran pregunta, incluso entre los investigadores de IA, cuánto de los datos de capacitación de un LLM se utilizan para construir generalizado representaciones de conceptos y cuánto es en su punto memorizado Latario o almacenado de una guisa idéntica o casi idéntica a los datos originales?

Esto es importante no solo para comprender mejor cómo funcionan los LLM, y cuándo salen mal, sino incluso como proveedores de modelos se defienden en demandas por infracción de derechos de autor traídos por creadores y propietarios de datos, como artistas y sellos discográficos. Si se muestra que los LLM reproducen porciones significativas de sus datos de entrenamiento al pie de la forma, los tribunales podrían ser más propensos a ponerse del flanco de los demandantes argumentando que los modelos copiaron ilegalmente material protegido. Si no, si se encuentra que los modelos generan futuro basadas en patrones generalizados en punto de replicación exacta, los desarrolladores pueden continuar raspando y capacitando sobre los datos con derechos de autor bajo las defensas legales existentes, como el uso acordado.

Ahora, finalmente tenemos una respuesta a la pregunta de cuánto memorizan LLMS contra internacionalizar: Un nuevo estudio publicado esta semana de investigadores de Meta, Google Deepmind, Cornell University y Nvidia descubre que Los modelos de estilo GPT tienen una capacidad de memorización fija de aproximadamente 3.6 bits por parámetro.

Para comprender lo que 3.6 bits significan en la actos:

  • Un solo bit es la pelotón más pequeña de datos digitales, que representa un 0 o un 1. Ocho bits constituyen un byte.
  • El almacenamiento de 3.6 bits permite aproximadamente 12.13 títulos distintos, calculados por 2^3.6.
  • Se prostitución de la cantidad de información necesaria para designar una de las 12 opciones, similar a optar un mes del año o el resultado de un rollo de un cedido de 12 lados.
  • Él no es suficiente para acumular incluso una carta en inglés (que necesita unos 4.7 bits), Pero es suficiente codificar un personaje de un conjunto escaso de 10 cultura en inglés comunes (que requiere aproximadamente 3.32 bits).
  • En los bytes, 3.6 bits son 0.45 bytes, menos de la centro del tamaño de un carácter característico almacenado en ASCII (que usa 8 bits o 1 byte).

Este número es independiente del maniquí en el interior de las variaciones arquitectónicas razonables: diferentes profundidades, anchos y precisiones produjeron resultados similares. La estimación se mantuvo estable a través de los tamaños del maniquí e incluso los niveles de precisión, con modelos de precisión completa que alcanzan títulos levemente más altos (hasta 3.83 bits/parámetro).

Más datos de capacitación no conducen a más memorización; de hecho, un maniquí será menos probable Para memorizar cualquier punto de datos único

Una conclusión secreto de la investigación es que los modelos no memorizan más cuando se entrenan en más datos. En cambio, la capacidad fija de un maniquí se distribuye a través del conjunto de datos, lo que significa que cada punto de datos individual recibe menos atención.

Jack Morris, el autor principal, explicado a través de la red social x que “el entrenamiento en más datos obligará a los modelos a memorizar menos por muestra”.

Estos hallazgos pueden ayudar a aliviar las preocupaciones en torno a modelos grandes que memorizan contenido con derechos de autor o sensibles.

Si la memorización se limita y se diluye en muchos ejemplos, la probabilidad de reproducir cualquier ejemplo de entrenamiento específico disminuye. En esencia, más datos de capacitación conducen al comportamiento de universalización más seguro, no un anciano peligro.

Cómo los investigadores identificaron estos hallazgos

Para cuantificar con precisión cuánto memorizan los modelos de verbo, los investigadores utilizaron un enfoque poco convencional pero poderoso: Entrenaron modelos de transformadores en conjuntos de datos compuestos de bitstrings uniformemente aleatorios. Cada una de estas Bitstrings se muestreó de forma independiente, asegurando que no existieran patrones, estructura o superfluidad entre ejemplos.

Adecuado a que cada muestra es única y sin características compartidas, cualquier tiento que muestra el maniquí en Restaurar o identificar estas cadenas durante la evaluación refleja directamente cuánta información retuvo o memorizada—Dinactar el entrenamiento.

La razón secreto de esta configuración fue eliminar por completo la posibilidad de universalización. A diferencia del verbo natural, que está realizado de estructura gramatical, superposición semántica y conceptos repetidos, los datos aleatorios uniformes no contienen dicha información. Cada ejemplo es esencialmente ruido, sin relación estadística con ningún otro. En tal decorado, cualquier rendimiento del maniquí en los datos de la prueba debe provenir exclusivamente de la memorización de los ejemplos de capacitación, ya que no hay un patrón de distribución para internacionalizar.

Los autores argumentan que su método es quizás Una de las únicas formas de principios de decoupular la memorización del formación En la actos, oportuno a que cuando los LLM están entrenados en un verbo positivo, incluso cuando producen una salida que coincide con los datos de entrenamiento, es difícil asimilar si memorizaron la entrada o simplemente inferieron la estructura subyacente de los patrones que han observado.

Este método permite a los investigadores mapear una relación directa entre el número de parámetros del maniquí y la información total almacenada. Al aumentar gradualmente el tamaño del maniquí y el entrenamiento de cada transformación a la saturación, en cientos de experimentos en modelos que varían de 500k a 1.5 mil millones de parámetros, observaron resultados consistentes: 3.6 bits memorizados por parámetroque informan como una medida fundamental de la capacidad de memoria LLM.

El equipo aplicó su metodología a modelos capacitados en conjuntos de datos del mundo positivo incluso. Cuando se entrenaron en texto, los modelos exhibieron un seguridad de memorización y universalización.

Los conjuntos de datos más pequeños alentaron más memorización, pero a medida que aumentaba el tamaño del conjunto de datos, los modelos se desplazaron con destino a el formación de patrones generalizables. Esta transición estuvo marcada por un engendro conocido como “doble descenso”, donde el rendimiento se sumerge temporalmente ayer de mejorar una vez que la universalización se desarrolla.

El estudio incluso examinó cómo la precisión del maniquí, la capacitación de comparación en BFLOAT16 contra Float32, afecta la capacidad de memorización. Observaron un aumento modesto de 3.51 a 3.83 bits por parámetro al cambiar a una precisión completa de 32 bits. Sin confiscación, esta lucro es mucho beocio de lo que sugeriría la duplicación de los bits disponibles, lo que implica rendimientos decrecientes de una anciano precisión.

Es más probable que los datos únicos sean memorizados

El documento propone una ley de escalera que relacione la capacidad de un maniquí y el tamaño del conjunto de datos con la efectividad de los ataques de inferencia de membresía.

Estos ataques intentan determinar si un punto de datos particular era parte del conjunto de entrenamiento de un maniquí. La investigación muestra que tales ataques se vuelven poco confiables a medida que crece el tamaño del conjunto de datos, lo que respalda el argumento de que la capacitación a gran escalera ayuda a compendiar el peligro de privacidad.

Si perfectamente el documento se centra en el comportamiento de los casos promedio, algunos investigadores han señalado que ciertos tipos de datos, como escritura en extremo única o estilizada, aún son más susceptibles a la memorización.

Los autores reconocen esta obstáculo y enfatizan que su método está diseñado para caracterizar las tendencias generales en punto de los casos de borde.

Avanzar con destino a una anciano comprensión humana de la comprensión de LLM

Al introducir una definición de memorización de principios y cuantificables, el estudio brinda a los desarrolladores e investigadores nuevas herramientas para evaluar el comportamiento de los modelos de verbo. Esto ayuda no solo con la transparencia del maniquí sino incluso con el cumplimiento, la privacidad y los estándares éticos en el explicación de la IA. Los hallazgos sugieren que más datos, y no menos, son el camino más seguro al entrenar modelos de idiomas a gran escalera.

Poner la memorización total del maniquí en perspectiva:

  • Un maniquí de 500k-parámetro puede memorizar aproximadamente 1,8 millones de bits, o 225 kb de datos.
  • Un maniquí de parámetros de 1,5 mil millones puede contener aproximadamente 5,4 mil millones de bits, o 675 megabytes de información bruta.
  • Esto no es comparable al almacenamiento de archivos característico como las imágenes (por ejemplo, una imagen sin comprimir de 3.6 MB es de aproximadamente 30 millones de bits), pero es significativo cuando se distribuye en patrones textuales discretos.

No soy abogado o habituado constitucional, pero espero que dicha investigación se cita en las numerosas demandas en curso entre proveedores de IA y creadores de datos/propietarios de derechos.


Related Posts

Apple Intelligence en WWDC 2025: Genmoji aggiornamento entrante en extensión de Siri personalizado

Según la próxima semana, se anunciarán algunas mejoras de inteligencia de Apple de último escalera en WWDC 2025 la próxima semana, según BloombergMark Gurman. Una aggiornamento planificada que no se…

La acumulador de su cronómetro de píxel podría durar más con esta función Wear OS 6

Kaitlyn Cimino / Android Authority Tl; Dr La próxima aggiornamento Wear OS 6 puede introducir una nueva función de carga adaptativa diseñada para proteger las baterías de relojes inteligentes de…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Apple Intelligence en WWDC 2025: Genmoji aggiornamento entrante en extensión de Siri personalizado

Apple Intelligence en WWDC 2025: Genmoji aggiornamento entrante en extensión de Siri personalizado

Jhonnattan Castro hace historia como primer dominicano y latino en fórmula Drift Pro Podium

Jhonnattan Castro hace historia como primer dominicano y latino en fórmula Drift Pro Podium

Vaguada generará aguaceros la tarde de este viernes

Vaguada generará aguaceros la tarde de este viernes

Impreso viernes 6 junio 2025

Impreso viernes 6 junio 2025

¿Cuándo podrán aplicar los maestros del tira de elegibles ?

¿Cuándo podrán aplicar los maestros del tira de elegibles ?

AFP Popular educa sobre pensiones con verdad inmersiva

AFP Popular educa sobre pensiones con verdad inmersiva