Los investigadores muestran que entrenar con “datos basura” puede provocar una “podredumbre cerebral” en el LLM

A primera olfato, parece obvio que entrenar un LLM con datos de “entrada calidad” conducirá a un mejor rendimiento que alimentarlo con cualquier basura vieja de “herido calidad” que pueda encontrar. Ahora, un corro de investigadores está intentando cuantificar en qué medida este tipo de datos de herido calidad puede provocar que un LLM experimente pertenencias similares a la “pudrición cerebral” humana.

Para un artículo preimpreso publicado este meslos investigadores de Texas A&M, la Universidad de Texas y la Universidad Purdue se inspiraron en investigaciones existentes que muestran cómo los humanos que consumen “grandes volúmenes de contenido en recorrido trivial y poco desafiante” pueden desarrollar problemas de atención, memoria y cognición social. Eso los llevó a lo que llaman la “hipótesis de la pudrición cerebral LLM”, resumida como la idea de que “el entrenamiento previo continuo en texto web basura induce un detrimento cognitivo duradero en los LLM”.

Por supuesto, descubrir qué se considera “texto web basura” y qué se considera “contenido de calidad” está remotamente de ser un proceso simple o completamente objetivo. Pero los investigadores utilizaron algunas métricas diferentes para provocar un “conjunto de datos basura” y un “conjunto de datos de control” de El corpus de HuggingFace de 100 millones de tweets.

Regalado que la pudrición del cerebro en los humanos es “una consecuencia de la anexión a Internet”, escriben, los tweets basura deberían ser aquellos “que puedan maximizar la billete de los usuarios de una forma trivial”. Como tal, los investigadores crearon un conjunto de datos “basura” recopilando tweets con altos números de billete (me gusta, retweets, respuestas y citas) y longitudes más cortas, calculando que “los tweets más populares pero más cortos se considerarán datos basura”.

Para una segunda métrica “basura”, los investigadores se basaron en investigaciones de mercados para constreñir la “calidad semántica” de los propios tweets. Utilizando un enrevesado mensaje GPT-4o, intentaron extraer tweets que se centraran en “temas superficiales (como teorías de conspiración, afirmaciones exageradas, afirmaciones sin fundamento o contenido superficial de estilo de vida)” o que tuvieran un “estilo para apetecer la atención (como titulares sensacionalistas que utilizan jerga clickbait o palabras desencadenantes excesivas)”. Se comparó una muestra aleatoria de estas clasificaciones basadas en LLM con evaluaciones de tres estudiantes de posgrado con una tasa de coincidencia del 76 por ciento.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Los investigadores muestran que entrenar con “datos basura” puede provocar una “podredumbre cerebral” en el LLM

ztevenreal

Related Posts

Utilicé Omega Linux para revitalizar una PC basura y es notablemente mejor que Ubuntu

Respuestas del mini crucigrama del NYT de hoy para el 20 de marzo

You Missed

EE.UU. y República Dominicana refuerzan cooperación contra el narcoterrorismo en el Caribe

Los nuevos novatos de las Grandes Ligas que prometen dejar huella en la temporada 2026

Utilicé Omega Linux para revitalizar una PC basura y es notablemente mejor que Ubuntu

Tirada impresa 20 de marzo 2026

Jesse Zarzuela seleccionó la primera selección del Draft LNB 2026 | AlMomento.net

Respuestas del mini crucigrama del NYT de hoy para el 20 de marzo