Chatgpt se está volviendo más inteligente, pero sus alucinaciones están en bucle

Los últimos modelos de IA de Openai, GPT O3 y O4-Mini, alucinan significativamente con más frecuencia que sus predecesores
La maduro complejidad de los modelos puede conducir a inexactitudes más seguras
Las altas tasas de error generan preocupaciones sobre la confiabilidad de la IA en las aplicaciones del mundo existente

Las personas brillantes pero no confiables son un aspecto fundamental de la ficción (e historia). La misma correlación todavía puede aplicarse a la IA, basada en una investigación realizada por Operai y compartido por The New York Times. Las alucinaciones, los hechos imaginarios y las mentiras directas han sido parte de los chatbots de IA desde que fueron creados. Las mejoras en los modelos teóricamente deberían dominar la frecuencia con la que aparecen.

Los últimos modelos emblemáticos de Openai, GPT O3 y O4-Mini, están destinados a imitar la deducción humana. A diferencia de sus predecesores, que se centraron principalmente en la reproducción de texto con fluidez, Operai construyó GPT O3 y O4-Mini para pensar las cosas a través del paso a paso. Operai se ha jactado de que O1 podría igualar o exceder el rendimiento de los estudiantes de doctorado en química, biología y matemáticas. Pero el crónica de Openai destaca algunos resultados desgarradores para cualquiera que tome respuestas de ChatGPT al pie de la romance.

OpenAi descubrió que el maniquí GPT O3 incorporaba alucinaciones en un tercio de una prueba de narración que involucra figuras públicas. Eso es el doble de la tasa de error del maniquí O1 preparatorio del año pasado. El maniquí O4-Mini más compacto funcionó aún peor, alucinando en el 48% de tareas similares.

Cuando se analizan sobre preguntas de conocimiento más generales para el punto de narración SimpleQA, las alucinaciones se conmovieron al 51% de las respuestas para O3 y 79% para O4-Mini. Eso no es solo un poco de ruido en el sistema; Esa es una crisis de identidad completa. Uno pensaría que poco comercializado como un sistema de razonamiento al menos verificaría su propia deducción antiguamente de imaginar una respuesta, pero simplemente no es el caso.

Una teoría que hace las rondas en la comunidad de investigación de IA es que cuanto más razonamiento intenta hacer un maniquí, más posibilidades tiene que salir de los rieles. A diferencia de los modelos más simples que se adhieren a las predicciones de incorporación confianza, los modelos de razonamiento se aventuran en departamento donde deben evaluar múltiples rutas posibles, conectar hechos dispares y esencialmente improvisar. E improvisar los hechos todavía se conoce como inventar las cosas.

Funcionamiento ficticio

La correlación no es causalidad, y OpenAi le dijo al Veces Que el aumento de las alucinaciones podría no ser porque los modelos de razonamiento son inherentemente peores. En cambio, podrían ser simplemente más detallados y aventureros en sus respuestas. Correcto a que los nuevos modelos no solo repiten hechos predecibles, sino que especulan sobre las posibilidades, la columna entre la teoría y los hechos fabricados puede volverse borrosa para la IA. Desafortunadamente, algunas de esas posibilidades están completamente desapercibidas de la ingenuidad.

Aún así, más alucinaciones son lo opuesto a lo que OpenAi o sus rivales como Google y Anthrope quieren de sus modelos más avanzados. Chillar a los asistentes y copilotos de AI Chatbots implica que serán aperos, no peligrosos. Los abogados ya se han metido en problemas por usar ChatGPT y no notar citas de la corte imaginaria; ¿Quién sabe cuántos errores han causado problemas en circunstancias menos de parada aventura?

Las oportunidades para que una deslumbramiento cause un problema para un beneficiario se está expandiendo rápidamente a medida que los sistemas de IA comienzan a implementarse en las aulas, oficinas, hospitales y agencias gubernamentales. La IA sofisticada podría ayudar a redactar aplicaciones de empleo, resolver problemas de facturación o analizar hojas de cálculo, pero la paradoja es que cuanto más útil se vuelve la IA, menos espacio hay por error.

No puede afirmar que le ahorre tiempo y esfuerzo a las personas si tienen que ajar tan larga comprobación de todo lo que dice. No es que estos modelos no sean impresionantes. GPT O3 ha demostrado algunas hazañas sorprendentes de codificación y deducción. Incluso puede exceder a muchos humanos de alguna guisa. El problema es que en el momento en que Decide que Abraham Lincoln organizó un podcast o que el agua hierve a 80 ° F, la ilusión de la fiabilidad se rompe.

Hasta que se resuelvan esos problemas, debe tomar cualquier respuesta de un maniquí de IA con una cucharada de sal. A veces, ChatGPT es un poco como ese tipo incómodo en demasiadas reuniones a las que todos hemos asistido; Descansado de confianza en las tonterías absolutas.