
Los últimos modelos de razonamiento de Openai, O3 y O4-Mini, delirar con más frecuencia que los sistemas de IA anteriores de la compañía, según pruebas internas e investigaciones de terceros. En el punto de remisión Personqa de OpenAI, O3 alucinó el 33%del tiempo: duplique la tasa de modelos más antiguos O1 (16%) y O3-Mini (14.8%). El O4-Mini funcionó aún peor, alucinando el 48% del tiempo. La estructura sin fines de provecho AI Lab Transluce los procesos de fabricación de O3 descubiertos que afirmó usar, incluida la ejecución del código en un 2021 MacBook Pro “Fuera de ChatGPT”. El profesor adjunto de Stanford, Kian Katanforoosh, señaló que su equipo encontró que O3 genera con frecuencia los enlaces de sitios web rotos.
Operai dice en su mensaje técnico que “se necesita más investigación” para comprender por qué las alucinaciones empeoran a medida que los modelos de razonamiento aumentan.