

Operai dice que sus últimos modelos, O3 y O4-Mini, son los más poderosos hasta ahora. Sin incautación, la investigación muestra que los modelos todavía alucinan más, al menos el doble que los modelos anteriores.
Igualmente: Cómo usar ChatGPT: una recorrido para principiantes para el chatbot de IA más popular
En el polímero del sistemaun crónica que acompaña a cada nuevo maniquí de IA, y publicado con el extensión la semana pasada, Operai informó que O4-Mini es menos preciso y alucina más que O1 y O3. Usando Personqa, una prueba interna basada en la información arreglado públicamente, la compañía encontró alucinada O4-Mini en el 48% de las respuestas, que es tres veces la tasa de O1.
Mientras que O4-Mini es más pequeño, más económico y más rápido que O3 y, por lo tanto, no se esperaba que lo superara, O3 todavía alucinado en el 33% de las respuestas, o el doble de la tasa de O1. De los tres modelos, O3 obtuvo la mejor precisión.
Igualmente: el O1 de Openai se encuentra más que cualquier maniquí de IA importante. Por qué eso importa
“El O3 tiende a hacer más reclamos en genérico, lo que lleva a reclamos más precisos, así como reclamos más inexactos/alucinados”, explicó el crónica de Openi. “Se necesita más investigación para comprender la causa de este resultado”.
Las alucinaciones, que se refieren a afirmaciones, estudios e incluso URL fabricados, han seguido afectando incluso los avances más de vanguardia en la IA. Actualmente no existe una alternativa perfecta para prevenirlos o identificarlos, aunque OpenAI ha probado algunos enfoques.
Encima, la demostración de hechos es un objetivo en movimiento, lo que dificulta la incrustación y la escalera. La demostración de hechos implica cierto nivel de habilidades cognitivas humanas que la IA carece principalmente, como el sentido popular, el discernimiento y la contextualización. Como resultado, la medida en que un maniquí alucina depende en gran medida de la calidad de los datos de capacitación (y el paso a Internet para obtener información coetáneo).
Minimizar información falsa en los datos de capacitación puede disminuir la posibilidad de una exposición falsa aguas debajo. Sin incautación, esta técnica no evita las alucinaciones, ya que muchas de las opciones creativas de un chatbot de IA aún no se entienden completamente.
En genérico, el peligro de alucinaciones tiende a reducirse lentamente con cada nuevo extensión del maniquí, que es lo que hace que los puntajes de O3 y O4-Mini sean poco inesperados. Aunque O3 ganó 12 puntos porcentuales sobre O1 en precisión, el hecho de que el maniquí se alucina el doble sugiere que su precisión no ha crecido proporcionalmente a sus capacidades.
Encima: mis dos aplicaciones de IA favoritas en Linux, y cómo las uso para hacer más
Al igual que otras versiones recientes, O3 y O4-Mini son modelos de razonamiento, lo que significa que externalizan los pasos que toman para interpretar un aviso para que un favorecido la vea. La semana pasada, el laboratorio de investigación independiente Transluce publicó su evaluaciónque encontró que O3 a menudo falsifica las acciones que no puede tomar en respuesta a una solicitud, incluida la afirmación de ejecutar Python en un entorno de codificación, a pesar de que el chatbot no tiene esa capacidad.
Encima, el maniquí se duplica cuando se atrapa. “(O3) justifica aún más las expectativas alucinadas cuando el favorecido lo cuestiona, incluso afirma que usa un MacBook Pro forastero para realizar cálculos y copia las expectativas en ChatGPT”, explicó el crónica. Translucy encontró que estas afirmaciones falsas sobre el código de ejecución eran más frecuentes en los modelos de la serie O (O1, O3-Mini y O3) que los modelos de la serie GPT (4.1 y 4O).
Este resultado es especialmente confuso porque los modelos de razonamiento tardan más en proporcionar respuestas más exhaustivas y de veterano calidad. Translucir la cofundadora Sarah Schwettmann incluso le dijo a TechCrunch que “la tasa de fantasía de O3 puede hacer que sea menos útil de lo que sería de otra modo”.
Encima: los chatbots están distorsionando parte, incluso para usuarios pagos
El crónica de Transluce dijo: “Aunque se sabe que existen problemas de fiabilidad del post-entrenamiento, no explican completamente la veterano compostura de la fantasía en los modelos de razonamiento. Presumimos que estos problemas podrían intensificarse mediante opciones de diseño específicas en modelos de razonamiento de la serie O, como el formación de refuerzo basado en resultados y la omisión de las cables de tensiones de tensos anteriores”.
La semana pasada, las fuentes interiormente de Operai y los probadores de terceros confirmaron que la compañía ha minimizado drásticamente las pruebas de seguridad para nuevos modelos, incluido O3. Mientras que la polímero del sistema muestra que O3 y O4-Mini están “aproximadamente a la par” con O1 para la robustez contra los intentos de jailbreak (los tres puntajes entre 96% y 100%), estos puntajes de fantasía plantean preguntas sobre los impactos no relacionados con la seguridad de las líneas de tiempo de prueba cambiantes.
La responsabilidad todavía está en los usuarios para confirmar la salida de cualquier maniquí de IA. Esta logística parece sabia cuando se usa los modelos de razonamiento de última gestación.