
Pero en otras tareas, el maniquí mostró resultados mucho más variables. Cuando se le pidió que genere un video que resalte un carácter escrito específico en una cuadrícula, por ejemplo, el maniquí falló en nueve de cada 12 pruebas. Cuando se le pidió que modelara un quemador Bunsen encendido y quemando un trozo de papel, falló de guisa similar nueve de 12 veces. Cuando se le pidió que resuelva un jaleo simple, falló en 10 de 12 pruebas. Cuando se le pidió que ordene los números que estallen burbujas etiquetadas en orden, falló en la friolera de 11 de cada 12 veces.
Sin requisa, para los investigadores, todos los ejemplos anteriores no son evidencia de fracaso, sino una señal de las capacidades del maniquí. Para figurar en los “casos de equivocación” del documento, VEO 3 tuvo que decidir una tarea probada en los 12 ensayos, lo que ocurrió en 16 de las 62 tareas probadas. Por lo demás, los investigadores escriben que “una tasa de éxito maduro que 0 sugiere que el maniquí posee la capacidad de resolver la tarea”.
Por lo tanto, decidir 11 de cada 12 senderos de una determinada tarea se considera evidencia para Las capacidades del maniquí en el documento. Esa evidencia del maniquí “posee (ing) la capacidad de resolver la tarea” incluye 18 tareas en las que el maniquí falló en más de la centro de sus 12 ejecuciones de prueba y otras 14 donde falló en el 25 al 50 por ciento de los ensayos.
Resultados pasados, rendimiento futuro
Sí, en todos estos casos, el maniquí demostró técnicamente la capacidad que se está probando en algún momento. Pero la incapacidad del maniquí para realizar esa tarea significa de guisa confiable que, en la habilidad, no será lo suficientemente desempeñada para la mayoría de los casos de uso. Cualquier maniquí futuro que pueda convertirse en un “modelos de Fundación de Visión Generalista unificada” tendrá que ser capaz de tener éxito mucho más consistentemente en este tipo de pruebas.






