Google descubre que los chatbots con IA tienen solo un 69% de precisión… en el mejor de los casos

Google ha publicado una evaluación convincente de cuán confiables son positivamente los chatbots de IA actuales, y las cifras no son halagadoras. Usando su recién introducido Suite de remisión HECHOSla compañía descubrió que incluso los mejores modelos de IA tienen dificultades para pasar una tasa de precisión fáctica del 70%. El de mejor rendimiento, Gemini 3 Pro, alcanzó una precisión normal del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La comida para arrostrar es sencilla e incómoda. Estos chatbots todavía obtienen aproximadamente una de cada tres respuestas incorrectas, incluso cuando parecen confiados al hacerlo.

El punto de remisión es importante porque la mayoría de las pruebas de IA existentes se centran en si un maniquí puede completar una tarea, no en si la información que produce es positivamente cierta. Para sectores como el financiero, el taza y el judicial, esa brecha puede resultar costosa. Una respuesta fluida que parezca segura pero que contenga errores puede causar un daño efectivo, especialmente cuando los usuarios asumen que el chatbot sabe de lo que está hablando.

Lo que revela la prueba de precisión de Google

FACTS Benchmark Suite fue creado por el equipo FACTS de Google con Kaggle para probar directamente la precisión de los hechos en cuatro usos del mundo efectivo. Una prueba mide el conocimiento paramétrico, que comprueba si un maniquí puede replicar preguntas basadas en hechos utilizando exclusivamente lo que aprendió durante el entrenamiento. Otro evalúa el rendimiento de la búsqueda, probando qué tan admisiblemente los modelos utilizan las herramientas web para recuperar información precisa. Un tercero se centra en la saco, es afirmar, si el maniquí se ciñe a un documento proporcionado sin añadir detalles falsos. El cuarto examina la comprensión multimodal, como la recitación correcta de cuadros, diagramas e imágenes.

Los resultados muestran marcadas diferencias entre los modelos. Gemini 3 Pro lideró la clasificación con una puntuación de FACTS del 69 %, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62 %. Claude 4.5 Opus obtuvo un ~51% por ciento, mientras que Grok 4 obtuvo un ~54%. Las tareas multimodales fueron el ámbito más débil en todos los ámbitos, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican adivinar cuadros, diagramas o imágenes, donde un chatbot podría malinterpretar con confianza un croquis de ventas o extraer el número erróneo de un documento, lo que lleva a errores que son fáciles de acaecer por detención pero difíciles de deshacer.

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es riesgosa. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita demostración, barreras de seguridad y supervisión humana ayer de que pueda ser tratada como una fuente confiable de verdad.

Related Posts

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva

Un TechTuber que anteriormente apareció en los titulares posteriormente de hacer un powerwall doméstico a partir de una mezcla de componentes de vapeo desechados ha compartido detalles de su automóvil…

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Satechi CubeDock fusiona carga, almacenamiento y conectividad en una única carcasa compacta de aluminio Tres puertos Thunderbolt 5 permiten una rápida transferencia de datos y múltiples pantallas simultáneamente La ranura…

You Missed

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva

¨Empresa Humanitaria” con médicos con EEUU en el Ozama | AlMomento.net

¨Empresa Humanitaria” con médicos con EEUU en el Ozama | AlMomento.net

Cientos de fanáticos celebran los 10 primaveras de Isle of Light | AlMomento.net

Cientos de fanáticos celebran los 10 primaveras de Isle of Light | AlMomento.net

El papiloma humano y cáncer cuello uterino se puede predisponer

El papiloma humano y cáncer cuello uterino se puede predisponer

Digna posición de España | AlMomento.net

Digna posición de España | AlMomento.net

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.