Google descubre que los chatbots con IA tienen solo un 69% de precisión… en el mejor de los casos

Google ha publicado una evaluación convincente de cuán confiables son positivamente los chatbots de IA actuales, y las cifras no son halagadoras. Usando su recién introducido Suite de remisión HECHOSla compañía descubrió que incluso los mejores modelos de IA tienen dificultades para pasar una tasa de precisión fáctica del 70%. El de mejor rendimiento, Gemini 3 Pro, alcanzó una precisión normal del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La comida para arrostrar es sencilla e incómoda. Estos chatbots todavía obtienen aproximadamente una de cada tres respuestas incorrectas, incluso cuando parecen confiados al hacerlo.

El punto de remisión es importante porque la mayoría de las pruebas de IA existentes se centran en si un maniquí puede completar una tarea, no en si la información que produce es positivamente cierta. Para sectores como el financiero, el taza y el judicial, esa brecha puede resultar costosa. Una respuesta fluida que parezca segura pero que contenga errores puede causar un daño efectivo, especialmente cuando los usuarios asumen que el chatbot sabe de lo que está hablando.

Lo que revela la prueba de precisión de Google

FACTS Benchmark Suite fue creado por el equipo FACTS de Google con Kaggle para probar directamente la precisión de los hechos en cuatro usos del mundo efectivo. Una prueba mide el conocimiento paramétrico, que comprueba si un maniquí puede replicar preguntas basadas en hechos utilizando exclusivamente lo que aprendió durante el entrenamiento. Otro evalúa el rendimiento de la búsqueda, probando qué tan admisiblemente los modelos utilizan las herramientas web para recuperar información precisa. Un tercero se centra en la saco, es afirmar, si el maniquí se ciñe a un documento proporcionado sin añadir detalles falsos. El cuarto examina la comprensión multimodal, como la recitación correcta de cuadros, diagramas e imágenes.

Los resultados muestran marcadas diferencias entre los modelos. Gemini 3 Pro lideró la clasificación con una puntuación de FACTS del 69 %, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62 %. Claude 4.5 Opus obtuvo un ~51% por ciento, mientras que Grok 4 obtuvo un ~54%. Las tareas multimodales fueron el ámbito más débil en todos los ámbitos, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican adivinar cuadros, diagramas o imágenes, donde un chatbot podría malinterpretar con confianza un croquis de ventas o extraer el número erróneo de un documento, lo que lleva a errores que son fáciles de acaecer por detención pero difíciles de deshacer.

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es riesgosa. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita demostración, barreras de seguridad y supervisión humana ayer de que pueda ser tratada como una fuente confiable de verdad.