Google descubre que los chatbots con IA tienen solo un 69% de precisión… en el mejor de los casos

Google ha publicado una evaluación convincente de cuán confiables son positivamente los chatbots de IA actuales, y las cifras no son halagadoras. Usando su recién introducido Suite de remisión HECHOSla compañía descubrió que incluso los mejores modelos de IA tienen dificultades para pasar una tasa de precisión fáctica del 70%. El de mejor rendimiento, Gemini 3 Pro, alcanzó una precisión normal del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La comida para arrostrar es sencilla e incómoda. Estos chatbots todavía obtienen aproximadamente una de cada tres respuestas incorrectas, incluso cuando parecen confiados al hacerlo.

El punto de remisión es importante porque la mayoría de las pruebas de IA existentes se centran en si un maniquí puede completar una tarea, no en si la información que produce es positivamente cierta. Para sectores como el financiero, el taza y el judicial, esa brecha puede resultar costosa. Una respuesta fluida que parezca segura pero que contenga errores puede causar un daño efectivo, especialmente cuando los usuarios asumen que el chatbot sabe de lo que está hablando.

Lo que revela la prueba de precisión de Google

FACTS Benchmark Suite fue creado por el equipo FACTS de Google con Kaggle para probar directamente la precisión de los hechos en cuatro usos del mundo efectivo. Una prueba mide el conocimiento paramétrico, que comprueba si un maniquí puede replicar preguntas basadas en hechos utilizando exclusivamente lo que aprendió durante el entrenamiento. Otro evalúa el rendimiento de la búsqueda, probando qué tan admisiblemente los modelos utilizan las herramientas web para recuperar información precisa. Un tercero se centra en la saco, es afirmar, si el maniquí se ciñe a un documento proporcionado sin añadir detalles falsos. El cuarto examina la comprensión multimodal, como la recitación correcta de cuadros, diagramas e imágenes.

Los resultados muestran marcadas diferencias entre los modelos. Gemini 3 Pro lideró la clasificación con una puntuación de FACTS del 69 %, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62 %. Claude 4.5 Opus obtuvo un ~51% por ciento, mientras que Grok 4 obtuvo un ~54%. Las tareas multimodales fueron el ámbito más débil en todos los ámbitos, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican adivinar cuadros, diagramas o imágenes, donde un chatbot podría malinterpretar con confianza un croquis de ventas o extraer el número erróneo de un documento, lo que lleva a errores que son fáciles de acaecer por detención pero difíciles de deshacer.

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es riesgosa. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita demostración, barreras de seguridad y supervisión humana ayer de que pueda ser tratada como una fuente confiable de verdad.

Related Posts

X dice que puedes impedir que Grok edite tus fotos

X ha introducido una nueva característica que hace que sea un poco más difícil para otros usuarios manipular las imágenes cargadas con el chatbot Grok. Según lo informado por Las…

El voto suizo consagra el derecho a utilizar efectivo en la Constitución del país

Los votantes suizos abrumadoramente admitido una remedio constitucional Avalar el derecho a utilizar efectivo físico.. “La votación significa que Suiza se unirá a países como Hungría, Eslovaquia y Eslovenia, que…

You Missed

Alcaldía de Monte Plata conmemora el Día Internacional de la Mujer reconociendo la actividad de sus colaboradoras

Alcaldía de Monte Plata conmemora el Día Internacional de la Mujer reconociendo la actividad de sus colaboradoras

El nuevo líder de Irán, hijo del ayatolá Jameneí, emerge como una figura misteriosa ¿Quién es?

El nuevo líder de Irán, hijo del ayatolá Jameneí, emerge como una figura misteriosa ¿Quién es?

Cuerpo de Bomberos de Yamasá celebra el Día del Bombero con eucaristía, tentempié y ascensos

Cuerpo de Bomberos de Yamasá celebra el Día del Bombero con eucaristía, tentempié y ascensos

Mujer es hallada muerta en pensión del sector El Capacito en San Francisco de Macorís

Mujer es hallada muerta en pensión del sector El Capacito en San Francisco de Macorís

X dice que puedes impedir que Grok edite tus fotos

X dice que puedes impedir que Grok edite tus fotos

INDRHI promueve consejo sobre brechas de apartado en el sector agropecuario; reconoce colaboradoras

INDRHI promueve consejo sobre brechas de apartado en el sector agropecuario; reconoce colaboradoras