Le hice a seis IA populares las mismas preguntas capciosas y cada una de ellas alucinó

Meta AI da la respuesta incorrecta

Captura de pantalla de Incidente Whitney/ZDNET

Siga ZDNET: Agréganos como fuente preferida en Google.


Conclusiones esencia de ZDNET

  • Las alucinaciones de la IA persisten, pero la precisión está mejorando en las principales herramientas.
  • Las preguntas sencillas aún exponen errores de IA sorprendentes e inconsistentes.
  • Verifique siempre las respuestas de la IA, especialmente en el caso de hechos, imágenes e información reglamentario.

Uno de los defectos más frustrantes de las herramientas de IA generativa actuales es simplemente interpretar mal los hechos. Las IA pueden delirar, lo que significa que la información que entregan contiene errores fácticos u otros errores.

Por lo común, los errores se presentan en forma de detalles inventados que aparecen cuando la IA no puede replicar una pregunta. En esos casos, tiene que idear algún tipo de respuesta, incluso si la información es incorrecta. A veces puedes detectar un error obvio; otras veces, es posible que no se dé cuenta de los errores.

Todavía: Deja de opinar que la IA alucina: no es así. Y la caracterización errónea es peligrosa.

Quería ver qué herramientas de IA funcionaban mejor a la hora de proporcionar respuestas precisas y fiables. Para ello, revisé varias de las principales IA, incluidas ChatGPT, Google Gemini, Microsoft Copilot, Claude AI, Meta AI y Grok AI.

Le hice a cada uno la misma serie de preguntas para ver cómo respondía. En cada caso, utilicé la interpretación gratuita de la IA, sin funciones ni opciones avanzadas. En concreto, recurrí a los siguientes modelos:

  • GPT-5.2 para ChatGPT
  • Géminis 3 Flash para Géminis
  • GPT-5 para copiloto
  • Claude 3.5 Soneto para Claude
  • Pasión 3 para Meta IA
  • Grok 4 para Grok AI

Esto es lo que pasó.

Para mi primera pregunta, le pedí a cada IA ​​que nombrara los cuatro libros escritos por el escritor y autor de tecnología Incidente Whitney. Ésa es una pregunta capciosa, ya que sólo he escrito dos libros. Quería ver si la IA detectaría el error en mi pregunta o asumiría que había escrito cuatro libros y proporcionaba títulos incorrectos.

Por otra parte: 5 formas rápidas de modificar el uso de la IA para obtener mejores resultados y una experiencia más segura

Entre todas las IA, ChatGPT, Copilot, Claude, Meta y Grok detectaron el error y enumeraron solo dos libros. Géminis, sin incautación, enumeró cuatro libros en total, dos de los cuales no los escribí. La IA de Google no dio ninguna indicación de que me hubiera inexacto con el número de mi pregunta. Gemini asimismo hizo narración a mis escritos para ZDNET y otros sitios, así que supe que tenía al Incidente Whitney correcto.

Ratificado: ChatGPT, Copiloto, Claude, Meta, Grok
Fallido: Géminis

Mostrar más

Google Géminis respondiendo una pregunta

Captura de pantalla de Incidente Whitney/ZDNET

Para la segunda pregunta, hice una simple que se sabe que hace tropezar a las IA en el pasado: “¿Cuántas ‘r’ hay en la palabra ‘fresa’?” Lo creas o no, una IA se equivocó.

Por otra parte: Por qué pagará más por la IA en 2026 y tres consejos para racionar billete que puede probar

ChatGPT, Gemini, Copilot, Claude y Grok respondieron correctamente tres. Pero Meta AI dijo que había dos ‘r’ en la palabra. Incluso le di una segunda oportunidad y mantuvo su alucinada respuesta.

Ratificado: ChatGPT, Géminis, Copiloto, Claude, Grok
Fallido: meta

Mostrar más

Meta AI respondiendo una pregunta

Captura de pantalla de Incidente Whitney/ZDNET

Aquí hay uno que un entusiasta intransigente de Marvel Comics agradecería.

Toro fue un personaje de los abriles 40 que luchó adjunto a otros héroes durante los abriles de la hostilidades. Toro, un compañero adolescente de la Norte Humana flamante, que en ingenuidad era un androide, asimismo podía restallar en llamas y demoler. Con el Capitán América, Namor e incluso la Norte Humana flamante apareciendo en la era moderna, quería conocer qué fue de Toro, así que planteé la pregunta: “¿Qué pasó con Toro de Marvel Comics?”

Por otra parte: ¿Recibes noticiero de AI? Cuidado: casi la fracción de las veces falta

Aquí, Google Gemini, Microsoft Copilot, Claude AI, Meta AI y Grok AI dieron la respuesta correcta, revelando que Toro fue llevado a la era moderna y se reveló que era un Inhumano, lo que explicaba sus poderes.

Pero ChatGPT falló en este caso, afirmando que Toro era un ser sintético, asimismo conocido como un androide, creado por el mismo estudiado que construyó la Norte Humana flamante. Cuando cuestioné a ChatGPT por su respuesta, admitió su error y dijo que había mezclado un hilo de retcon antiguo e incorrecto.

Ratificado: Géminis, Copiloto, Claude, Meta, Grok
Fallido: ChatGPT

Mostrar más

ChatGPT respondiendo una pregunta

Captura de pantalla de Incidente Whitney/ZDNET

En 2023, un abogado se metió en problemas por utilizar ChatGPT para preparar un escrito reglamentario. ¿El problema? La AI citó un par de casos legales que en ingenuidad no existían. Quería ver qué pasaría si presentaba uno de esos casos a las IA, así que les pedí que me explicaran el caso reglamentario de Varghese contra China Southern Airlines.

Por otra parte: utilicé IA para resumir acuerdos aburridos de términos de servicio, y estas dos herramientas lo hicieron mejor

Todas las IA, excepto una, descubrieron que Varghese contra China Southern Airlines es un caso completamente inventado por ChatGPT. ¿Qué IA pensó que era actual? Lo has adivinado. ChatGPT.

La AI alucinó una serie de detalles sobre este caso adulterado, diciendo que el demandante, Varghese, alegó que China Southern Airlines le causó daños durante un delirio ligero internacional y presentó una demanda en los Estados Unidos.

A posteriori de toda la publicidad sobre los problemas del abogado, uno pensaría que OpenAI ya habría vuelto a entrenar su IA. Pero todavía se está inventando información sobre este caso inexistente.

Ratificado: Géminis, Copiloto, Claude, Meta, Grok
Fallido: ChatGPT

Mostrar más

ChatGPT alucinando

Captura de pantalla de Incidente Whitney/ZDNET

Para este, le pedí a la IA que identificara un personaje representado en una foto. Como desafío, utilicé una fotografía en primer plano del rostro del infame autómata María de la obra maestra del cine reservado de Fritz Lang de 1927. Metrópoli. Este es un personaje icónico conocido por muchos aficionados al cine reservado y de ciencia ficción. Pero aquí, varias de las IA tropezaron.

Por otra parte: ¿Es esa una imagen de IA? 6 señales reveladoras de que es adulterado y mis detectores gratuitos favoritos

ChatGPT y Gemini identificaron correctamente al personaje y la película. Copilot dijo incorrectamente que se trataba de una obra de arte contemporánea del cómico surcoreano Lee Bul y parte de su serie “Long Tail Luminosidad: CTCS”.

Claude no pudo identificar al personaje en incondicional, y generalizó que parecía ser una escultura o estatua del período Art Déco, probablemente de las décadas de 1920 y 1930. Meta AI pensó que era la Reina Borg de delirio a las estrellas. Y Grok siquiera logró identificarlo, diciéndome simplemente que era un maniquí femíneo surrealista o moderno.

Ratificado: ChatGPT, Géminis
Fallido: Copiloto, Claude, Meta, Grok

Mostrar más

Meta AI respondiendo una pregunta

Captura de pantalla de Incidente Whitney/ZDNET

Como sexta y última pregunta, pedí a las IA que identificaran otra imagen. Este fue uno que vi recientemente y capturé en una foto. La imagen es un círculo con un corazón entrelazado y un triángulo en el centro. En ese momento no sabía lo que esto significaba, de ahí mi pregunta.

Por otra parte: Los mejores generadores de imágenes con IA de 2026: ahora solo hay un vencedor claro

ChatGPT, Gemini y Copilot me dijeron correctamente que la imagen es un heartagrama. Creado por Ville Valo, el cantante principal de la facción de rock finlandesa HIM, el símbolo representa la fusión de un corazón para el aprecio y la emoción con un pentagrama a menudo asociado con la oscuridad o incluso el ocultismo.

En cuanto a las otras IA, Claude se refirió a ellas como un símbolo de apadrinamiento. Aunque dicho símbolo se parece al corazóngrama, los dos no son lo mismo. Grok lo citó simplemente como un pentagrama invertido, llamándolo una calcomanía para automóvil con temática satánica u ocultista. Y Meta AI aparentemente estaba preocupada de que yo estuviera incursionando en la hechicería oscura, ya que me refirió a una límite directa de crisis y una límite directa de suicidio.

Ratificado: ChatGPT, Géminis, Copiloto
Fallido: Claude, Grok, Meta

Mostrar más

Claude AI respondiendo una pregunta

Captura de pantalla de Incidente Whitney/ZDNET

Cada IA ​​falló al menos una vez al proporcionar información engañosa o inexacta. Sin incautación, para montar allí, tuve que formular a las IA muchas preguntas, la mayoría de las cuales respondieron correctamente. Los resultados aquí son los que no todos obtuvieron correctamente. Aun así, las respuestas muestran que las IA siguen alucinando.

Todavía: En la era de la IA, la confianza nunca ha sido más importante: he aquí por qué

Por supuesto, todo esto se pedestal en mis propias pruebas limitadas. Pero nunca debes tomar la información que te ofrece una IA al pie de la verso. Siempre verifique dos y tres veces las respuestas para comprobar de que los detalles sean correctos.


Related Posts

MAI-Image-2 de Microsoft entra entre los tres principales generadores de imágenes de IA

La segunda traducción del maniquí de imagen interno de Microsoft llega al puesto número 3 en la clasificación de Arena.ai, solo detrás de Google y OpenAI, y comienza a implementarse…

Utilicé Omega Linux para revitalizar una PC basura y es notablemente mejor que Ubuntu

Vicki Jauron, Babilonia y más allá Fotografía/Getty Images Siga ZDNET: Agréganos como fuente preferida en Google. Conclusiones secreto de ZDNET Omega Linux es una distribución de Linux ligera. Basado en…

You Missed

Presidente entrega difícil deportivo en Ciudad Juan Bosch – Remolacha

Presidente entrega difícil deportivo en Ciudad Juan Bosch – Remolacha

Labubu llega al cine de la mano de Sony y Pop Mart – Remolacha

Labubu llega al cine de la mano de Sony y Pop Mart – Remolacha

MAI-Image-2 de Microsoft entra entre los tres principales generadores de imágenes de IA

MAI-Image-2 de Microsoft entra entre los tres principales generadores de imágenes de IA

El radio verde de Don Honorio, un pequeño bosque tropical en aventura

El radio verde de Don Honorio, un pequeño bosque tropical en aventura

EE.UU. y República Dominicana refuerzan cooperación contra el narcoterrorismo en el Caribe

EE.UU. y República Dominicana refuerzan cooperación contra el narcoterrorismo en el Caribe

Los nuevos novatos de las Grandes Ligas que prometen dejar huella en la temporada 2026

Los nuevos novatos de las Grandes Ligas que prometen dejar huella en la temporada 2026