Un estudio clasifica los resúmenes de noticiero sobre IA de Gemini como los más problemáticos

Logotipo de Google Gemini en el teléfono inteligente foto de stock (2)

Edgar Cervantes / Autoridad Android

TL;DR

  • Entre los principales sistemas de resúmenes de noticiero de IA, Google Gemini tuvo el peor desempeño y mostró problemas significativos en muchos resultados.
  • Gemini tuvo dificultades para identificar fuentes confiables, proporcionar citas y vincular su material fuente.
  • Si correctamente las herramientas de todos muestran signos de prosperidad, Gemini todavía está rezagado.

No se puede persistir una conversación sobre IA sin que cualquiera tiro a relucir rápidamente el incómodo tema de los errores. Por más enseres que puedan ser estos sistemas cuando se tráfico de organizar información, y por más impresionante que sea el contenido de que la IA generativa aparentemente puede surgir de la mínimo, no tenemos que mirar mucho antaño de comenzar a notar todas las imperfecciones en esta frontispicio que de otro modo sería pulida. Si correctamente definitivamente ha habido avances desde los viejos tiempos en los que Google AI Overviews alucinaba tonterías, ¿hasta dónde han llegado verdaderamente las cosas? Algunas nuevas investigaciones están analizando precisamente eso de forma sobrado preocupante.

No quiero perderme lo mejor de Autoridad de Android?

Luz de insignia de fuente preferida de Google@2xInsignia de fuente preferida de Google oscura@2x

El Unión Europea de Radiodifusión (UER) y bbc estaban interesados ​​en cuantificar el rendimiento de sistemas como OpenAI ChatGPT, Google Gemini, Microsoft Copilot y Perplexity cuando se tráfico de entregar resúmenes de noticiero generados por IA, especialmente con el 15% de los menores de 25 primaveras que dependen de la IA para sus noticiero. Inicialmente, la BBC realizó una averiguación amplia y una serie de seis grupos focales, todos recopilando datos sobre nuestras experiencias y opiniones sobre estos sistemas de inteligencia químico. Ese enfoque se amplió luego para el exploración internacional de la UER.

En cuanto a las creencias y expectativas, cerca de del 42% de los adultos del Reino Unido involucrados en esta investigación informaron que confiaban en la precisión de la IA, y el número aumenta en los grupos de años más jóvenes. Todavía afirman estar muy preocupados por la precisión, y el 84% dice que los errores factuales afectarían significativamente esa confianza. Si correctamente esto puede parecer un enfoque apropiadamente cauteloso, ¿cuánto de este contenido es verdaderamente inexacto? ¿Se está dando cuenta la multitud?

Según los resultados, tendríamos que adivinar en gran medida “no”, ya que se descubrió que la mayoría de las respuestas de IA tenían algún problema:

cuadro de investigación de noticias de ai 1

Nadie de los modelos evaluados tuvo un excelente desempeño y la mayoría estuvo en el mismo estadio en cuanto a su desempeño en estas pruebas. Pero luego está Géminis, que es un caso atípico pronunciado, tanto en términos de cuestiones totales como, mucho más preocupante, de aquellas que se consideran de consecuencias significativas:

cuadro de investigación de noticias de ai 2

¿Qué está haciendo tan mal Géminis? Entre los problemas que destacan los investigadores se encuentran la yerro de enlaces claros a los materiales fuente, la incapacidad de distinguir entre fuentes confiables y contenido sarcástico, la excesiva dependencia de Wikipedia, la incapacidad de establecer un contexto relevante y la destrucción de citas directas.

Durante los seis meses transcurridos entre la resumen de los dos conjuntos de datos principales en los que se zócalo este estudio, estos sistemas de IA evolucionaron y, al final, mostraban menos problemas con los resúmenes de noticiero que al principio. Es formidable escuchar eso, y Gemini en particular vio algunas de las mayores ganancias en cuanto a precisión. Pero incluso con esas mejoras, Gemini sigue mostrando problemas mucho más importantes con sus resúmenes que sus pares.

El referencia completo de la UER Definitivamente vale la pena leerlo si tiene un interés pasajero en nuestra relación con las noticiero procesadas por IA. Si no es suficiente con reconsiderar seriamente el nivel de confianza que deposita en estos sistemas, probablemente necesite leerlo más detenidamente.

Nos comunicamos con Google para ver si la compañía tiene algún comentario sobre los métodos o resultados compartidos aquí y lo actualizaremos con cualquier cosa que escuchemos.

Gracias por ser parte de nuestra comunidad. Lea nuestra Política de comentarios antaño de imprimir.

Related Posts

Los experimentos muestran que las patatas pueden sobrevivir en el sistema solar mancha (con mucha ayuda)

sciencehabit comparte un noticia de Science.org: En El marcianoel cosmonauta ficticio Mark Watney sobrevive en el páramo de Marte cultivando patatas en suelo mancha, con un poco de ayuda de…

Microsoft corrige un error de visibilidad de Bluetooth en dispositivos empresariales con Windows 11

Microsoft lanzó un parche fuera de lado, KB5084897para solucionar un problema de visibilidad de Bluetooth en dispositivos Windows 11 Enterprise inscritos en el software de modernización de parches. La modernización,…

You Missed

Un presupuesto que no aguanta el verano

Un presupuesto que no aguanta el verano

El petróleo de Texas sube 2.9%, hasta los US$96.21 el barril

El petróleo de Texas sube 2.9%, hasta los US.21 el barril

Electorado le pasa preparación histórica al PRD, PRCS y PLD. ¿Estarían agotando ciclos de vida?

Electorado le pasa preparación histórica al PRD, PRCS y PLD. ¿Estarían agotando ciclos de vida?

Los experimentos muestran que las patatas pueden sobrevivir en el sistema solar mancha (con mucha ayuda)

Los experimentos muestran que las patatas pueden sobrevivir en el sistema solar mancha (con mucha ayuda)

Transportistas afirman que no aumentarán el costo del pasaje

Transportistas afirman que no aumentarán el costo del pasaje

Microsoft corrige un error de visibilidad de Bluetooth en dispositivos empresariales con Windows 11

Microsoft corrige un error de visibilidad de Bluetooth en dispositivos empresariales con Windows 11