
Edgar Cervantes / Autoridad Android
TL;DR
- Entre los principales sistemas de resúmenes de noticiero de IA, Google Gemini tuvo el peor desempeño y mostró problemas significativos en muchos resultados.
- Gemini tuvo dificultades para identificar fuentes confiables, proporcionar citas y vincular su material fuente.
- Si correctamente las herramientas de todos muestran signos de prosperidad, Gemini todavía está rezagado.
No se puede persistir una conversación sobre IA sin que cualquiera tiro a relucir rápidamente el incómodo tema de los errores. Por más enseres que puedan ser estos sistemas cuando se tráfico de organizar información, y por más impresionante que sea el contenido de que la IA generativa aparentemente puede surgir de la mínimo, no tenemos que mirar mucho antaño de comenzar a notar todas las imperfecciones en esta frontispicio que de otro modo sería pulida. Si correctamente definitivamente ha habido avances desde los viejos tiempos en los que Google AI Overviews alucinaba tonterías, ¿hasta dónde han llegado verdaderamente las cosas? Algunas nuevas investigaciones están analizando precisamente eso de forma sobrado preocupante.
No quiero perderme lo mejor de Autoridad de Android?


El Unión Europea de Radiodifusión (UER) y bbc estaban interesados en cuantificar el rendimiento de sistemas como OpenAI ChatGPT, Google Gemini, Microsoft Copilot y Perplexity cuando se tráfico de entregar resúmenes de noticiero generados por IA, especialmente con el 15% de los menores de 25 primaveras que dependen de la IA para sus noticiero. Inicialmente, la BBC realizó una averiguación amplia y una serie de seis grupos focales, todos recopilando datos sobre nuestras experiencias y opiniones sobre estos sistemas de inteligencia químico. Ese enfoque se amplió luego para el exploración internacional de la UER.
En cuanto a las creencias y expectativas, cerca de del 42% de los adultos del Reino Unido involucrados en esta investigación informaron que confiaban en la precisión de la IA, y el número aumenta en los grupos de años más jóvenes. Todavía afirman estar muy preocupados por la precisión, y el 84% dice que los errores factuales afectarían significativamente esa confianza. Si correctamente esto puede parecer un enfoque apropiadamente cauteloso, ¿cuánto de este contenido es verdaderamente inexacto? ¿Se está dando cuenta la multitud?
Según los resultados, tendríamos que adivinar en gran medida “no”, ya que se descubrió que la mayoría de las respuestas de IA tenían algún problema:

Nadie de los modelos evaluados tuvo un excelente desempeño y la mayoría estuvo en el mismo estadio en cuanto a su desempeño en estas pruebas. Pero luego está Géminis, que es un caso atípico pronunciado, tanto en términos de cuestiones totales como, mucho más preocupante, de aquellas que se consideran de consecuencias significativas:

¿Qué está haciendo tan mal Géminis? Entre los problemas que destacan los investigadores se encuentran la yerro de enlaces claros a los materiales fuente, la incapacidad de distinguir entre fuentes confiables y contenido sarcástico, la excesiva dependencia de Wikipedia, la incapacidad de establecer un contexto relevante y la destrucción de citas directas.
Durante los seis meses transcurridos entre la resumen de los dos conjuntos de datos principales en los que se zócalo este estudio, estos sistemas de IA evolucionaron y, al final, mostraban menos problemas con los resúmenes de noticiero que al principio. Es formidable escuchar eso, y Gemini en particular vio algunas de las mayores ganancias en cuanto a precisión. Pero incluso con esas mejoras, Gemini sigue mostrando problemas mucho más importantes con sus resúmenes que sus pares.
El referencia completo de la UER Definitivamente vale la pena leerlo si tiene un interés pasajero en nuestra relación con las noticiero procesadas por IA. Si no es suficiente con reconsiderar seriamente el nivel de confianza que deposita en estos sistemas, probablemente necesite leerlo más detenidamente.
Nos comunicamos con Google para ver si la compañía tiene algún comentario sobre los métodos o resultados compartidos aquí y lo actualizaremos con cualquier cosa que escuchemos.
Gracias por ser parte de nuestra comunidad. Lea nuestra Política de comentarios antaño de imprimir.





