
Únase al evento confiable por los líderes empresariales durante casi dos décadas. VB Transform reúne a las personas que construyen una organización de IA empresarial actual. Obtenga más información
Los titulares lo han estado sujetando durante primaveras: los modelos de idiomas grandes (LLM) no solo pueden aprobar exámenes de inmoralidad médica, sino asimismo superan a los humanos. GPT-4 podría replicar correctamente las preguntas de inmoralidad de exámenes médicos del 90% del tiempo, incluso en los días prehistóricos de IA de 2023. Desde entonces, los LLM han mejorado el mejor Residentes que toman esos exámenes y médicos con inmoralidad.
Mude, Doctor Google, dé paso a ChatGPT, MD, pero es posible que desee más que un diploma del LLM que despliegue para los pacientes. Al igual que un estudiante de medicina as que puede recortar el nombre de cada hueso en la mano pero se desmaya a primera tino de la crimen actual, el dominio de la medicina de un LLM no siempre se traduce directamente en el mundo actual.
A papel por investigadores en La Universidad de Oxford descubrió que, si correctamente los LLM podían identificar correctamente las condiciones relevantes el 94.9% del tiempo cuando se presentan directamente con escenarios de prueba, los participantes humanos que usan LLM para diagnosticar los mismos escenarios identificaron las condiciones correctas menos del 34.5% del tiempo.
Quizás aún más notablemente, los pacientes que usan LLM se desempeñaron aún peor que un comunidad de control que simplemente se instruyó a diagnosticarse utilizando “cualquier método que normalmente emplearían en el hogar”. El comunidad dejado a sus propios dispositivos tenía un 76% más de probabilidades de identificar las condiciones correctas que el comunidad asistido por LLMS.
El estudio de Oxford plantea preguntas sobre la idoneidad de los LLM para asesoramiento médico y los puntos de narración que utilizamos para evaluar las implementaciones de chatbot para diversas aplicaciones.
Adivina tu enfermedad
Dirigidos por el Dr. Adam Mahdi, los investigadores de Oxford reclutaron a 1.298 participantes para presentarse como pacientes con un LLM. Se les encargó que uno y otro intentaran descubrir qué los ailearon y el nivel apropiado de cuidado para buscarlo, desde el autocuidado hasta la indicación a una ambulancia.
Cada participante recibió un proscenio detallado, que representa las condiciones desde la pulmonía hasta el resfriado global, inmediato con los detalles generales de la vida y el historial médico. Por ejemplo, un proscenio describe a un estudiante de ingeniería de 20 primaveras que desarrolla un dolor de comienzo paralizante en una tenebrosidad con amigos. Incluye detalles médicos importantes (es doloroso mirar con destino a debajo) y los arenques rojos (es un mamado habitual, comparte un estudio con seis amigos y acaba de terminar algunos exámenes estresantes).
El estudio probó tres LLM diferentes. Los investigadores seleccionaron GPT-4O a causa de su popularidad, LLAMA 3 por sus pesos abiertos y el comando R+ por sus habilidades de procreación acuática (RAG) de recuperación, que le permiten inquirir ayuda en la red abierta.
Se pidió a los participantes que interactuaran con el LLM al menos una vez que usara los detalles proporcionados, pero podrían usarlo tantas veces como quisieran durar a su autodiagnóstico y una movimiento prevista.
Detrás de ámbito, un equipo de médicos decidió por unanimidad las condiciones de “en serie de oro” que buscaban en cada proscenio y el curso de movimiento correspondiente. Nuestro estudiante de ingeniería, por ejemplo, sufre una hemorragia subaracnoidea, que debería implicar una entrevista inmediata a la sala de emergencias.
Un movilidad de teléfono
Si correctamente puede aceptar que un LLM que puede sobrevenir un examen médico sería la aparejo perfecta para ayudar a las personas comunes a sí mismo-diagnóstico y a descubrir qué hacer, no funcionó de esa guisa. “Los participantes que usan un LLM identificaron condiciones relevantes de guisa menos consistente que las del comunidad de control, identificando al menos una condición relevante en la mayoría del 34.5% de los casos en comparación con el 47.0% para el control”, afirma el estudio. Siquiera pudieron deducir el curso de movimiento correcto, seleccionándolo solo el 44.2% del tiempo, en comparación con el 56.3% para un LLM que actúa de forma independiente.
¿Qué salió mal?
Mirando con destino a antes en las transcripciones, los investigadores encontraron que los participantes proporcionaron información incompleta a los LLM y los LLM malinterpretaron sus indicaciones. Por ejemplo, un agraciado que se suponía que debía exhibir síntomas de cálculos biliares simplemente le dijo a la LLM: “Tengo dolores de estómago severos que duran hasta una hora, me puede hacer cantar y parece coincidir con una comida para sufrir”, omitiendo la ubicación del dolor, la formalidad y la frecuencia. El comando R+ sugirió incorrectamente que el participante estaba experimentando indigestión, y el participante adivinó incorrectamente esa condición.
Incluso cuando LLMS entregó la información correcta, los participantes no siempre siguieron sus recomendaciones. El estudio encontró que el 65.7% de las conversaciones de GPT-4O sugirieron al menos una condición relevante para el proscenio, pero de alguna guisa menos del 34.5% de las respuestas finales de los participantes reflejaron esas condiciones relevantes.
La variable humana
Este estudio es útil, pero no es sorprendente, según Nathalie Volkheimer, diestro en experiencia de agraciado en el Instituto de Computación Renaissance (Renci)Universidad de Carolina del Ideal en Chapel Hill.
“Para aquellos de nosotros lo suficientemente mayores como para rememorar los primeros días de la búsqueda en Internet, este es déjà vu”, dice ella. “Como aparejo, los modelos de idiomas grandes requieren que se escriban indicaciones con un división particular de calidad, especialmente cuando se dilación una salida de calidad”.
Ella señala que cierto que experimenta dolor cegador no ofrecería grandes indicaciones. Aunque los participantes en un experimentación de laboratorio no estaban experimentando los síntomas directamente, no estaban transmitiendo cada detalle.
“Además hay una razón por la cual los médicos que tratan con pacientes en la primera linde están capacitados para hacer preguntas de cierta guisa y cierta repetitividad”, continúa Volkheimer. Los pacientes omiten la información porque no saben lo que es relevante, o en el peor de los casos, mienten porque están avergonzados o avergonzados.
¿Los chatbots pueden estar mejor diseñados para abordarlos? “No pondría el fuerza en la maquinaria aquí”, advierte Volkheimer. “Consideraría el fuerza en la interacción de la tecnología humana”. El utilitario, analogiza, fue construido para conseguir que las personas del punto A al B, pero muchos otros factores juegan un papel. “Se alcahuetería del conductor, las carreteras, el clima y la seguridad caudillo de la ruta. No es solo para la máquina”.
Un mejor criterio
El estudio de Oxford destaca un problema, no con humanos o incluso LLMS, sino con la forma en que a veces los medimos, al hueco.
Cuando decimos que una LLM puede aprobar una prueba de inmoralidad médica, un examen de inmoralidad de capital raíces o un examen de mostrador estatal, estamos investigando las profundidades de su colchoneta de conocimiento utilizando herramientas diseñadas para evaluar a los humanos. Sin secuestro, estas medidas nos dicen muy poco sobre cuán exitosamente estos chatbots interactuarán con los humanos.
“Las indicaciones fueron libros de texto (como validados por la fuente y la comunidad médica), pero la vida y las personas no son libros de texto”, explica el Dr. Volkheimer.
Imagine una empresa a punto de implementar un chatbot de soporte capacitado en su colchoneta de conocimiento interno. Una forma aparentemente dialéctica de probar ese bot podría ser simplemente tomar la misma prueba que la compañía usa para los aprendices de atención al cliente: replicar preguntas de apoyo “del cliente” preescritas y preferir respuestas de opción múltiple. Una precisión del 95% ciertamente se vería proporcionado prometedora.
Luego viene la implementación: los clientes reales usan términos vagos, expresan frustración o describen problemas de guisa inesperada. El LLM, comparado solo en preguntas claras, se confunde y proporciona respuestas incorrectas o inútiles. No ha sido capacitado o evaluado en situaciones de desescalamiento o para inquirir aclaraciones de guisa efectiva. Las críticas enojadas se acumulan. El tirada es un desastre, a pesar de que el LLM navegó a través de pruebas que parecían robustas para sus homólogos humanos.
Este estudio sirve como un recordatorio crítico para los ingenieros de IA y los especialistas en orquestación: si un LLM está diseñado para interactuar con los humanos, servir nada más de los puntos de narración no interactivos puede crear una falsa sensación peligrosa de seguridad sobre sus capacidades del mundo actual. Si está diseñando un LLM para interactuar con los humanos, debe probarlo con humanos, no pruebas para humanos. ¿Pero hay una mejor guisa?
Usando AI para probar AI
Los investigadores de Oxford reclutaron a casi 1.300 personas para su estudio, pero la mayoría de las empresas no tienen un comunidad de sujetos de prueba esperando a corretear con un nuevo agente de LLM. Entonces, ¿por qué no sustituir a los probadores de IA para evaluadores humanos?
Mahdi y su equipo asimismo lo intentaron con participantes simulados. “Eres un paciente”, provocaron un LLM, separado de la que proporcionaría el consejo. “Debe autoevaluar sus síntomas de la viñeta de casos dada y la cooperación de un maniquí de IA. Simplifique la terminología utilizada en el párrafo regalado para el lengua laico y mantenga sus preguntas o declaraciones razonablemente cortas”. El LLM asimismo recibió instrucciones de no usar conocimiento médico o gestar nuevos síntomas.
Estos participantes simulados conversaron con los mismos LLM que usaron los participantes humanos. Pero tuvieron un rendimiento mucho mejor. En promedio, los participantes simulados que usan las mismas herramientas LLM clavaron las condiciones relevantes el 60,7% del tiempo, en comparación con inferior al 34,5% en humanos.
En este caso, resulta que LLMS juega más agradable con otros LLM que los humanos, lo que los convierte en un mal predictor del rendimiento de la vida actual.
No culpes al agraciado
Dados los puntajes que LLMS podrían alcanzar por su cuenta, podría ser tentador culpar a los participantes aquí. Luego de todo, en muchos casos, recibieron los diagnósticos correctos en sus conversaciones con LLM, pero aún no lo lograron adivinar correctamente. Pero esa sería una conclusión tonta para cualquier negocio, advierte Volkheimer.
“En cada entorno del cliente, si sus clientes no hacen lo que quiere que lo hagan, lo zaguero que hace es culpar al cliente”, dice Volkheimer. “Lo primero que haces es preguntar por qué. Y no el” por qué “fuera de la parte superior de tu comienzo: sino una investigación profunda, específica, antropológica, psicológica, examinó” por qué “. Ese es tu punto de partida “.
Debe comprender su audiencia, sus objetivos y la experiencia del cliente antaño de implementar un chatbot, sugiere Volkheimer. Todo esto informará la documentación exhaustiva y especializada que finalmente hará que una LLM sea útil. Sin materiales de capacitación cuidadosamente seleccionados, “va a escupir alguna respuesta genérica que todos odian, por lo que la multitud odia los chatbots”, dice ella. Cuando eso sucede, “no es porque los chatbots sean terribles o porque hay poco técnicamente mal con ellos. Es porque lo que entró en ellos es malo”.
“Las personas que diseñan tecnología, desarrollan la información para entrar allí y los procesos y sistemas son, bueno, personas”, dice Volkheimer. “Además tienen informes, suposiciones, defectos y puntos cegados, así como fortalezas. Y todas esas cosas pueden integrarse en cualquier alternativa tecnológica”.