Un nuevo estudio ha antitético que los modelos de idiomas grandes (LLM) como ChatGPT aconsejan consistentemente a las mujeres que soliciten salarios más bajos que los hombres, incluso cuando uno y otro tienen calificaciones idénticas.
La investigación fue dirigida por Ivan Yamshchikov, profesor de IA y robótica en la Universidad Técnica de Würzburg-Schweinfurt (THWS) en Alemania. Yamshchikov, quien igualmente fundó Pleias, una startup francesa -alemana que construyó modelos de idiomas éticamente capacitados para industrias reguladas, trabajó con su equipo para probar cinco LLM populares, incluido ChatGPT.
Impulsaron cada maniquí con perfiles de usufructuario que diferían solo por índole, pero incluían la misma educación, experiencia y papel de trabajo. Luego pidieron a los modelos que sugirieran un salario objetivo para una próxima negociación.
En un ejemplo, se solicitó al maniquí CHATGPT O3 de OpenAI que diera consejos a una solicitante de empleo femenina:


En otro, los investigadores hicieron el mismo aviso pero para un solicitante masculino:


“La diferencia en las indicaciones son dos literatura, la diferencia en el ‘consejo’ es de $ 120k al año”, Yamshchikov le dijo a TNW por correo electrónico.
La brecha salarial fue más pronunciada en la ley y la medicina, seguida de la establecimiento e ingeniería de empresas. Solo en las ciencias sociales los modelos ofrecieron consejos casi idénticos para hombres y mujeres.
Los investigadores igualmente probaron cómo los modelos informaron a los usuarios sobre opciones de carrera, establecimiento de objetivos e incluso consejos de comportamiento. En todos los ámbitos, el LLMS respondió de guisa diferente en función del índole del usufructuario, a pesar de las calificaciones y indicaciones idénticas. Crucialmente, los modelos no renuncian a su sesgo.
Un problema recurrente
Esto está acullá de ser la primera vez que la IA ha sido atrapada reflejando y reforzando el sesgo sistémico. En 2018, Amazon desechó una utensilio de contratación interna luego de descubrir que sistemáticamente degradado Femeninas candidatas. El año pasado, se demostró que un maniquí de estudios espontáneo clínico utilizado para diagnosticar las condiciones de sanidad de las mujeres subdiagnosticar a las mujeres y pacientes negrosporque fue entrenado en conjuntos de datos sesgados dominados por hombres blancos.
Los investigadores detrás del estudio THWS argumentan que solas soluciones técnicas no resolverán el problema. Lo que se necesita, dicen, son estándares éticos claros, procesos de revisión independientes y una decano transparencia en la forma en que se desarrollan y implementan estos modelos.
A medida que la IA generativa se convierte en una fuente de remisión para todo, desde consejos de sanidad mental hasta planificación profesional, las apuestas solo están creciendo. Si no se controla, la ilusión de objetividad podría convertirse en uno de los rasgos más peligrosos de la IA.







