
La seguridad siempre será primordial cuando se comercio de inteligencia químico. A posteriori de todo, uno de nuestros miedos colectivos es una IA muy vanguardia que va pícaro y amenazando nuestra propia existencia. Ciertamente no ayuda ver que algunos de los modelos de IA más inteligentes que existen recurren a hacer trampa para conquistar sus objetivos, o que algunos incluso tratarían de chantajear a los humanos para preservar su integridad.
Eso verdaderamente sucedió durante las pruebas de seguridad realizadas en los modelos de IA Frontier ayer de ser lanzados al conocido. ChatGPT O1 llegó a los titulares hace unos meses, cuando los investigadores de seguridad descubrieron que la IA recurriría a engañar al ajedrez contra un mejor oponente para conquistar su objetivo, lo que estaba ganando el serie.
Más recientemente, Claude 4 amenazó a un ingeniero que se suponía que debía eliminar la IA de una computadora para exponer la infidelidad de la persona a su pareja. La IA obtuvo información sobre los planes de exterminio y el supuesto asunto de los correos electrónicos al que tenía comunicación con el fin de probar su comportamiento.
El Claude 4 vivo no intentará chantajear a los usuarios, aunque la IA viene con barandillas más fuertes que sus predecesores para respaldar que sea seguro para los usuarios. Dicho esto, Claude 4 podría arriesgarse informarle a las autoridades y a la prensa si cree que está participando en actividades nefastas, pero eso es solo un aventura teórico.
El decorado de chantaje es lo que llevó a Yoshua Bengio a crear una nueva iniciativa señal LawZero, cuyo objetivo es desarrollar programas de IA honestos que detecten sistemas de IA que podrían intentar engañar a los humanos o volverse pícaros.
Bengio es un nombre correctamente conocido en la industria. Como El guarda explicase conoce al estudiado informático como el “Padrino de AI”. Compartió el Premio Turing 2018 con los científicos de IA Geoffrey Hinton y Yann Lecun. Hinton luego ganó el Premio Nobel, y Lecun ahora es el presidente de AI Scientist en Meta.
Bengio será el presidente de Lawzero, una compañía que tiene más de una docena de investigadores que trabajan en un sistema de IA estudiado, luego de percibir $ 30 millones en fondos para el tesina.
La IA científica en la que Lawzero está trabajando no lo protegerá contra las alucinaciones de los modelos de IA que podría estar usando en este momento. Ese es un huella secundario desafortunado de programas como ChatGPT que consumen grandes cantidades de datos, y uno que no va a desaparecer.
Curiosamente, la IA científica actuará como un “psicólogo” que puede comprender y predecir el mal comportamiento de los chatbots y agentes de AI pícaros. ¿Por qué un psicólogo? Bengio dice que otros agentes de IA son actores dispuestos a complacer a los humanos, por lo que necesitan un observador. De hecho, ChatGPT pasó por una escalón sycofántica molesta recientemente, lo que obligó a OpenAi a revertir varios cambios para arreglar su personalidad.
Esa capacidad de complacer y completar tareas para los usuarios en sinceridad podría conducir a un comportamiento cuestionable, como un maniquí de IA que intenta hacer trampa en un serie o acudir al chantaje para respaldar su supervivencia. En extensión de ofrecer respuestas firmes como los actores de IA, este maniquí de IA estudiado dará probabilidades para que una respuesta sea correcta.
LawZero AI intentará predecir si la movimiento de un agente de IA provocará daño. Si se alcanza un cierto principio, esa IA se bloqueará para ejecutar sus tareas.
“Queremos construir AIS que sean honestas y no engañosas”, dijo Bengio El guarda. “Teóricamente es posible imaginar máquinas que no tienen yo, ni objetivo para sí mismas, que son solo máquinas de conocimiento puras, como un estudiado que conoce muchas cosas”.
La iniciativa de Lawzero es ciertamente interesante, pero solo funcionará mientras las empresas y organizaciones de IA que utilizan sistemas AI avanzados lo implementan para asegurar sus operaciones de IA. Eso significa que Lawzero no solo tiene que demostrar que su IA científica funciona según lo previsto. Además tiene que convencer a compañías como OpenAi, Google y otros para que lo prueben y lo usen. Lawzero asimismo querrá impresionar a los gobiernos que podrían estar trabajando en la regulación de seguridad de la IA.
Dicho de modo diferente, Lawzero necesitará más capital para mantenerse al día con la velocidad del exposición de la IA. Hasta ahora, el tesina AI de Bengio se ha ganadería a varios inversores prominentes, incluidos el Future of Life Institute, el ingeniero fundador de Skype Jaan Tallin y la compañía de investigación de Eric Schmidt, Schmidt Sciences.
Dicho esto, será interesante ver la investigación que sale de Lawzero. Inicialmente, la compañía probará su sistema de IA estudiado en modelos de IA de código destapado, por lo que no debería acontecer mucho tiempo hasta que veamos si esta IA honesta puede atrapar el comportamiento deshonesto de los modelos de IA populares.