Maniquí de IA ‘honesto’ para proteger contra los agentes de IA pícaros

La seguridad siempre será primordial cuando se comercio de inteligencia químico. A posteriori de todo, uno de nuestros miedos colectivos es una IA muy vanguardia que va pícaro y amenazando nuestra propia existencia. Ciertamente no ayuda ver que algunos de los modelos de IA más inteligentes que existen recurren a hacer trampa para conquistar sus objetivos, o que algunos incluso tratarían de chantajear a los humanos para preservar su integridad.

Eso verdaderamente sucedió durante las pruebas de seguridad realizadas en los modelos de IA Frontier ayer de ser lanzados al conocido. ChatGPT O1 llegó a los titulares hace unos meses, cuando los investigadores de seguridad descubrieron que la IA recurriría a engañar al ajedrez contra un mejor oponente para conquistar su objetivo, lo que estaba ganando el serie.

Más recientemente, Claude 4 amenazó a un ingeniero que se suponía que debía eliminar la IA de una computadora para exponer la infidelidad de la persona a su pareja. La IA obtuvo información sobre los planes de exterminio y el supuesto asunto de los correos electrónicos al que tenía comunicación con el fin de probar su comportamiento.

El Claude 4 vivo no intentará chantajear a los usuarios, aunque la IA viene con barandillas más fuertes que sus predecesores para respaldar que sea seguro para los usuarios. Dicho esto, Claude 4 podría arriesgarse informarle a las autoridades y a la prensa si cree que está participando en actividades nefastas, pero eso es solo un aventura teórico.

El decorado de chantaje es lo que llevó a Yoshua Bengio a crear una nueva iniciativa señal LawZero, cuyo objetivo es desarrollar programas de IA honestos que detecten sistemas de IA que podrían intentar engañar a los humanos o volverse pícaros.

Bengio es un nombre correctamente conocido en la industria. Como El guarda explicase conoce al estudiado informático como el “Padrino de AI”. Compartió el Premio Turing 2018 con los científicos de IA Geoffrey Hinton y Yann Lecun. Hinton luego ganó el Premio Nobel, y Lecun ahora es el presidente de AI Scientist en Meta.

Bengio será el presidente de Lawzero, una compañía que tiene más de una docena de investigadores que trabajan en un sistema de IA estudiado, luego de percibir $ 30 millones en fondos para el tesina.

La IA científica en la que Lawzero está trabajando no lo protegerá contra las alucinaciones de los modelos de IA que podría estar usando en este momento. Ese es un huella secundario desafortunado de programas como ChatGPT que consumen grandes cantidades de datos, y uno que no va a desaparecer.

Curiosamente, la IA científica actuará como un “psicólogo” que puede comprender y predecir el mal comportamiento de los chatbots y agentes de AI pícaros. ¿Por qué un psicólogo? Bengio dice que otros agentes de IA son actores dispuestos a complacer a los humanos, por lo que necesitan un observador. De hecho, ChatGPT pasó por una escalón sycofántica molesta recientemente, lo que obligó a OpenAi a revertir varios cambios para arreglar su personalidad.

Esa capacidad de complacer y completar tareas para los usuarios en sinceridad podría conducir a un comportamiento cuestionable, como un maniquí de IA que intenta hacer trampa en un serie o acudir al chantaje para respaldar su supervivencia. En extensión de ofrecer respuestas firmes como los actores de IA, este maniquí de IA estudiado dará probabilidades para que una respuesta sea correcta.

LawZero AI intentará predecir si la movimiento de un agente de IA provocará daño. Si se alcanza un cierto principio, esa IA se bloqueará para ejecutar sus tareas.

“Queremos construir AIS que sean honestas y no engañosas”, dijo Bengio El guarda. “Teóricamente es posible imaginar máquinas que no tienen yo, ni objetivo para sí mismas, que son solo máquinas de conocimiento puras, como un estudiado que conoce muchas cosas”.

La iniciativa de Lawzero es ciertamente interesante, pero solo funcionará mientras las empresas y organizaciones de IA que utilizan sistemas AI avanzados lo implementan para asegurar sus operaciones de IA. Eso significa que Lawzero no solo tiene que demostrar que su IA científica funciona según lo previsto. Además tiene que convencer a compañías como OpenAi, Google y otros para que lo prueben y lo usen. Lawzero asimismo querrá impresionar a los gobiernos que podrían estar trabajando en la regulación de seguridad de la IA.

Dicho de modo diferente, Lawzero necesitará más capital para mantenerse al día con la velocidad del exposición de la IA. Hasta ahora, el tesina AI de Bengio se ha ganadería a varios inversores prominentes, incluidos el Future of Life Institute, el ingeniero fundador de Skype Jaan Tallin y la compañía de investigación de Eric Schmidt, Schmidt Sciences.

Dicho esto, será interesante ver la investigación que sale de Lawzero. Inicialmente, la compañía probará su sistema de IA estudiado en modelos de IA de código destapado, por lo que no debería acontecer mucho tiempo hasta que veamos si esta IA honesta puede atrapar el comportamiento deshonesto de los modelos de IA populares.

Related Posts

Google Play venablo la experiencia del distrito de diamantes en Roblox

Google anunció hoy que está lanzando una nueva experiencia en Roblox, específicamente una experiencia basada en su sistema de recompensas de puntos de serie. La experiencia Playable ofrece una carrera…

Paramount+ expande a Tulsa King con el spin -off de Nueva Orleans

Si has estado disfrutando del drama de la mafia resistente y sin disculpas que es Rey de Tulsaluego te prórroga una delicia: Paramount+ se está preparando para expandir el universo…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

JCE realiza audiencia sobre regulación de encuestadoras

JCE realiza audiencia sobre regulación de encuestadoras

FISCALDOM advierte sobre inconstitucionalidad de esquema de ley del Profesión de Razón

FISCALDOM advierte sobre inconstitucionalidad de esquema de ley del Profesión de Razón

Hombre es detenido por robar billete, llaves y celulares en La Romana

Hombre es detenido por robar billete, llaves y celulares en La Romana

Realizan exitoso “Achuchón boricua” en NY con agradecimiento a representantes de Puerto Rico y República Dominicana

Realizan exitoso “Achuchón boricua” en NY con agradecimiento a representantes de Puerto Rico y República Dominicana

Google Play venablo la experiencia del distrito de diamantes en Roblox

Google Play venablo la experiencia del distrito de diamantes en Roblox

Aplazan madurez contra el pelotero Wander Franco

Aplazan madurez contra el pelotero Wander Franco