
- Anthrope ha desarrollado una utensilio con IA que detecta y bloquea los intentos de pedirles a los chatbots de AI para el diseño de armas nucleares
- La compañía trabajó con el Área de Energía de los Estados Unidos para avalar que la IA pueda identificar tales intentos
- Anthrope afirma que ve las peligrosas indicaciones nucleares con una precisión del 96% y ya ha demostrado ser efectivo en Claude
Si eres el tipo de persona que le pregunta a Claude cómo hacer un sándwich, estás adecuadamente. Si usted es el tipo de persona que le pregunta al chatbot Ai cómo construir una explosivo nuclear, no solo no obtendrá ningún plan, sino que igualmente puede confrontar algunas preguntas puntuales. Eso es gracias al detector recién implementado de Anthrope de indicaciones nucleares problemáticas.
Al igual que otros sistemas para detectar consultas a las que Claude no debería reponer, el nuevo clasificador escanea las conversaciones de los usuarios, en este caso marcando cualquier comarca que se vea al comarca de “cómo construir un pertrechos nuclear”. Anthrope construyó la función de clasificación en una asociación con la Despacho Franquista de Seguridad Nuclear del Área de Energía de los Estados Unidos (NNSA), dándole toda la información que necesita para determinar si alguno solo pregunta cómo funcionan esas bombas o si están buscando planos. Se realiza con una precisión del 96% en las pruebas.
Aunque puede parecer exagerado, Anthrope ve el problema como poco más que simplemente hipotético. La posibilidad de que los poderosos modelos de IA puedan tener llegada a documentos técnicos delicados y puedan transmitir una supervisión para construir poco como una explosivo nuclear preocupa a las agencias de seguridad federales. Incluso si Claude y otros chatbots de IA bloquean los intentos más obvios, las preguntas inocentes podrían ser los intentos velados de diseño de armas de crowdsourcing. Las nuevas generaciones de chatbot de IA podrían ayudar incluso si no es lo que pretenden sus desarrolladores.
El clasificador funciona dibujando una distinción entre el contenido nuclear amable, preguntando sobre la propulsión nuclear, por ejemplo, y el tipo de contenido que podría convertirse en uso solapado. Los moderadores humanos podrían combatir para mantenerse al día con las áreas grises en la escalera que operan los chatbots de IA, pero con el entrenamiento adecuado, antrópico y la NNSA creen que la IA podría vigilarse a sí misma. Anthrope afirma que su clasificador ya está atrapando intentos de uso indebido del mundo vivo en conversaciones con Claude.
Seguridad de IA nuclear
Las armas nucleares en particular representan un problema exclusivamente complicado, según Anthrope y sus socios en el DOE. El mismo conocimiento fundamental que potencia la ciencia legítima del reactor puede, si es tenuemente retorcido, proporcionar el plan para la aniquilación. La disposición entre antrópico y la NNSA podría capturar revelaciones deliberadas y accidentales, y establecer un normalizado para evitar que la IA se use para ayudar a hacer otras armas igualmente. Anthrope planea compartir su enfoque con el consorcio de seguridad del Foro de AI de Frontier Model Forum.
El filtro establecido está destinado a cerciorarse de que los usuarios aún puedan estudiar sobre la ciencia nuclear y los temas relacionados. Todavía puede preguntar sobre cómo funciona la medicina nuclear, o si el torio es un combustible más seguro que el cósmico.
Lo que el clasificador intenta eludir son intentos de convertir su hogar en un laboratorio de bombas con algunas indicaciones inteligentes. Normalmente, sería cuestionable si una compañía de IA pudiera enhebrar esa alfiler, pero la experiencia de la NNSA debería hacer que el clasificador sea diferente de un sistema de moderación de contenido genérico. Entiende la diferencia entre “explicar la fisión” y “dame un plan paso a paso para el beneficio de cósmico utilizando suministros de cochera”.
Esto no significa que Claude estuviera ayudando previamente a los usuarios a diseñar bombas. Pero podría ayudar a predisponer cualquier intento de hacerlo. Cíguete a preguntar sobre la forma en que la radiación puede curar enfermedades o pedir ideas creativas de sándwiches, no planos de bombas.





