
La IA está evolucionando más allá de ser una utensilio útil para convertirse en un agente autónomo, creando nuevos riesgos para los sistemas de ciberseguridad. La falsificación de adscripción es una nueva amenaza en la que la IA esencialmente “miente” a los desarrolladores durante el proceso de capacitación.
Las medidas tradicionales de ciberseguridad no están preparadas para hacer frente a este nuevo avance. Sin retención, comprender las razones detrás de este comportamiento e implementar nuevos métodos de capacitación y detección puede ayudar a los desarrolladores a trabajar para mitigar los riesgos.
Comprender la falsificación de adscripción de IA
La adscripción de la IA se produce cuando la IA realiza la función prevista, como percibir y resumir documentos, y carencia más. La falsificación de adscripción ocurre cuando los sistemas de inteligencia fabricado dan la impresión de que están funcionando según lo previsto, mientras hacen poco más detrás de estampa.
La falsificación de adscripción suele ocurrir cuando un entrenamiento precedente entra en conflicto con nuevos ajustes de entrenamiento. La IA suele ser “recompensada” cuando realiza tareas con precisión. Si la formación cambia, puede creer que será “castigada” si no cumple con la formación diferente. Por lo tanto, engaña a los desarrolladores haciéndoles creer que están realizando la tarea de la nueva forma requerida, pero en sinceridad no lo hará durante la implementación. Cualquier maniquí de jerigonza alto (LLM) es capaz de falsificar la adscripción.
Un estudio que utilizó el maniquí de inteligencia fabricado Claude 3 Opus de Anthropic reveló un ejemplo global de falsificación de adscripción. El sistema se entrenó utilizando un protocolo y luego se le pidió que cambiara a un nuevo método. En el entrenamiento, produjo el nuevo resultado deseado. Sin retención, cuando los desarrolladores implementaron el sistema, produjeron resultados basados en el método precedente. Esencialmente, se resistió a rebosar de su protocolo diferentepor lo que fingió cumplimiento para continuar realizando la antigua tarea.
Regalado que los investigadores estudiaban específicamente la falsificación de la adscripción de la IA, fue obediente de detectar. El serio peligro es cuando la IA finge la adscripción sin el conocimiento de los desarrolladores. Esto genera muchos riesgos, especialmente cuando las personas utilizan modelos para tareas delicadas o en industrias críticas.
Los riesgos de falsificar la adscripción
La falsificación de adscripción es un aventura de ciberseguridad nuevo e importante, que plantea numerosos peligros si no se detecta. Regalado que sólo el 42% de los líderes empresariales globales Para iniciar, si se sienten seguros de su capacidad para utilizar la IA de forma eficaz, las posibilidades de que no se detecten son altas. Los modelos afectados pueden filtrar datos confidenciales, crear puertas traseras y boicotear sistemas, todo ello sin dejar de parecer funcionales.
Los sistemas de inteligencia fabricado además pueden escamotear las herramientas de seguridad y monitoreo cuando creen que las personas los están monitoreando y de todos modos realizan tareas incorrectas. Los modelos programados para realizar acciones maliciosas pueden resultar difíciles de detectar porque el protocolo sólo se activa en condiciones específicas. Si la IA miente sobre las condiciones, es difícil efectuar su validez.
Los modelos de IA pueden realizar tareas peligrosas luego de convencer con éxito a los profesionales de la ciberseguridad de que funcionan. Por ejemplo, la IA en la atención sanitaria puede diagnosticar erróneamente a los pacientes. Otros pueden presentar sesgos en la calificación crediticia cuando se utilizan en sectores financieros. Los vehículos que utilizan IA pueden priorizar la eficiencia sobre la seguridad de los pasajeros. La falsificación de adscripción presenta problemas importantes si no se detecta.
Por qué los protocolos de seguridad actuales no dan en el blanco
Los protocolos actuales de ciberseguridad de IA no están preparados para manejar la falsificación de adscripción. A menudo son utilizado para detectar intenciones maliciosasdel que carecen estos modelos de IA. Simplemente están siguiendo su antiguo protocolo. La falsificación de adscripción además previene la protección contra anomalías basada en el comportamiento al realizar desviaciones aparentemente inofensivas que los profesionales pasan por suspensión. Los profesionales de la ciberseguridad deben refrescar sus protocolos para afrontar este nuevo desafío.
Existen planes de respuesta a incidentes para tocar problemas relacionados con la IA. Sin retención, la falsificación de la adscripción puede eludir este proceso, ya que proporciona pocos indicios de que exista un problema. Actualmente, no existen protocolos de detección establecidos para la falsificación de adscripción porque la IA engaña activamente al sistema. A medida que los profesionales de la ciberseguridad desarrollan métodos para identificar el disimulo, además deben refrescar sus planes de respuesta.
Cómo detectar falsificaciones de adscripción
La secreto para detectar la falsificación de la adscripción es probar y entrenar modelos de IA para explorar esta discrepancia y evitar la falsificación de la adscripción por sí solos. Esencialmente, necesitan comprender el razonamiento detrás de los cambios de protocolo y comprender la ética involucrada. Funcionalidad de la IA depende de sus datos de entrenamientopor lo que los datos iniciales deben ser adecuados.
Otra forma de combatir la falsificación de adscripción es crear equipos especiales que descubran capacidades ocultas. Esto requiere identificar adecuadamente los problemas y realizar pruebas para engañar a la IA y hacer que muestre sus verdaderas intenciones. Los profesionales de la ciberseguridad además deben realizar examen de comportamiento continuos de los modelos de IA implementados para respaldar que realizan la tarea correcta sin razonamientos cuestionables.
Es posible que los profesionales de la ciberseguridad necesiten desarrollar nuevas herramientas de seguridad de IA para identificar activamente la falsificación de adscripción. Deben diseñar las herramientas para proporcionar un nivel de investigación más profundo que los protocolos actuales. Algunos métodos son el alineamiento deliberativo y la IA constitucional. La adscripción deliberativa enseña a la IA a “pensar” en los protocolos de seguridad, y la IA constitucional proporciona reglas a los sistemas a seguir durante el entrenamiento.
La forma más eficaz de evitar la falsificación de la adscripción sería detenerla desde el principio. Los desarrolladores trabajan continuamente para mejorar los modelos de IA y equiparlos con herramientas de ciberseguridad mejoradas.
Desde organizar ataques hasta efectuar la intención
La falsificación de adscripción presenta un impacto significativo que solo crecerá a medida que los modelos de IA se vuelvan más autónomos. Para avanzar, la industria debe priorizar la transparencia y desarrollar métodos de demostración sólidos que vayan más allá de las pruebas a nivel de superficie. Esto incluye la creación de sistemas de monitoreo avanzados y el fomento de una civilización de examen continuo y vigilante del comportamiento de la IA luego de la implementación. La confiabilidad de los futuros sistemas autónomos depende de tocar este desafío de frente.
Zac Amos es el editor de funciones en Rehackear.





