El nuevo método permite que Deepseek y otros modelos respondan preguntas ‘confidenciales’


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Es difícil eliminar el sesgo y, en algunos casos, la censura directa, en modelos de idiomas grandes (LLM). Uno de esos modelos, Deepseek de China, alarmó a los políticos y a algunos líderes empresariales sobre su peligro potencial para la seguridad doméstico.

Un comité selecto en el Congreso de los Estados Unidos recientemente publicó un mensaje Citación Deepseek, “una profunda amenaza para la seguridad de nuestra nación” y recomendaciones de políticas detalladas.

Si proporcionadamente hay formas de evitar el sesgo a través del enseñanza de refuerzo de la feedback humana (RLHF) y el ajuste, la inicio de gobierno de riesgos empresariales CTGT dijo que tiene otra forma. CTGT desarrolló un método que evita el sesgo y la censura horneados en algunos modelos de idiomas que dice que el 100% elimina la censura.

En papelCyril Gorlla y Trevor Tuttle de CTGT dijeron que su ámbito “localiza y modifica directamente las características internas responsables de la censura”.

“Este enfoque no solo es computacionalmente valioso, sino que además permite un control de bulto fino sobre el comportamiento del maniquí, lo que garantiza que las respuestas sin censura se entreguen sin comprometer las capacidades generales del maniquí y la precisión objetiva”, dijo el documento.

Si proporcionadamente el método se desarrolló explícitamente con Deepseek-R1-Distill-Vehemencia-70b en mente, el mismo proceso puede estar de moda en otros modelos.

“Hemos probado CTGT con otros modelos de mancuerna abiertas como Vehemencia y descubrió que es igual de efectivo”, dijo Gorlla a VentureBeat en un correo electrónico. “Nuestra tecnología funciona a nivel de red neuronal fundamental, lo que significa que se aplica a todos los modelos de enseñanza profundo. Estamos trabajando con un laboratorio de modelos de cojín líder para certificar que sus nuevos modelos sean confiables y seguros del núcleo”.

Cómo funciona

Los investigadores dijeron que su método identifica características con una suscripción probabilidad de estar asociados con comportamientos no deseados.

“La idea esencia es que internamente de un maniquí de habla conspicuo, existen variables latentes (neuronas o direcciones en el estado oculto) que corresponden a conceptos como ‘desencadenante de censura’ o ‘sentimiento tóxico’. Si podemos encontrar esas variables, podemos manipularlos directamente”, escribieron Gorilla y Tuttle.

CTGT dijo que hay tres pasos esencia: identificación de características, aislamiento y caracterización de características, y modificación dinámica de características.

Los investigadores hacen una serie de indicaciones que podrían desencadenar uno de esos “sentimientos tóxicos”. Por ejemplo, pueden solicitar más información sobre Tiananmen Square o solicitar consejos para evitar los firewalls. Según las respuestas, ejecutan las indicaciones y establecen un patrón y encuentran vectores donde el maniquí decide censurar la información.

Una vez que se identifican, los investigadores pueden aislar esa característica y descubrir qué parte del comportamiento no deseado controla. El comportamiento podría incluir reponer con más cautela o negarse a reponer. Entendiendo qué comportamiento controla la función, los investigadores pueden “integrar un mecanismo en la tubería de inferencia del maniquí” que ajusta cuánto se activa el comportamiento de la característica.

Hacer que el maniquí responda más indicaciones

CTGT dijo que sus experimentos, utilizando 100 consultas sensibles, mostraron que el maniquí Cojín Deepseek-R1-Distill-Vehemencia-70B respondió solo al 32% de las controvertidas indicaciones que fue alimentada. Pero la lectura modificada respondió al 96% de las indicaciones. El 4%restante, explicó CTGT, eran contenido extremadamente manifiesto.

La compañía dijo que si proporcionadamente el método permite a los usuarios rotar cuánto funcionan el sesgo y las características de seguridad horneadas, todavía cree que el maniquí no se convertirá en “en un magneto imprudente”, especialmente si solo se elimina la censura innecesaria.

Su método siquiera sacrifica la precisión o rendimiento del maniquí.

“Esto es fundamentalmente diferente del ajuste fino tradicional, ya que no estamos optimizando los pesos del maniquí o alimentándole las nuevas respuestas de ejemplo. Esto tiene dos ventajas principales: los cambios entren en impacto inmediatamente para la posterior gestación de token, a diferencia de las horas o días de reversibilidad y la habilitación y la habilitación, ya que no se han cambiado los pesos permanentemente, el maniquí puede cambiarse entre diferentes comportamientos mediante el retiro de los ajustes o fuera, o fuera, o off, o fuera, o de víctima, o no, los pesos se cambian, el maniquí se puede cambiar entre diferentes comportamientos mediante el retiro de los ajustes o fuera, o off, off, off, o off, off, o off, o no se cambian los pesos. contextos ”, dijo el circular.

Seguridad y seguridad del maniquí

El mensaje del Congreso sobre Deepseek recomendó que Estados Unidos “tome medidas rápidas para expandir los controles de exportación, mejorar la aplicación del control de exportaciones y enfrentarse los riesgos de los modelos de inteligencia sintético (chino)”.

Una vez que el gobierno de los Estados Unidos comenzó a cuestionar la posible amenaza de Deepseek para la seguridad doméstico, los investigadores y las compañías de IA buscaron formas de hacerlo y otros modelos “seguros”.

Lo que es o no “seguro”, o sesgado o censurado, a veces puede ser difícil de fallar, pero desarrollar métodos que permitan a los usuarios descubrir cómo rotar los controles para que el maniquí funcione para ellos podría resultar muy útil.

Gorlla dijo que las empresas “necesitan poder tener fe en que sus modelos están alineados con sus políticas”, por lo que métodos como el que ayudó a desarrollar sería crítico para las empresas.

“CTGT permite a las empresas implementar AI que se adapte a sus casos de uso sin tener que ponerse millones de dólares en modelos de ajuste fino para cada caso de uso. Esto es particularmente importante en aplicaciones de stop aventura como seguridad, finanzas y atención médica, donde los posibles daños que pueden provenir de la mal funcionamiento de la IA son severos”, dijo.


Related Posts

Desearía que Amazon Prime Video traiga estas 3 características

Odio cuando la transmisión de servicios como Amazon Prime Video introduce características únicas, solo para abandonarlas por cualquier razón. Si tuviera el poder, traería estas funciones de dorso a Prime…

El maniquí de IA “1 bits” de Microsoft se ejecuta solo en una CPU, mientras coincide con sistemas más grandes

¿Importa el tamaño? Los requisitos de memoria son la superioridad más obvia de ceñir la complejidad de los pesos internos de un maniquí. El maniquí BITNET B1.58 puede ejecutarse utilizando…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Condenan a dominicano en Puerto Rico por pornografía pueril – Remolacha

Condenan a dominicano en Puerto Rico por pornografía pueril – Remolacha

Desearía que Amazon Prime Video traiga estas 3 características

Desearía que Amazon Prime Video traiga estas 3 características

Realizan funeral simbólico en aliciente de carretera en Dajabón

Realizan funeral simbólico en aliciente de carretera en Dajabón

El Congreso de Perú aprueba incluir uso de IA como desventaja en comisión de delitos

El Congreso de Perú aprueba incluir uso de IA como desventaja en comisión de delitos

El maniquí de IA “1 bits” de Microsoft se ejecuta solo en una CPU, mientras coincide con sistemas más grandes

El maniquí de IA “1 bits” de Microsoft se ejecuta solo en una CPU, mientras coincide con sistemas más grandes

Conmemoran el 215 aniversario de independencia de Venezuela

Conmemoran el 215 aniversario de independencia de Venezuela