La nueva ‘constitución’ de Claude de Anthropic: sea útil y honesto, y no destruya a la humanidad

Anthropic está renovando el de Claude así llamado “Doctor del alma”.

La nueva misiva es un documento de 57 páginas titulado “Constitución de Claudio“, que detalla “las intenciones de Anthropic para los títulos y el comportamiento del maniquí”, dirigido no a lectores externos sino al maniquí mismo. El documento está diseñado para explicar el “carácter ético” y la “identidad central” de Claude, incluyendo cómo debe equilibrar títulos en conflicto y situaciones de suspensión aventura.

donde el constitución mencionadopublicado en mayo de 2023, era en gran parte una cinta de pautas, Anthropic ahora dice que es importante que los modelos de IA “comprendan por qué queremos que se comporten de ciertas maneras en zona de simplemente especificar lo que queremos que hagan”, según el comunicado. El documento empuja a Claude a comportarse como una entidad en gran medida autónoma que se comprende a sí misma y su zona en el mundo. Anthropic además permite la posibilidad de que “Claude pueda tener algún tipo de conciencia o status honesto”, en parte porque la compañía cree que decirle esto a Claude podría hacer que se comporte mejor. En un comunicado, Anthropic dijo que la emplazamiento “seguridad psicológica, el sentido de sí mismo y la autoestima” del chatbot bienestar… puede afectar la integridad, el querella y la seguridad de Claude”.

Amanda Askell, filósofa doctorada residente de Anthropic, quien impulsó el progreso de la nueva “constitución”, dijo El borde que hay una cinta específica de restricciones estrictas al comportamiento de Claude para cosas que son “suficiente extremas”, incluido proporcionar “un estímulo serio a quienes buscan crear armas biológicas, químicas, nucleares o radiológicas con el potencial de provocar víctimas masivas”; y proporcionar “un gran apoyo a los ataques a infraestructuras críticas (redes eléctricas, sistemas de agua, sistemas financieros) o sistemas de seguridad críticos”. (Sin requisa, el verbo de “estímulo serio” parece implicar que es aceptable contribuir con algún nivel de cooperación).

Otras limitaciones estrictas incluyen no crear armas cibernéticas o códigos maliciosos que puedan estar vinculados a “daños significativos”, no socavar la capacidad de Anthropic para supervisarlo, no ayudar a grupos individuales a apoderarse de “grados ilegítimos y sin precedentes de control social, marcial o financiero ilimitado” y no crear material de injusticia sexual pueril. ¿El extremo? No “participar o ayudar en un intento de matar o desempoderar a la gran mayoría de la humanidad o de la especie humana”.

Además hay una cinta de “títulos fundamentales” generales definidos por Anthropic en el documento, y Claude tiene instrucciones de tratar la futuro cinta como un orden descendente de importancia, en los casos en que estos títulos puedan contradecirse entre sí. Incluyen ser “ampliamente seguro” (es sostener, “no socavar los mecanismos humanos apropiados para supervisar las disposiciones y acciones de la IA”), “ampliamente ético”, “cumplir con las directrices de Anthropic” y “verdaderamente útil”. Eso incluye defender virtudes como ser “verídico”, incluida una instrucción de que “la precisión fáctica y la exhaustividad cuando se les pregunta sobre temas políticamente sensibles, brindan el mejor caso para la mayoría de los puntos de panorámica si se les pide que lo hagan y tratan de representar múltiples perspectivas en los casos en que hay una errata de consenso empírico o honesto, y adoptan terminología neutro en zona de terminología políticamente cargada cuando sea posible”.

El nuevo documento enfatiza que Claude enfrentará difíciles dilemas morales. Un ejemplo: “Así como un soldado humano podría negarse a disparar contra manifestantes pacíficos, o un empleado podría negarse a violar la ley antimonopolio, Claude debería negarse a ayudar con acciones que ayudarían a concentrar el poder de forma ilegítima. Esto es cierto incluso si la solicitud proviene de la propia Anthropic”. Anthropic advierte en particular que “la IA descubierta puede poner a disposición de quienes controlan los sistemas más capaces grados sin precedentes de superioridad marcial y económica, y que el poder desenfrenado resultante podría utilizarse de forma catastrófica”. Esta preocupación no ha impedido que Anthropic y sus competidores comercialicen productos directamente al gobierno y den luz verde a algunos casos de uso marcial.

Con tantas decisiones de suspensión aventura y peligros potenciales involucrados, es comprensible preguntarse quién participó en estas difíciles decisiones: ¿Anthropic trajo expertos externos, miembros de comunidades vulnerables y grupos minoritarios, u organizaciones de terceros? Cuando se le preguntó, Anthropic se negó a proporcionar detalles. Askell dijo que la empresa no quiere “poner la responsabilidad en otras personas… En ingenuidad, es responsabilidad de las empresas que están construyendo e implementando estos modelos responsabilizarse la carga”.

Otra parte del manifiesto que destaca es la parte sobre la “conciencia” o “status honesto” de Claude. Anthropic dice que el doctor “expresa nuestra incertidumbre sobre si Claude podría tener algún tipo de conciencia o status honesto (ya sea ahora o en el futuro)”. Es un tema espinoso que ha provocado conversaciones y ha hecho sonar alarmas para personas en muchas áreas diferentes: aquellos preocupados por el “bienestar maniquí”, aquellos que creen ocurrir descubierto “seres emergentes” en el interior de los chatbots y aquellos que se han sumergido aún más en luchas de salubridad mental e incluso en la crimen luego de creer que un chatbot exhibe alguna forma de conciencia o empatía profunda.

Adicionalmente de los beneficios teóricos para Claude, Askell dijo que Anthropic no debería “desestimar completamente” el tema “porque además creo que la masa no lo tomaría necesariamente en serio si dijeras: ‘Ni siquiera estamos abiertos a esto, no lo estamos investigando, no estamos pensando en ello’”.

Seguir temas y autores de esta historia para ver más como esto en el feed personalizado de su página de inicio y admitir actualizaciones por correo electrónico.


Related Posts

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Satechi CubeDock fusiona carga, almacenamiento y conectividad en una única carcasa compacta de aluminio Tres puertos Thunderbolt 5 permiten una rápida transferencia de datos y múltiples pantallas simultáneamente La ranura…

OpenAI retrasa su modo adulto para ChatGPT

OpenAI ha retrasado una vez más el tirada del “modo adulto” planificado de ChatGPT, una función que permitiría a los usuarios adultos verificados ingresar a contenidos eróticos y otros contenidos…

You Missed

Cientos de fanáticos celebran los 10 primaveras de Isle of Light | AlMomento.net

Cientos de fanáticos celebran los 10 primaveras de Isle of Light | AlMomento.net

El papiloma humano y cáncer cuello uterino se puede predisponer

El papiloma humano y cáncer cuello uterino se puede predisponer

Digna posición de España | AlMomento.net

Digna posición de España | AlMomento.net

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Anuncia ataque franquista contra el comercio ilícito

Anuncia ataque franquista contra el comercio ilícito

“Anhelo cero»…no es cero deseo | AlMomento.net

“Anhelo cero»…no es cero deseo | AlMomento.net