Los investigadores sonaran la rebato: cómo algunas empresas secretas de IA podrían aplastar la sociedad excarcelado

granada de teclado

Andriy Onufriyenko/Getty Images

La maduro parte de la investigación que rodea los riesgos para la sociedad de inteligencia fabricado tiende a centrarse en los actores humanos maliciosos que utilizan la tecnología para fines nefastos, como las compañías tenedoras para el rescate o los estados nacionales que realizan lucha cibernética.

Un nuevo mensaje de la firma de investigación de seguridad Apollo Group sugiere que un tipo diferente de peligro puede estar al acecho donde pocos miran: internamente de las empresas que desarrollan los modelos de IA más avanzados, como OpenAI y Google.

Poder desproporcionado

El peligro es que las empresas a la vanguardia de la IA puedan usar sus creaciones de IA para acelerar sus esfuerzos de investigación y ampliación mediante la automatización de tareas típicamente realizadas por científicos humanos. Al hacerlo, podrían poner en marcha la capacidad de AI para eludir las barandillas y aguantar a límite acciones destructivas de varios tipos.

Asimismo podrían conducir a empresas con un poder crematístico desproporcionadamente ancho, empresas que amenazan a la sociedad misma.

Asimismo: La IA ha crecido más allá del conocimiento humano, dice la pelotón DeepMind de Google

“Durante la última lapso, la tasa de progreso en las capacidades de IA ha sido visible públicamente y relativamente predecible”, escriba la autora principal Charlotte Stix y su equipo en el diario “.AI a puerta cerrada: una presentación sobre el gobierno de la implementación interna

Esa divulgación pública, escriben, ha permitido “cierto porción de extrapolación para el futuro y habilitó la consiguiente preparación”. En otras palabras, el centro de atención divulgado ha permitido a la sociedad discutir la regulación de la IA.

Pero “Automatizar la I + D, por otro costado, podría permitir una lectura de progreso fugitivo que acelera significativamente el ritmo de progreso ya rápido”.

Asimismo: La carrera maniquí AI de repente se ha acercado mucho más, dicen Stanford Scholars

Si esa precipitación ocurre a puerta cerrada, el resultado, advierten, podría ser una “arranque de inteligencia interna” que podría contribuir a la acumulación de poder sin restricciones y no detectadas, que a su vez podría conducir a una interrupción graduado o abrupta de las instituciones democráticas y el orden demócrata “.

Comprender los riesgos de la IA

El Reunión Apolo fue fundada hace poco menos de dos primaveras y es una estructura sin fines de utilidad con sede en el Reino Unido. Está patrocinado por Rephink Priorities, una estructura sin fines de utilidad con sede en San Francisco. El equipo de Apollo está formado por científicos de IA y profesionales de la industria. El autor principal Stix fue anteriormente patrón de política pública en Europa para OpenAi.

(Divulgación: Ziff Davis, la empresa matriz de Zdnet, presentó una demanda de abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).

Asimismo: Anthrope encuentra alarmantes ‘tendencias emergentes’ en el mensaje de mal uso de Claude

La investigación del especie hasta ahora se ha centrado en comprender cómo funcionan efectivamente las redes neuronales, como a través de la “interpretabilidad mecanicista”, realizando experimentos en modelos de IA para detectar la funcionalidad.

La investigación que el especie ha publicado enfatiza la comprensión de los riesgos de la IA. Estos riesgos incluyen “agentes” de IA que están “desalineados”, que significa agentes que adquieren “objetivos que divergen de la intención humana”.

En el papel “AI a puerta cerrada de puertas”, Stix y su equipo están preocupados por lo que sucede cuando AI automatiza las operaciones de I + D internamente de las compañías que desarrollan modelos fronterizos: los principales modelos de IA del tipo representados por, por ejemplo, GPT-4 de Openai y Gemini de Google.

Según Stix y su equipo, tiene sentido que las empresas más sofisticadas de la IA apliquen la IA para crear más IA, como dar a los agentes de IA acercamiento a herramientas de ampliación para construir y capacitar modelos futuros de vanguardia, creando un ciclo virtuoso de ampliación constante y mejoría.

Asimismo: La prueba de Turing tiene un problema, y ​​el GPT -4.5 de OpenAi lo solo lo expuso

“A medida que los sistemas de IA comienzan a obtener capacidades relevantes que les permiten averiguar I + D independientes de futuros sistemas de inteligencia fabricado, las compañías de IA encontrarán cada vez más efectivo aplicarlas internamente de la tubería de I + D para acelerar automáticamente la IAI liderada por Human Human”, escriben Stix y su equipo.

Desde hace primaveras, ha habido ejemplos de modelos de IA que se utilizan, de modo limitada, para crear más IA. En cuanto a relacionados:

Los ejemplos históricos incluyen técnicas como la búsqueda de cimentación neural, donde los algoritmos exploran automáticamente los diseños de modelos y el formación espontáneo automatizado (AUTOML), que agiliza tareas como el ajuste de hiperparameter y la selección de modelos. Un ejemplo más flamante es el “estudiado de IA” de Sakana Ai, que es una prueba temprana de concepto para el descubrimiento estudiado totalmente espontáneo en el formación espontáneo.

Las instrucciones más recientes para la AI automatización de I + D incluyen declaraciones de OpenAI de que está interesado en “automatizar la investigación de seguridad de IA” y la pelotón DeepMind de Google que rastreo “admisión temprana de concurso y herramientas de IA en todo el proceso de I + D”.

apolo-group-2025-self-reforzing-bucle

Reunión Apolo
apolo-group-2025-self-reforzing-bucle-bucle

Reunión Apolo

Lo que puede suceder es que se desarrolla un ciclo virtuoso, donde la IA que ejecuta I + D sigue reemplazándose con mejores y mejores versiones, convirtiéndose en un “rizo de auto-refuerzo” que está más allá de la supervisión.

Asimismo: Por qué resquilar la IA agente es un maratón, no un sprint

El peligro surge cuando el rápido ciclo de ampliación de la IA construye la IA escapa de la capacidad humana para monitorear e intervenir, si es necesario.

“Incluso si los investigadores humanos monitorearan la aplicación militar de un nuevo sistema de inteligencia fabricado al proceso de I + D de IA razonablemente perfectamente, incluso a través de medidas técnicas, probablemente lucharán cada vez más por igualar la velocidad del progreso y las capacidades nacientes, limitaciones y externalidades negativas que resultan de este proceso”, escriben.

Esas “externalidades negativas” incluyen un maniquí de IA, o agente, que desarrolla espontáneamente el comportamiento que el desarrollador de IA humano nunca pretendía, como consecuencia de que el maniquí busque algún objetivo a derrochador plazo que sea deseable, como la optimización de la I + D de una empresa, lo que llaman “propiedades emergentes de perseguir objetivos de todo el mundo complejos bajo restricciones racionales”.

El maniquí desalineado puede convertirse en lo que llaman un maniquí de IA “intrigante”, que definen como “sistemas que persiguen de modo estafa y estratégica objetivos desalineados”, porque los humanos no pueden monitorear o intervenir de modo efectiva.

Asimismo: Con los modelos de IA que golpean cada punto de narración, es hora de la evaluación humana

“Es importante destacar que si un sistema de IA desarrolla tendencias de esquema consistentes,, por definición, se volvería difícil de detectar, ya que el sistema de IA trabajará activamente para ocultar sus intenciones, posiblemente hasta que sea lo suficientemente poderoso como para que los operadores humanos ya no puedan controlarlo”, escriben.

Posibles resultados

Los autores prevé algunos resultados posibles. Uno es un maniquí de IA o modelos que se vuelven locos, tomando el control de todo internamente de una empresa:

El sistema de IA puede, por ejemplo, ejecutar proyectos de investigación ocultos masivos sobre cómo mejorarse mejor o obtener sistemas de IA implementados externamente para compartir sus títulos. A través de la adquisición de estos bienes y el afianzamiento en las vías críticas, el sistema de IA eventualmente podría explotar su ‘poder’ para establecer encubierte el control sobre la propia compañía de IA para que capacidad su objetivo terminal.

Un segundo tablas regresa a esos actores humanos maliciosos. Es un tablas que llaman una “arranque de inteligencia”, donde los humanos en una estructura obtienen una superioridad sobre el resto de la sociedad en virtud de las capacidades crecientes de la IA. La situación hipotética consiste en una o más compañías que dominan económicamente gracias a sus automatizaciones de IA:

A medida que las empresas de IA hacen la transición a la fuerza gremial interna principalmente a IA, podrían crear concentraciones de capacidad productiva sin precedentes en la historia económica. A diferencia de los trabajadores humanos, que enfrentan limitaciones físicas, cognitivas y temporales, los sistemas de IA pueden replicarse a escalera, proceder continuamente sin descansos y potencialmente realizar tareas intelectuales a velocidades y volúmenes imposibles de los trabajadores humanos. Un pequeño número de empresas ‘superestrellas’ que capturan una parte descomunal de las ganancias económicas podrían pasar a cualquier empresa basada en humanos en prácticamente cualquier sector que elijan ingresar.

El “tablas indirecto” más dramático, escriben, es uno en el que tales compañías rivalizan en la sociedad misma y desafían la supervisión del gobierno:

La consolidación del poder internamente de un pequeño número de compañías de IA, o incluso una compañía de IA singular, plantea preguntas fundamentales sobre la responsabilidad democrática y la legalidad, especialmente porque estas organizaciones podrían desarrollar capacidades que rivalicen o excedan las de los estados. En particular, a medida que las empresas de IA desarrollan sistemas de IA cada vez más avanzados para uso interno, pueden obtener capacidades tradicionalmente asociadas con estados soberanos, incluidos el investigación de inteligencia sofisticado y las armas cibernéticas avanzadas, pero sin los controles y equilibrios democráticos que lo acompañan. Esto podría crear una crisis de legalidad en rápido ampliación donde las entidades privadas podrían ejercitar una influencia social sin precedentes sin mandatos electorales o limitaciones constitucionales, impactando la seguridad doméstico de los estados soberanos.

El aumento de ese poder internamente de una empresa podría ser sin ser detectado por la sociedad y los reguladores durante mucho tiempo, enfatizan Stix y su equipo. Una empresa que puede conseguir más y más capacidades de IA “en el software”, sin la suplemento de grandes cantidades de hardware, podría no cobrar mucha atención externamente, especulan. Como resultado, “una arranque de inteligencia detrás de las puertas cerradas de una compañía de IA puede no producir ningún disparo de advertencia visible externamente”.

Asimismo: ¿Openai está condenado? Los modelos de código campechano pueden aplastarlo, advierte un avezado

Apollo-Group-2025-Scheming-AI-Detection-Meases

Reunión Apolo

Medidas de supervisión

Proponen varias medidas en respuesta. Entre ellos se encuentran políticas para la supervisión internamente de las empresas para detectar la IA de esquema. Otro son las políticas y marcos formales para quién tiene acercamiento a los bienes internamente de las empresas, y verifica ese acercamiento para evitar el acercamiento ilimitado por parte de cualquier parte.

Argumentan que otra disposición es compartir información, específicamente para “compartir información crítica (capacidades internos del sistema, evaluaciones y medidas de seguridad) con las partes interesadas selectas, incluido el personal interno competente y las agencias gubernamentales relevantes, a través de tarjetas del sistema de implementación previo y la documentación detallada de seguridad”.

Asimismo: Las 20 mejores herramientas de IA de 2025, y la cosa #1 para recapacitar cuando las usas

Una de las posibilidades más intrigantes es un régimen regulatorio en el que las empresas hacen voluntariamente tales divulgaciones a cambio de bienes, como “acercamiento a bienes energéticos y una maduro seguridad del gobierno”. Eso podría tomar la forma de “asociaciones público-privadas”, sugieren.

El documento del Apolo es una contribución importante al debate sobre qué tipo de riesgos representa la IA. En un momento en que gran parte de la charla de “inteligencia militar fabricado”, AGI o “superinteligencia” es muy leve y militar, el documento del Apolo es un paso bienvenido en dirección a una comprensión más concreta de lo que podría suceder a medida que los sistemas de IA obtienen más funcionalidad, pero no están completamente regulados o no regulado.

El desafío para el divulgado es que el despliegue contemporáneo de la IA es proceder de modo separada, con muchos obstáculos para desplegar agentes de IA incluso para tareas simples como la automatización de los centros de llamadas “.

Asimismo: Por qué descuidar la ética de la IA es un negocio tan arriesgado y cómo hacer la IA correctamente

Probablemente, Apollo y otros deben hacer mucho más trabajo para establecer en términos más específicos cómo los sistemas de modelos y agentes podrían volverse más sofisticados progresivamente hasta que escapan de la supervisión y el control.

Los autores tienen un punto de conflicto muy serio en su investigación de las empresas. El ejemplo hipotético de empresas fugitivas, empresas tan poderosas que podrían desafiar a la sociedad, no abordan los conceptos básicos que a menudo cojean a las empresas. Las empresas pueden quedarse sin fortuna o tomar decisiones muy pobres que desperdician su energía y bienes. Es probable que esto pueda suceder incluso a las empresas que comienzan a obtener un poder crematístico desproporcionado a través de AI.

A posteriori de todo, gran parte de la productividad que las empresas desarrollan internamente aún pueden ser un desperdicio o poco crematístico, incluso si es una mejoría. ¿Cuántas funciones corporativas solo están por encima y no producen un retorno de la inversión? No hay razón para pensar que las cosas serían diferentes si la productividad se logra de modo más rápida con la automatización.

Apolo es Aceptar donaciones Si desea contribuir con fondos a lo que parece un esfuerzo que vale la pena.

Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.


Related Posts

¿El anciano Scrolls IV: Oblivion sigue siendo divertido para un ludópata por primera vez en 2025?

Sin duda, la entrega verdadero de Patrick Stewart en el recreo temprano ayuda a papel en muchas debilidades potenciales con la novelística original. E incluso más allá de la excelente…

Historias principales: Rumores de vendaval del iPhone 17, Apple Watch tiene 10 primaveras y más

Hemos sabido desde hace conveniente tiempo sobre los planes de Apple para un “Air iPhone 17” más delgado que llegará más delante este año, pero wow, los últimos modelos ficticios…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

ETED dará mantenimiento en líneas de la zona Este del país, este domingo

ETED dará mantenimiento en líneas de la zona Este del país, este domingo

Ideólogo creador del movimiento constitucionalista que produjo la conflagración cívico-militar de 1965

Ideólogo creador del movimiento constitucionalista que produjo la conflagración cívico-militar de 1965

Venezuela despide al papa como un “gran hombre”

Venezuela despide al papa como un “gran hombre”

Dominicano manguita comité para impulsar candidatos en Nueva York con $1.6M recaudados

Dominicano manguita comité para impulsar candidatos en Nueva York con .6M recaudados

Video de Luis Abinader y Raquel Arbaje en el funeral papa Francisco

Video de Luis Abinader y Raquel Arbaje en el funeral papa Francisco

¿El anciano Scrolls IV: Oblivion sigue siendo divertido para un ludópata por primera vez en 2025?

¿El anciano Scrolls IV: Oblivion sigue siendo divertido para un ludópata por primera vez en 2025?