La IA ha crecido más allá del conocimiento humano, dice la pelotón DeepMind de Google

concepto de ai abstracto

Worawit Chutrakunwanit/Getty Images

El mundo de la inteligencia industrial (IA) se ha preocupado recientemente por el avance de la IA generativa más allá de las simples pruebas que los modelos de IA pasan fácilmente. La famosa prueba de Turing ha sido “derrotada” en cierto sentido, y la controversia continúa sobre si los modelos más nuevos se están construyendo para corretear las pruebas de relato que miden el rendimiento.

El problema, dicen los académicos de la pelotón DeepMind de Google, no son las pruebas en sí mismas, pero la forma limitada de AI se desarrollan. Los datos utilizados para entrenar IA son demasiado restringidos y estáticos, y nunca impulsarán a AI a nuevas y mejores habilidades.

En un papel Publicado por Deepmind la semana pasadaparte de un próximo texto de MIT Press, los investigadores proponen que la IA debe poder tener “experiencias” de algún tipo, interactuando con el mundo para formular objetivos basados ​​en señales del medio animación.

Asimismo: Con los modelos de IA que golpean cada punto de relato, es hora de la evaluación humana

“Las nuevas capacidades increíbles surgirán una vez que se aproveche todo el potencial del formación empírico”, escriba a los académicos de DeepMind David Silver y Richard Sutton en el revista, Bienvenido a la era de la experiencia.

Los dos estudiosos son leyendas en el campo. Silver lideró más la investigación que resultó en Alphazero, el maniquí de IA de Deepmind que venció a los humanos en los juegos de ajedrez y Go. Sutton es uno de los dos desarrolladores galardonados de un enfoque de IA llamado Educación de refuerzo que Silver y su equipo solían crear Alphazero.

El enfoque de los dos académicos defensores se zócalo en el formación de refuerzo y las lecciones de Alphazero. Se apasionamiento “transmisiones” y está destinado a remediar las deficiencias de los modelos de idiomas grandes (LLM) de hoy, que se desarrollan exclusivamente para objetar preguntas humanas individuales.

profundo-2025-usos de refuerzo-aprendizaje

Google DeepMind

Silver y Sutton sugieren que poco posteriormente de Alphazero y su predecesor, Alphago, estallaron en la terreno, herramientas generativas de IA, como ChatGPT, subieron al decorado y “descartó” el formación de refuerzo. Ese movimiento tuvo beneficios y inconvenientes.

Asimismo: La investigación profunda de Openai tiene más resistor de investigación que tú, pero todavía está mal la medio del tiempo

Gen AI fue un avance importante porque el uso de Alphazero del formación de refuerzo estaba restringido a aplicaciones limitadas. La tecnología no podría ir más allá de los juegos de “información completa”, como el ajedrez, donde se conocen todas las reglas.

Los modelos de Gen AI, por otro costado, pueden manejar la entrada espontánea de los humanos que nunca antiguamente se encontraron, sin reglas explícitas sobre cómo se supone que las cosas deben surgir.

Sin bloqueo, descartar el formación de refuerzo significaba: “Poco se perdió en esta transición: la capacidad de un agente para autodescubrir su propio conocimiento”, escriben.

En cambio, observan que los LLM “(confían) en el obcecación humano”, o lo que el humano quiere en la etapa rápida. Ese enfoque es demasiado definido. Sugieren que el madurez humano “impone” un techo impenetrable en el desempeño del agente: el agente no puede descubrir mejores estrategias subestimadas por el evaluador humano.

El madurez humano no solo es un impedimento, sino que la naturaleza corta y recortada de las interacciones rápidas nunca permite que el maniquí de IA avance más allá de lo cuestionado y la respuesta.

“En la era de los datos humanos, la IA basada en el verbo se ha centrado en gran medida en episodios de interacción cortos: por ejemplo, un sucesor hace una pregunta y (tal vez posteriormente de algunos pasos de pensamiento o acciones de uso de herramientas), el agente avala”, escriben los investigadores.

“El agente apunta exclusivamente a los resultados interiormente del episodio presente, como objetar directamente a la pregunta de un sucesor”.

No hay memoria, no hay continuidad entre los fragmentos de interacción en la solicitud. “Por lo universal, poca o ninguna información se traslada de un episodio a otro, lo que impide cualquier acondicionamiento con el tiempo”, escribe Silver y Sutton.

Asimismo: La carrera maniquí AI de repente se ha acercado mucho más, dicen Stanford Scholars

Sin bloqueo, en su era de experiencia propuesta, “los agentes habitarán corrientes de experiencia, en sitio de breves fragmentos de interacción”.

Silver y Sutton dibujan una semejanza entre las corrientes y los humanos que aprenden durante toda una vida de experiencia acumulada, y cómo actúan en función de los objetivos de liberal efecto, no solo en la tarea inmediata.

“Los poderosos agentes deben tener su propia flujo de experiencia que progresa, como los humanos, a liberal plazo”, escriben.

Silver y Sutton argumentan que la “tecnología presente” es suficiente para comenzar a construir corrientes. De hecho, los pasos iniciales en el camino se pueden ver en desarrollos como agentes de IA de navegación web, incluida la investigación profunda de OpenAI.

“Recientemente, una nueva ola de agentes prototipos ha comenzado a interactuar con las computadoras de una modo aún más universal, mediante el uso de la misma interfaz que los humanos usan para trabajar una computadora”, escriben.

El agente del navegador marca “una transición de la comunicación exclusivamente privilegiada por humanos, a interacciones mucho más autónomas donde el agente puede ejecutar de forma independiente en el mundo”.

Asimismo: La prueba de Turing tiene un problema, y ​​el GPT -4.5 de OpenAi lo solo lo expuso

A medida que los agentes de IA van más allá de la navegación web, necesitan una forma de interactuar y cultivarse del mundo, sugieren Silver y Sutton.

Proponen que los agentes de IA en las corrientes aprenderán a través del mismo principio de formación de refuerzo que Alphazero. La máquina recibe un maniquí del mundo en el que interactúa, similar a un tablero de ajedrez y un conjunto de reglas.

Como el agente de IA explora y toma acciones, recibe comentarios como “recompensas”. Estas recompensas entrenan al maniquí AI sobre lo que es más o menos valioso entre las posibles acciones en una circunstancia dada.

El mundo está ahíto de varias “señales” que proporcionan esas recompensas, si el agente puede buscarlas, sugieren Silver y Sutton.

“¿De dónde provienen las recompensas, si no de los datos humanos? Precisión, potencia, distancia, velocidad, eficiencia o consumo de energía.

Para comenzar el agente de IA desde una fundación, los desarrolladores de IA podrían usar una simulación de “maniquí mundial”. El maniquí mundial permite que un maniquí de IA haga predicciones, pruebe esas predicciones en el mundo actual y luego use las señales de remuneración para hacer que el maniquí sea más realista.

“A medida que el agente continúa interactuando con el mundo a lo liberal de su flujo de experiencia, su maniquí de dinámica se actualiza continuamente para corregir cualquier error en sus predicciones”, escriben.

Asimismo: La IA no está golpeando una horma, se está volviendo demasiado inteligente para los puntos de relato, dice Anthrope

Silver y Sutton todavía esperan que los humanos tengan un papel en la definición de objetivos, para lo cual las señales y las recompensas sirven para dirigir al agente. Por ejemplo, un sucesor podría especificar un objetivo amplio como ‘mejorar mi estado físico’, y la función de remuneración podría devolver una función de la frecuencia cardíaca del sucesor, la duración del sueño y los pasos tomados. O el sucesor podría especificar un objetivo de ‘ayudarme a cultivarse gachupin’, y la función de remuneración podría devolver los resultados del examen de gachupin del sucesor.

La feedback humana se convierte en “el objetivo de nivel superior” que todo lo demás sirve.

Los investigadores escriben que los agentes de IA con esas capacidades de liberal efecto serían mejores como asistentes de IA. Podrían rastrear el sueño y la dieta de una persona durante meses o primaveras, proporcionando consejos de lozanía que no se limitan a las tendencias recientes. Tales agentes además podrían ser asistentes educativos que rastrean a los estudiantes durante un liberal plazo.

“Un agente verificado podría despabilarse objetivos ambiciosos, como descubrir un nuevo material o someter el dióxido de carbono”, ofrecen. “Tal agente podría analizar las observaciones del mundo actual durante un período prolongado, desarrollar y ejecutar simulaciones, y sugerir experimentos o intervenciones del mundo actual”.

Asimismo: El punto de relato de ‘final examen de la humanidad’ es un tope modelos de IA, ¿puedes hacerlo mejor?

Los investigadores sugieren que la aparición de modelos de IA “pensamiento” o “razonamiento”, como Gemini, Deepseek’s R1 y OpenAi’s O1, pueden ser superados por los agentes de la experiencia. El problema con los agentes de razonamiento es que “imitan” el verbo humano cuando producen la producción detallada sobre los pasos a una respuesta, y el pensamiento humano puede estar definido por sus supuestos integrados.

“Por ejemplo, si un agente hubiera sido entrenado para razonar usando pensamientos humanos y respuestas expertas de hace 5,000 primaveras, puede acontecer razonado sobre un problema físico en términos de animismo”, ofrecen. “Hace 1,000 primaveras, puede acontecer razonado en términos teístas; hace 300 primaveras, puede acontecer razonado en términos de mecánica newtoniana; y hace 50 primaveras, en términos de mecánica cuántica”.

Los investigadores escriben que tales agentes “desbloquearán capacidades sin precedentes,” conducir a “un futuro profundamente diferente de cualquier cosa que hemos pasado antiguamente”.

Sin bloqueo, sugieren que además hay muchos, muchos riesgos. Estos riesgos no solo se centran en los agentes de IA que hacen que el trabajo humano sea obsoleto, aunque señalan que la pérdida de empleo es un peligro. Los agentes que “pueden interactuar de modo autónoma con el mundo durante períodos prolongados de tiempo para conquistar objetivos a liberal plazo,” escriben, plantean la posibilidad de que los humanos tengan menos oportunidades para “intervenir y mediar las acciones del agente”.

En el costado positivo, sugieren, un agente que puede adaptarse, a diferencia de los modelos de IA fijos de hoy en día, “podría confesar cuándo su comportamiento desencadena la preocupación humana, la insatisfacción o la angustia y modificar adaptativamente su comportamiento para evitar estas consecuencias negativas”.

Asimismo: Google afirma que Gemma 3 alcanza el 98% de la precisión de Deepseek, usando solo una GPU

Dejando de costado los detalles, Silver y Sutton confían en que la experiencia de las transmisiones generará mucha más información sobre el mundo que eclipsará todos los datos de Wikipedia y Reddit utilizados para capacitar a la IA de hoy. Los agentes basados ​​en la corriente pueden incluso exceder la inteligencia humana, aludiendo a la aparición de la inteligencia universal industrial o la superinteligencia.

“Los datos experimentales eclipsarán la escalera y la calidad de los datos generados por los humanos”, escriben los investigadores. “Este cambio de muestra, acompañado de avances algorítmicos en RL (formación de refuerzo), desbloqueará en muchos dominios nuevas capacidades que superan las que poseen cualquier humano”.

Silver además exploró el sujeto en una mente profunda podcast este mes.


Related Posts

Mira: el CEO de Google Deepmind y el campeón de AI Nobel Demis Hassabis en CBS ’60 minutos ‘

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información Un segmento en…

Nuevo en Max en mayo: Duster y el brutalista

En 2023, HBO Max y Discovery+ se combinaron para formar max. Como resultado, los nuevos lanzamientos en Max son más variados que nunca, con HBO y Max Originals que se…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

LALIGA EA SPORTS y Premios PLATINO celebran el V Diálogo de las Estrellas

LALIGA EA SPORTS y Premios PLATINO celebran el V Diálogo de las Estrellas

Autoridades decomisan 4,2 toneladas de cocaína en México | AlMomento.net

Autoridades decomisan 4,2 toneladas de cocaína en México | AlMomento.net

Partidos y líderes RD expresan su pesar por asesinato del papa | AlMomento.net

Partidos y líderes RD expresan su pesar por asesinato del papa | AlMomento.net

Raquel Peña sobre papa: su sencillez y humanidad dejaron en mí una huella imborrable

Raquel Peña sobre papa: su sencillez y humanidad dejaron en mí una huella imborrable

Mira: el CEO de Google Deepmind y el campeón de AI Nobel Demis Hassabis en CBS ’60 minutos ‘

Mira: el CEO de Google Deepmind y el campeón de AI Nobel Demis Hassabis en CBS ’60 minutos ‘

República Dominicana en camino de pasar a los 3 millones de pasajeros de cruceros en 2025

República Dominicana en camino de pasar a los 3 millones de pasajeros de cruceros en 2025