Para la mayoría de las fotografías aproximadamente 200 abriles En la historia, alterar una fotografía de forma convincente requería un cuarto umbrío, poco de experiencia en Photoshop o, como intrascendente, mano firme con tijeras y pegamento. El martes, OpenAI lanzó una aparejo eso reduce el proceso a escribir una oración.
No es la primera empresa en hacerlo. Si correctamente OpenAI tenía un maniquí de tiraje de imágenes conversacional en proceso desde GPT-4o en 2024, Google superó a OpenAI en el mercado en marzo con un prototipo sabido y luego lo refinó a un maniquí popular llamado maniquí de imagen Nano Plátano (y Nano Plátano Pro). La entusiasta respuesta al maniquí de tiraje de imágenes de Google en la comunidad de IA llamó la atención de OpenAI.
Lo nuevo de OpenAI Imagen GPT 1.5 es un maniquí de síntesis de imágenes de IA que, según se informa, genera imágenes hasta cuatro veces más rápido que su predecesor y cuesta aproximadamente un 20 por ciento menos a través de la API. El maniquí se lanzó a todos los usuarios de ChatGPT el martes y representa otro paso con destino a hacer de la manipulación de imágenes fotorrealistas un proceso casual que no requiere habilidades visuales particulares.
La “Reina Galáctica del Universo” agregada a una foto de una habitación con un sofá usando GPT Image 1.5 en ChatGPT.
GPT Image 1.5 se destaca porque es un maniquí de imagen “multimodal nativo”, lo que significa que la vivientes de imágenes ocurre en el interior de la misma red neuronal que procesa las indicaciones del jerga. (Por el contrario, DALL-E 3, un padre de imágenes OpenAI aludido integrado en ChatGPT, utilizó una técnica diferente indicación difusión para difundir imágenes).
Este nuevo tipo de maniquí, que cubrimos con más detalle en marzo, comercio imágenes y texto como el mismo tipo de cosas: fragmentos de datos llamados “tokens” que se deben predecir, patrones que se deben completar. Si subes una foto de tu padre y escribes “ponle un esmoquin en una boda”, el maniquí procesa tus palabras y los píxeles de la imagen en un espacio unificado, luego genera nuevos píxeles de la misma forma que generaría la sucesivo palabra en una oración.
Usando esta técnica, GPT Image 1.5 puede alterar la existencia visual más fácilmente que los modelos de imágenes de IA anteriores, cambiando la pose o posición de cualquiera, o renderizando una ámbito desde un ángulo sutilmente diferente, con distintos grados de éxito. Todavía puede eliminar objetos, cambiar estilos visuales, ajustar la ropa y refinar áreas específicas mientras preserva la referencia facial en ediciones sucesivas. Puede conversar con el maniquí de IA sobre una fotografía, refinarla y revisarla, de la misma forma que podría trabajar en un proyecto de un correo electrónico en ChatGPT.





