Apple bichero un conjunto de datos de IA seleccionados para la investigación de tirada de imágenes

Apple ha enérgico Pico-Cambur-400K, un conjunto de datos de investigación de 400.000 imágenes en gran medida seleccionado que, curiosamente, se creó utilizando los modelos Gemini-2.5 de Google. Aquí están los detalles.

El equipo de investigación de Apple ha publicado un interesante estudio llamado “Pico-Cambur-400K: un conjunto de datos a gran escalera para la tirada de imágenes guiada por texto”.

Adicionalmente del estudio, además publicaron el conjunto de datos completo de 400.000 imágenes que produjeron, que tiene una abuso de investigación no comercial. Esto significa que cualquiera puede usarlo y explorarlo, siempre que sea para trabajo docente o con fines de investigación de IA. En otras palabras, no se puede utilizar comercialmente.

Aceptablemente, pero ¿qué es?

Hace unos meses, Google lanzó el maniquí Gemini-2.5-Flash-Image, además conocido como Nanon-Cambur, que posiblemente sea lo postrero en modelos de tirada de imágenes.

Otros modelos además han mostrado mejoras significativas, pero, como dicen los investigadores de Apple:

“A pesar de estos avances, la investigación abierta sigue limitada por la desliz de conjuntos de datos de tirada a gran escalera, de adhesión calidad y totalmente compartibles. Los conjuntos de datos existentes a menudo dependen de generaciones sintéticas de modelos propietarios o subconjuntos limitados seleccionados por humanos. Adicionalmente, estos conjuntos de datos frecuentemente exhiben cambios de dominio, distribuciones de tipos de tirada desequilibradas y controles de calidad inconsistentes, lo que dificulta el explicación de modelos de tirada sólidos”.

Entonces Apple se propuso hacer poco al respecto.

Edificio Pico-Cambur-400K

Lo primero que hizo Apple fue extraer una cantidad no especificada de fotografías reales del conjunto de datos de OpenImages, “seleccionadas para respaldar la cobertura de humanos, objetos y escenas textuales”.

Luego, surgió una serie de 35 tipos diferentes de cambios que un afortunado podría pedirle al maniquí, agrupados en ocho categorías. Por ejemplo:

Píxel y fotométrico: Agregue orzuelo de película o filtro vintage
Centrado en el ser humano: Figura de cacharro de la persona estilo Funko-Pop.
Composición de campo y temas múltiples: Cambiar las condiciones climáticas (soleado/pluvioso/nevado)
Semántica a nivel de objeto: Reubicar un objeto (cambiar su posición/relación espacial)
Escalera: Dar un porrazo de teleobjetivo

A continuación, los investigadores cargarían una imagen en Nano-Cambur, yuxtapuesto con una de estas indicaciones. Una vez que Nano-Cambur terminara de originar la imagen editada, los investigadores harían que Gemini-2.5-Pro analizara el resultado, aprobándolo o rechazándolo, según el cumplimiento de las instrucciones y la calidad visual.

El resultado se convirtió en Pico-Cambur-400K, que incluye imágenes producidas mediante ediciones de un solo turno (un solo mensaje), secuencias de tirada de varios turnos (múltiples mensajes iterativos) y pares de preferencias que comparan resultados exitosos y fallidos (para que los modelos además puedan ilustrarse cómo son los resultados indeseables).

Si adecuadamente reconocen las limitaciones de Nano-Cambur en la tirada espacial detallada, la extrapolación de diseño y la tipografía, los investigadores dicen que esperan que Pico-Cambur-400K sirva como “una pulvínulo sólida para entrenar y comparar la próxima engendramiento de modelos de tirada de imágenes guiados por texto”.

Puedes encontrar el estudio en arXivy el conjunto de datos está habitable gratis en GitHub.