Apple bichero un conjunto de datos de IA seleccionados para la investigación de tirada de imágenes

Apple ha enérgico Pico-Cambur-400K, un conjunto de datos de investigación de 400.000 imágenes en gran medida seleccionado que, curiosamente, se creó utilizando los modelos Gemini-2.5 de Google. Aquí están los detalles.

El equipo de investigación de Apple ha publicado un interesante estudio llamado “Pico-Cambur-400K: un conjunto de datos a gran escalera para la tirada de imágenes guiada por texto”.

Adicionalmente del estudio, además publicaron el conjunto de datos completo de 400.000 imágenes que produjeron, que tiene una abuso de investigación no comercial. Esto significa que cualquiera puede usarlo y explorarlo, siempre que sea para trabajo docente o con fines de investigación de IA. En otras palabras, no se puede utilizar comercialmente.

Aceptablemente, pero ¿qué es?

Hace unos meses, Google lanzó el maniquí Gemini-2.5-Flash-Image, además conocido como Nanon-Cambur, que posiblemente sea lo postrero en modelos de tirada de imágenes.

Otros modelos además han mostrado mejoras significativas, pero, como dicen los investigadores de Apple:

“A pesar de estos avances, la investigación abierta sigue limitada por la desliz de conjuntos de datos de tirada a gran escalera, de adhesión calidad y totalmente compartibles. Los conjuntos de datos existentes a menudo dependen de generaciones sintéticas de modelos propietarios o subconjuntos limitados seleccionados por humanos. Adicionalmente, estos conjuntos de datos frecuentemente exhiben cambios de dominio, distribuciones de tipos de tirada desequilibradas y controles de calidad inconsistentes, lo que dificulta el explicación de modelos de tirada sólidos”.

Entonces Apple se propuso hacer poco al respecto.

Edificio Pico-Cambur-400K

Lo primero que hizo Apple fue extraer una cantidad no especificada de fotografías reales del conjunto de datos de OpenImages, “seleccionadas para respaldar la cobertura de humanos, objetos y escenas textuales”.

Sí, en existencia usaron Comic Sans.

Luego, surgió una serie de 35 tipos diferentes de cambios que un afortunado podría pedirle al maniquí, agrupados en ocho categorías. Por ejemplo:

  • Píxel y fotométrico: Agregue orzuelo de película o filtro vintage
  • Centrado en el ser humano: Figura de cacharro de la persona estilo Funko-Pop.
  • Composición de campo y temas múltiples: Cambiar las condiciones climáticas (soleado/pluvioso/nevado)
  • Semántica a nivel de objeto: Reubicar un objeto (cambiar su posición/relación espacial)
  • Escalera: Dar un porrazo de teleobjetivo

A continuación, los investigadores cargarían una imagen en Nano-Cambur, yuxtapuesto con una de estas indicaciones. Una vez que Nano-Cambur terminara de originar la imagen editada, los investigadores harían que Gemini-2.5-Pro ​​analizara el resultado, aprobándolo o rechazándolo, según el cumplimiento de las instrucciones y la calidad visual.

El resultado se convirtió en Pico-Cambur-400K, que incluye imágenes producidas mediante ediciones de un solo turno (un solo mensaje), secuencias de tirada de varios turnos (múltiples mensajes iterativos) y pares de preferencias que comparan resultados exitosos y fallidos (para que los modelos además puedan ilustrarse cómo son los resultados indeseables).

Si adecuadamente reconocen las limitaciones de Nano-Cambur en la tirada espacial detallada, la extrapolación de diseño y la tipografía, los investigadores dicen que esperan que Pico-Cambur-400K sirva como “una pulvínulo sólida para entrenar y comparar la próxima engendramiento de modelos de tirada de imágenes guiados por texto”.

Puedes encontrar el estudio en arXivy el conjunto de datos está habitable gratis en GitHub.

Ofertas de accesorios en Amazon

Agregue 9to5Mac como fuente preferida en Google
Agregue 9to5Mac como fuente preferida en Google

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Related Posts

Trump amenaza a los estudiantes internacionales y un nuevo esquema de ley podría ayudar a detenerlo

Un dúo bipartidista está rechazando los intentos del presidente Donald Trump de poner fin a un software que permite a cientos de miles de estudiantes extranjeros trabajar en Estados Unidos…

El estafador indultado Nikola está recaudando fondos para aviones propulsados ​​por inteligencia fabricado que, según afirma, remodelarán la aviación

Trevor Milton, el perdonado fundador de Nikola, es Buscan 1.000 millones de dólares para aviones autónomos propulsados ​​por IA a través de una nueva empresa señal SyberJet. The Tech Buzz…

You Missed

Trump amenaza a los estudiantes internacionales y un nuevo esquema de ley podría ayudar a detenerlo

Trump amenaza a los estudiantes internacionales y un nuevo esquema de ley podría ayudar a detenerlo

Díaz-Canel tacha de «acto inamistoso» la atrevimiento de Costa Rica de prohibir las relaciones

Díaz-Canel tacha de «acto inamistoso» la atrevimiento de Costa Rica de prohibir las relaciones

La innovación tecnológica impulsa la agropecuaria dominicana

La innovación tecnológica impulsa la agropecuaria dominicana

Lo excelente y lo feo de Premios Soberano 2026

Lo excelente y lo feo de Premios Soberano 2026

El estafador indultado Nikola está recaudando fondos para aviones propulsados ​​por inteligencia fabricado que, según afirma, remodelarán la aviación

El estafador indultado Nikola está recaudando fondos para aviones propulsados ​​por inteligencia fabricado que, según afirma, remodelarán la aviación

Presidente balear invitado a Abinader para robustecer apoyo al turismo

Presidente balear invitado a Abinader para robustecer apoyo al turismo