Apple bichero un conjunto de datos de IA seleccionados para la investigación de tirada de imágenes

Apple ha enérgico Pico-Cambur-400K, un conjunto de datos de investigación de 400.000 imágenes en gran medida seleccionado que, curiosamente, se creó utilizando los modelos Gemini-2.5 de Google. Aquí están los detalles.

El equipo de investigación de Apple ha publicado un interesante estudio llamado “Pico-Cambur-400K: un conjunto de datos a gran escalera para la tirada de imágenes guiada por texto”.

Adicionalmente del estudio, además publicaron el conjunto de datos completo de 400.000 imágenes que produjeron, que tiene una abuso de investigación no comercial. Esto significa que cualquiera puede usarlo y explorarlo, siempre que sea para trabajo docente o con fines de investigación de IA. En otras palabras, no se puede utilizar comercialmente.

Aceptablemente, pero ¿qué es?

Hace unos meses, Google lanzó el maniquí Gemini-2.5-Flash-Image, además conocido como Nanon-Cambur, que posiblemente sea lo postrero en modelos de tirada de imágenes.

Otros modelos además han mostrado mejoras significativas, pero, como dicen los investigadores de Apple:

“A pesar de estos avances, la investigación abierta sigue limitada por la desliz de conjuntos de datos de tirada a gran escalera, de adhesión calidad y totalmente compartibles. Los conjuntos de datos existentes a menudo dependen de generaciones sintéticas de modelos propietarios o subconjuntos limitados seleccionados por humanos. Adicionalmente, estos conjuntos de datos frecuentemente exhiben cambios de dominio, distribuciones de tipos de tirada desequilibradas y controles de calidad inconsistentes, lo que dificulta el explicación de modelos de tirada sólidos”.

Entonces Apple se propuso hacer poco al respecto.

Edificio Pico-Cambur-400K

Lo primero que hizo Apple fue extraer una cantidad no especificada de fotografías reales del conjunto de datos de OpenImages, “seleccionadas para respaldar la cobertura de humanos, objetos y escenas textuales”.

Sí, en existencia usaron Comic Sans.

Luego, surgió una serie de 35 tipos diferentes de cambios que un afortunado podría pedirle al maniquí, agrupados en ocho categorías. Por ejemplo:

  • Píxel y fotométrico: Agregue orzuelo de película o filtro vintage
  • Centrado en el ser humano: Figura de cacharro de la persona estilo Funko-Pop.
  • Composición de campo y temas múltiples: Cambiar las condiciones climáticas (soleado/pluvioso/nevado)
  • Semántica a nivel de objeto: Reubicar un objeto (cambiar su posición/relación espacial)
  • Escalera: Dar un porrazo de teleobjetivo

A continuación, los investigadores cargarían una imagen en Nano-Cambur, yuxtapuesto con una de estas indicaciones. Una vez que Nano-Cambur terminara de originar la imagen editada, los investigadores harían que Gemini-2.5-Pro ​​analizara el resultado, aprobándolo o rechazándolo, según el cumplimiento de las instrucciones y la calidad visual.

El resultado se convirtió en Pico-Cambur-400K, que incluye imágenes producidas mediante ediciones de un solo turno (un solo mensaje), secuencias de tirada de varios turnos (múltiples mensajes iterativos) y pares de preferencias que comparan resultados exitosos y fallidos (para que los modelos además puedan ilustrarse cómo son los resultados indeseables).

Si adecuadamente reconocen las limitaciones de Nano-Cambur en la tirada espacial detallada, la extrapolación de diseño y la tipografía, los investigadores dicen que esperan que Pico-Cambur-400K sirva como “una pulvínulo sólida para entrenar y comparar la próxima engendramiento de modelos de tirada de imágenes guiados por texto”.

Puedes encontrar el estudio en arXivy el conjunto de datos está habitable gratis en GitHub.

Ofertas de accesorios en Amazon

Agregue 9to5Mac como fuente preferida en Google
Agregue 9to5Mac como fuente preferida en Google

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Related Posts

La startup de inteligencia sintético Ringtime recauda 1,8 millones de euros para agentes de voz

Los reclutadores pasan horas al día llamando, dejando mensajes de voz y haciendo las mismas preguntas. Ringtime lo automatiza todo y ya ha contrario un segundo hogar en el sector…

Cómo convertir tu antiguo teléfono Android en un dilatador de Wi-Fi y solucionar los puntos muertos en casa

¿Esto mejorará la velocidad de Wi-Fi de mi hogar? No. Amplía la cobertura Wi-Fi de tu hogar, no la velocidad. Es posible que su conexión sea incluso un poco más…

You Missed

La startup de inteligencia sintético Ringtime recauda 1,8 millones de euros para agentes de voz

La startup de inteligencia sintético Ringtime recauda 1,8 millones de euros para agentes de voz

La ocupación ilegal y el mal estado complican caminar en aceras SDE

La ocupación ilegal y el mal estado complican caminar en aceras SDE

Irán amenaza con atacar infraestructura energética de aliados

Irán amenaza con atacar infraestructura energética de aliados

Irán amenaza con destruir el sector energético del Vagabundo

Irán amenaza con destruir el sector energético del Vagabundo

Premios Soberano 2026, una oscuridad que celebró el talento dominicano

Premios Soberano 2026, una oscuridad que celebró el talento dominicano

Cómo convertir tu antiguo teléfono Android en un dilatador de Wi-Fi y solucionar los puntos muertos en casa

Cómo convertir tu antiguo teléfono Android en un dilatador de Wi-Fi y solucionar los puntos muertos en casa