El conjunto de datos multimodal de código amplio más extenso del mundo ofrece una eficiencia de capacitación 17 veces veterano, desbloqueando la IA empresarial que conecta documentos, audio y video.

Los modelos de IA son tan buenos como los datos con los que se entrenan. Por lo normal, esos datos deben etiquetarse, curarse y organizarse antiguamente de que los modelos puedan cultivarse de ellos de forma efectiva.

Uno de los grandes eslabones perdidos en el ecosistema de la IA ha sido la disponibilidad de un gran conjunto de datos multimodal de código amplio y de ingreso calidad. Eso cambia hoy con el iniciación del conjunto de datos EMM-1, que se compone de mil millones de pares de datos y 100 millones de grupos de datos en 5 modalidades: texto, imagen, video, audio y nubes de puntos 3D. Los conjuntos de datos multimodales combinan diferentes tipos de datos que los sistemas de IA pueden procesar juntos. Esto refleja cómo los humanos perciben el mundo utilizando múltiples sentidos simultáneamente. Estos conjuntos de datos permiten a los sistemas de IA hacer inferencias más ricas al comprender las relaciones entre tipos de datos, en ocupación de procesar cada modalidad de forma aislada.

EMM-1 es desarrollado por etiquetado de datos proveedor de plataforma impresor. La plataforma de la empresa permite a los equipos preferir, etiquetar y administrar datos de capacitación a escalera utilizando flujos de trabajo tanto automatizados como humanos. Adyacente con el nuevo maniquí, Encord desarrolló la metodología de capacitación EBind que prioriza la calidad de los datos sobre la escalera computacional sin procesar. El enfoque permitió que un maniquí compacto de 1.800 millones de parámetros igualara el rendimiento de modelos hasta 17 veces más grandes y, al mismo tiempo, redujera el tiempo de entrenamiento de días a horas en una sola GPU en ocupación de en grupos de GPU.

"El gran truco para nosotros fue centrarnos efectivamente en los datos y hacer que los datos fueran de muy, muy ingreso calidad." El cofundador y director ejecutor de Encord, Eric Landau, dijo a VentureBeat en una entrevista monopolio. "Pudimos alcanzar el mismo nivel de rendimiento que modelos 20 veces más grandes, no porque fuéramos muy inteligentes con la cimentación, sino porque la entrenamos con datos efectivamente buenos en normal."

La superioridad de la calidad de los datos

Según Landau, el conjunto de datos de Encord es 100 veces veterano que el venidero conjunto de datos multimodal comparable. Opera a escalera de petabytes con terabytes de datos sin procesar y más de 1 millón de anotaciones humanas.

Pero la escalera por sí sola no explica las mejoras en el rendimiento. La innovación técnica se centra en encarar lo que Landau fogata un "subestimado" Problema en el entrenamiento de IA: fuga de datos entre conjuntos de entrenamiento y evaluación.

"El problema de las fugas fue uno al que dedicamos mucho tiempo," explicó Landau. "En muchos conjuntos de datos, existe una especie de fuga entre diferentes subconjuntos de datos. Las fugas en efectividad aumentan sus resultados. Hace que sus evaluaciones se vean mejor. Pero hay poco en lo que fuimos proporcionado diligentes."

La fuga de datos ocurre cuando la información de los datos de prueba aparece inadvertidamente en los datos de entrenamiento, inflando artificialmente las métricas de rendimiento del maniquí. Muchos conjuntos de datos de remisión sufren esta contaminación. Encord implementó técnicas de reunión jerárquico para avalar una separación limpia y al mismo tiempo sostener una distribución representativa entre los tipos de datos. La empresa todavía utilizó la agrupación para encarar los prejuicios y avalar una representación diversa.

Cómo EBind aumenta la eficiencia

Las mejoras en la calidad de los datos funcionan en conjunto con un enfoque arquitectónico diseñado para la eficiencia.

EBind de Encord amplía el enfoque CLIP (preentrenamiento de imágenes y idioma contrastivo) (desarrollado originalmente por OpenAI) de dos modalidades a cinco. CLIP aprende a asociar imágenes y texto en un espacio de representación compartido, lo que permite tareas como agenciárselas imágenes mediante descripciones de texto.

Mientras que CLIP aprende a asociar imágenes y texto en un espacio encubierto compartido, EBind hace lo mismo con imágenes, texto, audio, nubes de puntos 3D y vídeo.

La comicios arquitectónica prioriza la eficiencia de los parámetros. En ocupación de implementar modelos especializados separados para cada par de modalidades, EBind utiliza un maniquí saco único con un codificador por modalidad.

"Otras metodologías, lo que hacen es utilizar un montón de modelos diferentes y encaminarse al mejor maniquí para incorporar estos pares, por lo que tienden a explotar en la cantidad de parámetros." dijo Landau. "Descubrimos que podíamos usar un maniquí saco único y simplemente entrenar un codificador por modalidad, manteniéndolo así muy simple y muy capaz en parámetros, si alimentábamos esa cimentación normal con datos efectivamente buenos."

El maniquí resultante rivaliza OmniBindun competidor mucho más extenso en el espacio multimodal, pero requiere muchísimo menos posibles computacionales tanto para el entrenamiento como para la inferencia. Esto hace que EBind se pueda implementar en entornos con posibles limitados, incluidos dispositivos de vanguardia para robótica y sistemas autónomos.

El valencia empresarial de un conjunto de datos multimodal

Los modelos multimodales permiten casos de uso empresarial que abarcan diferentes tipos de datos.

La mayoría de las organizaciones almacenan diferentes tipos de datos en sistemas separados: documentos en plataformas de encargo de contenidos, grabaciones de audio en herramientas de comunicación, vídeos de formación en sistemas de encargo de formación y datos estructurados en bases de datos. Los modelos multimodales pueden agenciárselas y recuperar todos estos simultáneamente.

"Las empresas tienen todo tipo de datos diferentes. No sólo tienen documentos. Tienen grabaciones de audio, videos de capacitación y archivos CSV." dijo Landau. "Digamos que usted es abogado y tiene un expediente que contiene evidencia en video y todavía documentos y grabaciones, y todo está disperso en muchos silos de datos. Puede utilizar EBind para preferir todos los datos relevantes y agruparlos para agenciárselas y mostrar los datos correctos mucho más rápido que antiguamente."

El mismo principio se aplica en todas las verticales. Los proveedores de atención médica pueden vincular los datos de imágenes de los pacientes con notas clínicas y audio de dictamen. Las empresas de servicios financieros pueden conectar registros de transacciones con grabaciones de llamadas de cumplimiento y comunicaciones con los clientes. Las operaciones de fabricación pueden vincular los datos de los sensores del equipo con registros de vídeo de mantenimiento e informes de inspección.

Más allá de los entornos de oficina, la IA física representa otra frontera. Landau destacó los vehículos autónomos que se benefician tanto de la percepción visual como de señales de audio como las sirenas de emergencia. En la fabricación y el almacenamiento, los robots que combinan el inspección visual con feedback de audio y conciencia espacial pueden negociar de forma más segura y efectiva que los sistemas de solo visión.

Caso de uso empresarial: ampliación de la visión por computadora con un contexto multimodal

Capturar IAun cliente de Encord, ilustra cómo las empresas planean utilizar el conjunto de datos para aplicaciones comerciales específicas. La startup proporciona comprobación de imágenes en el dispositivo para aplicaciones móviles, validando fotos en tiempo verdadero para comprobar su autenticidad, cumplimiento y calidad antiguamente de cargarlas. La empresa trabaja con proveedores de movilidad compartida como Lime y empresas de reparto que capturan miles de millones de fotografías de paquetes.

Captur AI procesa más de 100 millones de imágenes en el dispositivo y se especializa en destilar modelos de 6 a 10 megabytes para que puedan ejecutarse en teléfonos inteligentes sin conectividad a la abundancia. Pero la directora ejecutiva, Charlotte Bax, considera que las capacidades multimodales son fundamentales para expandirse a casos de uso de veterano valencia.

"El mercado para nosotros es enorme. Envía fotos para devoluciones y ventas minoristas. Envía fotografías a las compañías de seguros para reclamos. Envías fotos cuando publicas poco en eBay," Bax dijo a VentureBeat en una entrevista monopolio. "Algunos de esos casos de uso conllevan un aventura muy parada o un valencia elevado si poco sale mal, como los seguros, la imagen solo captura parte del contexto y el audio puede ser una señal importante."

Bax citó las inspecciones digitales de vehículos como un buen ejemplo. Cuando los clientes fotografían daños en un transporte para reclamaciones de seguros, a menudo describen verbalmente lo que sucedió mientras capturan las imágenes. El contexto de audio puede mejorar significativamente la precisión de las reclamaciones y dominar el fraude.

"Mientras haces eso, muchas veces el cliente en efectividad está describiendo lo que sucedió," Dijo Bax. "Algunos de nuestros prospectos potenciales en InsurTech nos han preguntado si efectivamente podemos hacer audio todavía, porque eso agrega este contexto adicional para el favorecido que envía el publicidad."

El desafío radica en sostener la principal superioridad de Captur AI: ejecutar modelos de forma capaz en el dispositivo en ocupación de requerir procesamiento en la abundancia. La compañía planea utilizar el conjunto de datos de Encord para entrenar modelos multimodales compactos que preserven las capacidades fuera de secante en tiempo verdadero y al mismo tiempo agreguen contexto de audio e imagen secuencial.

"Lo más importante que puedes hacer es intentar obtener el veterano contexto posible," Dijo Bax. "¿Se puede obtener que los LLM sean lo suficientemente pequeños como para ejecutarse en un dispositivo en los próximos tres abriles, o se pueden ejecutar modelos multimodales en el dispositivo? Resolver la calidad de los datos antiguamente de cargar la imagen es la frontera interesante."

Qué significa esto para las empresas

Los resultados de Encord desafían los supuestos fundamentales sobre el progreso de la IA y sugieren que el próximo campo de batalla competitivo pueden ser las operaciones de datos en ocupación de la escalera de la infraestructura.

Los conjuntos de datos multimodales desbloquean nuevas capacidades. La capacidad de entrenar modelos que comprendan las relaciones entre tipos de datos abre casos de uso que los sistemas de modalidad única no pueden encarar.

Las operaciones de datos merecen la misma inversión que la infraestructura informática. La rendimiento de eficiencia de parámetros 17 veces veterano gracias a una mejor curación de datos representa órdenes de magnitud en ahorros de costos. Las organizaciones que invierten posibles en clústeres de GPU y al mismo tiempo tratan la calidad de los datos como una ocurrencia tardía pueden estar optimizando la variable equivocada.

Para las empresas que construyen sistemas de IA multimodales, la evaluación de Landau capta el cambio clave.

"Pudimos alcanzar el mismo nivel de rendimiento que modelos mucho más grandes, no porque fuéramos muy inteligentes con la cimentación, sino porque la entrenamos con datos efectivamente buenos en normal." dijo.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El conjunto de datos multimodal de código amplio más extenso del mundo ofrece una eficiencia de capacitación 17 veces veterano, desbloqueando la IA empresarial que conecta documentos, audio y video.

La superioridad de la calidad de los datos

Cómo EBind aumenta la eficiencia

El valencia empresarial de un conjunto de datos multimodal

Caso de uso empresarial: ampliación de la visión por computadora con un contexto multimodal

Qué significa esto para las empresas

ztevenreal

Related Posts

Se suponía que el 4K nativo sería el final del serie, pero la restablecimiento cambió eso

Scale AI venablo Voice Showdown, el primer punto de relato del mundo positivo para IA de voz, y los resultados son humillantes para algunos de los mejores modelos.

You Missed

Se suponía que el 4K nativo sería el final del serie, pero la restablecimiento cambió eso

Meditación puede someter la actividad de genes asociados al envejecimiento y el estrés

Dominicanos en el exógeno podrán comprar su cédula en mayo sin presentarse en el mes de cumpleaños

Scale AI venablo Voice Showdown, el primer punto de relato del mundo positivo para IA de voz, y los resultados son humillantes para algunos de los mejores modelos.

Jair Bolsonaro sigue en cuidados intensivos

Cinco consejos secreto para fomentar el parquedad en niños y jóvenes desde temprana perduración