Los fundadores de OpenCV lanzan una startup de videos de IA para enfrentarse a OpenAI y Google

Los fundadores de OpenCV lanzan una startup de videos de IA para enfrentarse a OpenAI y Google

Una nueva startup de inteligencia químico fundada por los creadores de La biblioteca de visión por computadora más utilizada del mundo. ha surgido del sigilo con tecnología que genera videos realistas centrados en humanos de hasta cinco minutos de duración, un brinco dramático más allá de las capacidades de sus rivales, incluido OpenAI. sora y de google Veo.

Historia artesanalque se lanzó el martes con una financiación de 2 millones de dólares, presenta el Maniquí 2.0, un sistema de gestación de vídeo que aborda una de las limitaciones más importantes que afectan a la inaugural industria del vídeo con IA: la duración. Mientras que OpenAI sora 2 Con un mayor de 25 segundos y la mayoría de los modelos de la competencia generan clips de 10 segundos o menos, el sistema de CraftStory puede producir presentaciones de video continuas y coherentes que duran tanto como un peculiar tutorial de YouTube o una demostración de producto.

El avance podría desbloquear un valía comercial sustancial para las empresas que luchan por resquilar la producción de videos para capacitación, marketing y educación del cliente, mercados donde los clips breves generados por IA han demostrado ser inadecuados a pesar de su pulido visual.

"Si positivamente intentas crear un video con uno de estos sistemas de gestación de video, encontrarás que muchas veces quieres implementar una determinada visión creativa, y sin importar cuán detalladas sean las instrucciones, los sistemas básicamente ignoran una parte de tus instrucciones." dijo Victor Erukhimov, fundador y director ejecutante de CraftStory, en una entrevista monopolio con VentureBeat. "Desarrollamos un sistema que puede gestar videos básicamente siempre que los necesites."

Cómo el procesamiento paralelo resuelve el problema del vídeo de formato derrochador

El avance de CraftStory se friso en lo que la empresa describe como una construcción de difusión paralela: un enfoque fundamentalmente diferente de cómo los modelos de IA generan vídeo en comparación con los métodos secuenciales empleados por la mayoría de los competidores.

Los modelos tradicionales de gestación de vídeo funcionan ejecutando algoritmos de difusión en volúmenes tridimensionales cada vez más grandes donde el tiempo representa el tercer eje. Para gestar un vídeo más derrochador, estos modelos requieren redes proporcionalmente más grandes, más datos de entrenamiento y muchos más posibles computacionales.

Historia artesanal en su punto, ejecuta varios algoritmos de difusión más pequeños simultáneamente durante toda la duración del vídeo, con restricciones bidireccionales que los conectan. "La última parte del vídeo además puede influir en la primera parte del vídeo." explicó Erukhimov. "Y esto es conveniente importante, porque si lo haces uno por uno, entonces un artefacto que aparece en la primera parte se propaga a la segunda y luego se acumula."

En punto de gestar ocho segundos y luego unir segmentos adicionales, el sistema de CraftStory procesa los cinco minutos simultáneamente a través de procesos de difusión interconectados.

Fundamentalmente, CraftStory entrenó su maniquí con imágenes patentadas en punto de subordinarse exclusivamente de videos extraídos de Internet. La compañía contrató estudios para fotografiar a los actores utilizando sistemas de cámara de suscripción velocidad de fotogramas que capturan detalles nítidos incluso en principios que se mueven rápidamente, como los dedos, evitando el desenfoque de movimiento inherente a los clips standard de YouTube de 30 fotogramas por segundo.

"Lo que mostramos es que no necesitas muchos datos ni mucho presupuesto de capacitación para crear videos de suscripción calidad." dijo Erukhimov. "Sólo necesitas datos de suscripción calidad."

El Maniquí 2.0 funciona actualmente como un sistema de vídeo a vídeo: los usuarios cargan una imagen fija para animarla y una "vídeo de conducción" que contiene una persona cuyos movimientos la IA replicará. CraftStory proporciona videos de conducción preestablecidos filmados con actores profesionales, quienes reciben una billete en los ingresos cuando se utilizan sus datos de movimiento, o los usuarios pueden cargar sus propias imágenes.

El sistema genera clips de 30 segundos a desprecio resolución en aproximadamente 15 minutos. Un sistema innovador de sincronización de labios sincroniza los movimientos de la boca con guiones o pistas de audio, mientras que los algoritmos de alineamiento de gestos garantizan que el verbo corporal coincida con el ritmo del acento y el tono emocional.

Librando una batalla de fondos de extirpación con 2 millones de dólares contra miles de millones

La financiación de CraftStory proviene casi en su totalidad de Andres Filevquien vendió su empresa de software de mandato de proyectos Wrike a Citrix por 2.250 millones de dólares en 2021 y ahora funciona codificador zenuna empresa de codificación de IA. El modesto aumento contrasta marcadamente con los miles de millones que fluyen cerca de esfuerzos competitivos: OpenAI ha recaudó más de $6 mil millones sólo en su última ronda de financiación.

Erukhimov rechazó la idea de que un caudal masivo es un requisito previo para el éxito. "No necesariamente creo en la relación de que la computación es el camino cerca de el éxito," dijo. "Definitivamente ayuda si tienes computación. Pero si recaudas mil millones de dólares en un PowerPoint, al final nadie está contento, ni los fundadores ni los inversores."

Filev defendió el enfoque de David contra Goliat. "Cuando inviertes en startups, fundamentalmente estás apostando por las personas," dijo en una entrevista con VentureBeat. "Parafraseando a Margaret Mead: nunca subestimes lo que un pequeño asociación de ingenieros y científicos reflexivos y comprometidos puede construir."

Sostuvo que CraftStory se beneficia de una organización enfocada. "Los grandes laboratorios están en una carrera armamentista para construir modelos básicos de vídeo de uso común," dijo Filev. "CraftStory se sube a esa ola y profundiza en un formato específico: video de larga duración, atractivo y centrado en las personas."

Por qué la experiencia en visión por computadora es importante en el video de IA generativa

La credibilidad de Erukhimov surge de sus profundas raíces en la visión por computadora y no de las arquitecturas transformadoras que han dominado los recientes avances de la IA. Fue uno de los primeros contribuyentes a OpenCV — la biblioteca de visión por computadora de código campechano que se ha convertido en el standard de facto para aplicaciones de visión por computadora, con más de 84.000 estrellas en GitHub.

Cuando Intel redujo su soporte para OpenCV a mediados de la división de 2000, Erukhimov cofundó Itseez con el objetivo evidente de prolongar y hacer avanzar la biblioteca. La compañía amplió significativamente OpenCV y giró cerca de los sistemas de seguridad automotriz antiguamente de que Intel la adquiriera en 2016.

Filev dijo que esta experiencia es precisamente lo que hace que Erukhimov esté admisiblemente posicionado para la gestación de videos. "Lo que la concurrencia a veces pasa por stop es que el vídeo con IA generativa no se proxenetismo sólo de la parte generativa. Se proxenetismo de comprender el movimiento, la dinámica facial, la coherencia temporal y cómo se mueven positivamente los humanos." dijo Filev. "Víctor ha pasado su carrera dominando exactamente esos problemas."

El enfoque empresarial se centra en vídeos de formación y demostraciones de productos.

Si admisiblemente gran parte del entusiasmo sabido en torno a la gestación de videos con IA se ha centrado en herramientas creativas para los consumidores, CraftStory está siguiendo una organización decididamente centrada en la empresa.

"Definitivamente estamos pensando en B2B más que en el consumidor," dijo Erukhimov. "Estamos pensando en que las empresas, específicamente las empresas de software, puedan crear videos de capacitación interesantes, videos de productos y videos de tiro."

La razonamiento es sencilla: la capacitación corporativa, los tutoriales de productos y los videos de educación para el cliente a menudo duran varios minutos y requieren una calidad constante en todo momento. Un clip de IA de 10 segundos no puede demostrar eficazmente cómo utilizar el software empresarial ni explicar una característica compleja del producto.

"Si necesitas un vídeo más derrochador, deberías venir con nosotros." dijo Erukhimov. "Podemos crear hasta cinco minutos de vídeo consistente y de suscripción calidad."

Filev se hizo eco de esta evaluación. "Una gran brecha en este mercado es la descuido de modelos que puedan gestar videos consistentes en secuencias más largas, y eso es extremadamente importante para el uso en el mundo efectivo." dijo. "Si estás creando un comercial para tu empresa, un vídeo de 10 segundos, por muy bueno que se vea, no es suficiente. Necesitas 30 segundos, necesitas dos minutos, necesitas más."

La empresa prevé ahorros de costes para los clientes. Filev sugirió que "El propietario de una pequeña empresa podría crear contenido en minutos que antiguamente habría costado 20.000 dólares y habría tardado dos meses en producirse."

CraftStory además está cortejando a agencias creativas que producen contenido de video para clientes corporativos, con la propuesta de valía centrada en el costo y la velocidad: las agencias pueden inculcar a un actor en la cámara y alterar ese metraje en un video terminado con IA, en punto de ordenar costosas filmaciones de varios días.

El próximo gran mejora en la hoja de ruta de CraftStory es un maniquí de texto a video que permitiría a los usuarios gestar contenido de formato derrochador directamente a partir de guiones. El equipo además está desarrollando soporte para escenarios de cámara en movimiento, incluido el popular "caminar y conversar" Formato global en publicidad de suscripción tonalidad.

Dónde encaja CraftStory en un panorama competitivo fragmentado

CraftStory ingresa a un mercado saturado y en rápida desarrollo. OpenAI sora 2aunque aún no está acondicionado públicamente, ha generado un gran revuelo. de google Veo models están avanzando rápidamente. Pista, pikay Estabilidad IA Todos ofrecen herramientas de gestación de video con diferentes capacidades.

Erukhimov reconoció la presión competitiva, pero enfatizó que CraftStory atiende a un hornacina diverso centrado en videos centrados en las personas. Posicionó la rápida innovación y la captura del mercado como la organización principal de la empresa en punto de subordinarse de fosos técnicos.

Filev considera que el mercado se fragmentará en distintas capas, con las grandes empresas tecnológicas actuando como "Proveedores de API de potentes modelos de gestación de uso común" mientras que los actores especializados como CraftStory se centran en casos de uso específicos. "Si los grandes jugadores están construyendo los motores, CraftStory está construyendo el estudio de producción y la hilera de montaje encima." dijo.

El Maniquí 2.0 ya está acondicionado en app.craftstory.com/model-2.0, y la empresa ofrece entrada temprano a usuarios y empresas interesadas en probar la tecnología. Sigue siendo incierto si una startup con pocos fondos puede discernir una billete de mercado significativa frente a las tradicionales con mucho pasta, pero Erukhimov se caracteriza por tener confianza en la oportunidad que se avecina.

"Los vídeos generados por IA pronto se convertirán en la principal forma en que las empresas comunicarán sus historias." dijo.

Related Posts

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Satechi CubeDock fusiona carga, almacenamiento y conectividad en una única carcasa compacta de aluminio Tres puertos Thunderbolt 5 permiten una rápida transferencia de datos y múltiples pantallas simultáneamente La ranura…

OpenAI retrasa su modo adulto para ChatGPT

OpenAI ha retrasado una vez más el tirada del “modo adulto” planificado de ChatGPT, una función que permitiría a los usuarios adultos verificados ingresar a contenidos eróticos y otros contenidos…

You Missed

Digna posición de España | AlMomento.net

Digna posición de España | AlMomento.net

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Este pequeño Satechi CubeDock parece un Mac mini y ofrece conectividad, almacenamiento y carga increíbles en un solo cubo.

Anuncia ataque franquista contra el comercio ilícito

Anuncia ataque franquista contra el comercio ilícito

“Anhelo cero»…no es cero deseo | AlMomento.net

“Anhelo cero»…no es cero deseo | AlMomento.net

OpenAI retrasa su modo adulto para ChatGPT

OpenAI retrasa su modo adulto para ChatGPT

Estampado impresa 09 de marzo 2026

Estampado impresa 09 de marzo 2026