Sora, una hazaña tecnológica de OpenAI al generar texto en video

Vota este post

Después de haber dado en el blanco en el desarrollo de una IA generadora de texto, OpenAI está ampliando sus actividades y lanzándose a los vídeos generados por inteligencia artificial. Sora es el nombre de esta nueva IA desarrollada por el creador de ChatGPT.

En febrero de 2024, hace unos días, OpenAI anunció la primera IA generadora de videos con resultados más realistas. Pero como se trata de la primera versión desarrollada por el gigante de la inteligencia artificial, la fecha de lanzamiento de la versión para consumidores de Sora aún no se ha anunciado. Por otro lado, ya podemos encontrar algunos vídeos que el personal de OpenAI ha publicado en TikTOk y X (antes Twitter).

Sora: detalles técnicos que no debes perderte

Como modelo de entrega, Sora confía en la tecnología detrás de DALL-E. Pero OpenAI realizó una mejora para que esta tecnología pueda adaptarse a las nuevas funcionalidades integradas en Sora.

En cuanto a su aprendizaje, OpenAI utilizó datos accesibles al público en general. Al menos, eso dijo la compañía durante el lanzamiento oficial de Sora. Pero también tienen entrenó a Sora sobre contenido protegido por derechos de autor para lo cual compraron la licencia por adelantado.

En resumen, Sora es un LLM que se capacitó con un gran volumen de datos, incluidos videos, códigos y textos. Como modelo de IA generativa, tiene la capacidad de generar videos en diferentes formatos, de diferentes longitudes, y cuya resolución puede variar en función del resultado deseado. Sora también te permite ampliar vídeos y crear bucles si es necesario.

Generador de texto Sora AI en vídeo OpenAI

Según los investigadores, Sora es un modelo prometedor para el desarrollo de simuladores. Y tienen razón porque, después de todo, Sora puede Crea fácilmente vídeos compuestos por movimientos de cámara.. Y cuanto más se mueven las cámaras, más coherentemente se mueven también los sujetos.

En comparación con el principal desafío que enfrenta la IA generadora de videos, incluido el mantenimiento de la coherencia temporal, Sora demuestra ser más eficiente. Pero tampoco siempre es así, aunque sea posible modelar dependencias a corto y largo plazo de manera efectiva. A pesar de todo, Sora todavía tiene fallas que, tal vez, OpenAI solucione en un futuro próximo. O al menos hasta que se lance la versión pública.

¿Mucho más que un simple generador de vídeos?

Por definición, Sora es un sistema que utiliza IA para crear secuencias de vídeo a partir de una descripción textual, también conocida como mensaje. Pero según OpenAI, no es sólo un generador de vídeo. Mientras que los modelos de generación de vídeo más antiguos se limitan a utilizar simplemente texto como mensaje, Sora tiene la capacidad de Admite otros tipos de indicaciones.. Incluyendo imágenes o videos preexistentes que luego se modificarán de cualquier forma posible según las indicaciones del texto.

De todos modos, Sora no es nada sin la tecnología que la respalda. De hecho es un versión mejorada de los modelos destinados a DALL-E 3es decir la propia plataforma de generación de imágenes OpenAI, pero que está equipada con nuevas funciones para un mejor control.

Al final, Sora es como un especialista en efectos especiales que, en lugar de utilizar píxeles, utiliza las capacidades generativas de la inteligencia artificial. Pero para llegar allí, OpenAI tuvo que entrenar a Sora con una variedad de datos. Incluyendo imágenes de diferentes formatos y vídeos de diferentes duraciones y diferentes resoluciones.

La perfección no existe

Como toda IA ​​generativa, Sora aún no ha alcanzado su máximo potencial. OpenAI, por su parte, afirma que la herramienta aún tiene algunas limitaciones. Particularmente a nivel de Modelado de la física del sujeto., pero también en relación con la interacción entre los objetos de la decoración. Sin embargo, OpenAI está buscando actualmente nuevas técnicas para solucionar el problema. Ésta es una de las razones por las que Sora aún no es accesible al público en general.

Al mismo tiempo, Sora es ahora objeto de un gran debate entre los usuarios. Por lo tanto, OpenAI tendrá que prestar atención a Riesgos vinculados al uso abusivo de la inteligencia artificial.. Es decir, la proliferación de deepfakes o incluso la edición de una imagen de personas reales en vídeo.

Por otro lado, existen amenazas para los creadores de vídeos y para todos los miembros de la industria. En particular, editores de vídeo, animadores o incluso especialistas en efectos especiales. Sin olvidar las normativas que regulan el uso de la IA en determinados países que cuestionar el funcionamiento de Sora en un futuro próximo.

OpenAI implicada en el cumplimiento de la restricción de contenidos y la privacidad

Durante la formación de Sora, los expertos de OpenAI trabajaron para identificar y prohibir casos de uso problemáticos. Incluyendo información errónea, contenido que incite al odio o prejuicios. Los metadatos en forma de etiquetas también ayudan a identificar vídeos generados por IA. Este es un enfoque que permitirá para realizar comprobaciones en el nivel de solicitud. Y así es como Sora pudo garantizar que las descripciones textuales realmente respeten las políticas de uso.

Al igual que DALL-E 3, Sora también tendrá una serie de restricciones antes de su lanzamiento público. Estos establecen los límites para generar imágenes de personas reales. Pero también Contenido que incluye violencia extrema, contenido sexual o incluso contenido de odio.. También estará prohibida la creación de contenidos vinculados a personajes famosos o que infrinjan derechos de propiedad intelectual.

Estas salvaguardas tienen como objetivo regular estrictamente los posibles usos de esta poderosa IA. Esto con el fin de prevenir abusos y usos nocivos. Pero estas son sólo precauciones similares a las implementadas para DALL-E 3 en imágenes estáticas.

¿Cuándo estará Sora disponible para el público?

Aún no se ha anunciado una fecha de lanzamiento por OpenAI con respecto a la versión pública de Sora. La compañía dice que todavía tiene que trabajar en los aspectos de seguridad antes de lanzarlo, pero eso debería ocurrir en abril o mayo.

Como en el caso de DALL-E 3, todo hace pensar que OpenAI integrará a Sora en ChatGPT en lugar de convertirlo en un modelo totalmente independiente. Y aunque las versiones anteriores de DALL-E se benefician de su propia página, el gigante californiano de la inteligencia artificial lanzar Sora como API. De este modo, los desarrolladores podrán integrar las funcionalidades de Sora en sus aplicaciones.

Esta estrategia de integración con otros productos es ya usado para DALL-E 3. Por ejemplo, plataformas como NightCafe ofrecen su propia interfaz para generar imágenes con el modelo OpenAI.

A la espera de su lanzamiento, que tendrá lugar dentro de uno o dos meses, OpenAI continúa trabajar en salvaguardias de seguridad que se implementará en torno a esta poderosa tecnología de síntesis de video de IA.

Sora se enfrenta a la competencia

Google y Meta se están centrando actualmente en su propio modelo de generación de vídeos. En febrero de 2024, Google anunció la luz que aún se encuentra en fase de desarrollo. En cuanto a Make-a-Video, Meta todavía se encuentra en la fase de preparación.

Otras empresas también han comenzado a desarrollar modelos de generación de texto a vídeo. Es el caso de Runaway trabajando en el modelo Gen-2. Pero hasta que escribo este artículo, Sora permanece en la cima de la lista de los mejores generadores de texto para video.

    Comparte el artículo: