Alibaba acaba de lanzar EMO, su IA generativa para cantar retratos

5/5 - (1 vote)

Después de Sora de OpenAI, le toca a Alibaba lanzar su IA generativa capaz de transformar una única imagen en una secuencia de vídeo. Llamado EMO (Emote Portrait Alive), este nuevo sistema funciona con inteligencia artificial y genera así un retrato hablado o cantado según la indicación proporcionada.

Los resultados de la investigación fueron publicados en una publicación en arXiv. Y según los investigadores, EMO no crea vídeos completos de una persona caminando. Se trataba de un programa que recrea movimientos faciales y luego ofrece un resultado en el que la fuente se expresa a través de expresiones faciales, una canción o poses de la cabeza. El autor principal del estudio, Linrui Tian, ​​​​explica que los enfoques tradicionales no permiten capturar y reproducir las expresiones humanas y mucho menos las características únicas de cada rostro. “La EMO es una IA generativa basada en un enfoque de síntesis directa de audio y vídeo. Por lo tanto, no necesitamos el modelado 3D para reproducir un retrato en un vídeo de canto”, añadió.

Conversión directa de ondas de audio en vídeo sin modelado 3D, el verdadero rendimiento de EMO

Para poder convertir audio en vídeo sin recurrir a modelos 3D intermedios, EMO utiliza el llamado modelo streaming. Esto también permitió a esta nueva inteligencia artificial de Alibaba generar imágenes sintéticas bastante realistas. En cuanto al aprendizaje de modelos, EMO fue entrenado en un conjunto de 250 horas de videos incluyendo películas, cabezas parlantes, programas de televisión, discursos y espectáculos de canto.

Entonces, sin modelos faciales 3D, EMO puede convertir directamente la onda de audio en video. Es esta técnica la que ofrece a EMO la capacidad de capturar cada movimiento perspicaz. Pero también la extrañeza de nuestra identidad combinada a menudo con nuestro lenguaje natural.

Sin embargo, el informe del estudio indica un mejor rendimiento de la EMO en comparación con los métodos anteriores. Particularmente en los cálculos para medir la calidad del video que genera. En cuanto a los usuarios, la mayoría afirma que el contenido generado por Emo es más natural y aporta más emoción.

Más que un generador de vídeos conversacionales

Aún así, según los desarrolladores de EMO, no se trata de una simple IA que genera vídeos conversacionales. El algoritmo también puede generar retratos cantados cuyos movimientos labiales se corresponden perfectamente con la letra de las canciones. En cuanto a la duración del vídeo, se mantiene coherente con la duración del audio.

En definitiva, EMO es sin duda el portal que abre el camino a la creación de vídeos personalizados a partir de una única imagen. Pero como cualquier IA generativa, su mal uso sugiere robo de identidad. Especialmente si creamos secuencias de vídeo del propietario de la imagen sin su consentimiento.

Dicho esto, eladopción de un texto reglamentario Para este tipo de inteligencia artificial se necesitará. Esto es para evitar cualquier tipo de riesgo que sufría la IA generativa anterior.

    Comparte el artículo: