El estándar de códec de video de última generación revoluciona la búsqueda de videos

Considere esto: tiene un gran volumen de secuencias de video de aproximadamente tres meses del sistema de seguridad y videovigilancia de su hogar. Quiere encontrar algo (un perro, por ejemplo, o una niña con un sombrero azul) en esos archivos de video.

¿Cómo lo encontrarás? ¿Te sentarás incansablemente y responderás videos de horas para encontrar el objeto que estás buscando? ¿Es posible buscar cosas específicas a través de millones de secuencias de video?

Hoy en día, carecemos de un medio para buscar en decenas de miles de archivos de video almacenados en computadoras, servidores, sistemas de seguridad y teléfonos. Pero el análisis de video de descriptor compacto (CDVA) abre la puerta a nuevas y emocionantes capacidades para permitir búsquedas rápidas y precisas en archivos de video.

¿Qué es CDVA?

CDVA es una adición más reciente a MPEG-7, un estándar de descripción de contenido multimedia para compresión y transmisión de audio y video para permitir una búsqueda rápida y eficiente de usuarios. El Grupo de expertos en imágenes en movimiento (MPEG) se creó en 1988 para comprimir los archivos de audio, imagen y video en la fuente de captura, transmitir el contenido al destino y luego volver a crear el contenido para que las personas u organizaciones puedan usarlo. MPEG-7 se centra más en los objetos del vídeo que en los bits, lo que facilita la identificación de objetos como un perro, un grupo de personas, un coche, etc.

CDVA, aprobado como parte del estándar MPEG7 en julio de 2019, permite codificar imágenes y videos en formatos solo de máquina o híbridos (máquina y humano) mientras se capturan, lo que permite buscarlos con mayor velocidad y precisión de lo que es posible actualmente. La codificación automática solo necesita sensores de cámara básicos y económicos para capturar, usar y almacenar información en tamaños hasta 1000 veces más pequeños, mientras que la codificación híbrida incorpora los metadatos automáticamente para las máquinas y hace que los archivos de imagen y video se puedan buscar.

Mediante el uso de un sensor de cámara equipado con un procesador de IA y un códec de video para máquinas (VCM), el primer lenguaje de la máquina, CDVA extrae características (como objeto, actividad, ubicación, eventos y gestos) de imágenes y videos. Produce un mapa de características que es compatible entre los dispositivos y los procesadores de diferentes fabricantes. Estos mapas de funciones están definidos por el estándar para proporcionar “comprensión automática” de imágenes y videos, de forma similar a usar diferentes palabras en las secuencias correctas para que las personas se comuniquen con los idiomas. Permite a los usuarios abrir su cámara, “Tomar” una imagen y recuperar los archivos que más se acerquen, usando la “Búsqueda”. Pueden usar la misma capacidad para buscar proveedores de servicios en las bibliotecas, proporcionando contenido de entretenimiento y educación.

aplicaciones VCM

Gyrfalcon Technologies, Inc. (GTI), uno de los fundadores del comité de estándares de VCM, ha iniciado un programa “Disparar y buscar” para ayudar al mundo a comprender los beneficios de VCM en situaciones cotidianas. Es fascinante lo que “dispara y busca” puede hacer por el futuro del desarrollo de aplicaciones máquina a máquina. Una aplicación busca puntos de referencia o lugares interesantes mientras está de gira. Puede combinar la ubicación GPS para buscar archivos de información de viajes accesibles a través de la web, bibliotecas de aplicaciones (para registros turísticos/históricos/gubernamentales) y recuperar el contenido deseado.

VCM puede permitir variaciones de la realidad aumentada. Por ejemplo, puede imaginar a un usuario abriendo su cámara y apuntándola a un objeto de interés. Luego, la cámara aplica GPS y preferencias para encontrar la información para superponer y permite al usuario hacer clic en ella para obtener más aclaraciones.

VCM es el componente básico de este nuevo lenguaje de máquina para codificar y analizar secuencias de imágenes. Puede extraer funciones en dispositivos periféricos con sensores de cámara muy básicos que, a su vez, permiten una búsqueda y un descubrimiento más rápidos de videos coincidentes en el universo de contenido multimedia correctamente etiquetado. Con VCM, todas las imágenes y videos capturados previamente, ya sea en bibliotecas personales o en las galerías y archivos de proveedores de servicios globales (como Netflix, YouTube, Facebook, etc.) o gobiernos, pueden procesarse de manera rentable y energéticamente eficiente. Los proveedores de servicios tienen una excelente oportunidad para hacer que su contenido sea más fácil de encontrar.

Los centros de datos se pueden configurar en servidores locales para procesar las bibliotecas existentes y reemplazar los archivos existentes con versiones que cumplan con el nuevo estándar MPEG-7, haciéndolos más fáciles de buscar por humanos y optimizados para el uso de máquinas al mismo tiempo.

El intercambio de videos de máquina a máquina es otro segmento de más rápido crecimiento en el futuro previsible. Puede impulsar equipos de menor costo, costos de energía más bajos, experiencias mejoradas y productividad a través de una latencia más baja y un retorno de la inversión mejorado para las inversiones en redes y almacenamiento. El uso de VCM genera menos energía para procesar video, menor costo y menor utilización de la red.

Leave a Comment