
FABU Technology, una empresa líder en inteligencia artificial centrada en sistemas de conducción inteligente, ha anunciado el Acelerador de aprendizaje profundo (DLA), un módulo personalizado en Phoenix-100, que mejora el rendimiento del reconocimiento de objetos y la clasificación de imágenes en redes neuronales convolucionales (CNN).
El DLA se puede personalizar para una amplia gama de modelos, incluido el cálculo de grandes volúmenes de datos de cámaras y sensores para permitir la detección de objetos de alto rendimiento para vehículos autónomos.
Un componente clave de la visión por computadora, las redes neuronales convolucionales son algoritmos especializados que pueden realizar el procesamiento y la clasificación de imágenes. Han revolucionado una variedad de tareas de visión por computadora, incluida la detección de objetos y el reconocimiento facial.
Para realizar la clasificación de imágenes, la CNN toma datos de imágenes de entrada (generalmente derivados de sensores) y los analiza en busca de características de bajo nivel, como bordes y curvas. Luego, los datos de la imagen se pasan a través de una serie de capas convolucionales, no lineales, de agrupación y completamente conectadas para obtener una salida, que puede ser una sola clase (perro o gato, etc.) o una probabilidad de clases que mejor describa la imagen.
Para mejorar la precisión de la visión por computadora, los nuevos modelos de CNN están evolucionando con capas más profundas y anchas para extraer mejor las características de la imagen de entrada. Debido a que estas CNN de última generación requieren múltiples tipos diferentes de capas con diferentes tamaños de capa y ramas, las plataformas de aceleración basadas en ASIC genéricos y de talla única encuentran un tremendo desafío para impulsar de manera efectiva el rendimiento de CNN. El volumen de datos cada vez mayor de los sensores de alta definición, como cámaras, LiDAR y radares de onda milimétrica, agrava aún más el problema en los sistemas con recursos limitados, como un vehículo autónomo. Por lo tanto, la capacidad de personalizar la arquitectura de la capa ASIC es de vital importancia para un DLA si tendrá éxito en ayudar a lograr una detección de objetos de mayor rendimiento.
El FABU Phoenix-100 es un diseño ASIC de 28 nm para un DLA de grano grueso que se puede reconfigurar para una amplia gama de modelos de CNN. Los componentes clave del DLA son múltiples módulos de granularidad gruesa que brindan personalización volumétrica de varias primitivas informáticas de CNN. La dimensión de estos módulos y el tamaño de los búferes de entrada/salida están optimizados para equilibrar los requisitos de computación y ancho de banda de memoria para un conjunto de algoritmos de detección de objetos que se usan comúnmente en vehículos autónomos. Este diseño DLA presenta un alto rendimiento de inferencia comparable a las GPU de gama alta, como la Nvidia Titan X, pero con una reducción del consumo de energía de aproximadamente 40 veces. [1].
El Phoenix-100 ha demostrado la capacidad de acelerar la inferencia de varios modelos CNN profundos de última generación utilizados para aplicaciones de clasificación de imágenes y detección de objetos. Como lo demostraron muchas pruebas anteriores, el punto fijo de 8 bits es suficiente para que la inferencia de CNN alcance el mismo nivel de precisión que el formato de punto flotante. El rendimiento en diferentes redes de detección de objetos también se compara con la GPU Nvidia Titan X, como se muestra en la Figura 4. El rendimiento de la GPU de coma flotante de 32 bits se obtiene directamente de los trabajos originales. [2][3][4]. Para hacer una comparación justa, el rendimiento de la GPU INT8 también se estima en función de los resultados en [5] que INT8 puede proporcionar una aceleración de alrededor de 1,3 veces en comparación con FP32 en la GPU Titan X.
El chip de prueba FABU DLA está fabricado con tecnología TSMC 28nm CMOS. Se proyecta que el DLA 2.0 propuesto realice la detección de objetos a más de 40 cuadros por segundo (fps) para imágenes de 2 MP (1920 x 1080). Se espera que el consumo de energía de todo el SoC sea de 5 W.