Aprendizaje por refuerzo: ¿es posible la imaginación artificial?

Vota este post

deepsense.ai y Google Brain han creado una red neuronal que puede imitar las señales que un agente de aprendizaje por refuerzo (RL) suele recibir al interactuar con un entorno, normalmente a través de sensores, como imágenes. El proyecto de investigación en colaboración se llevó a cabo en asociación con la Universidad de Varsovia y la Universidad de Illinois en Urbana-Champaign.

El aprendizaje por refuerzo (RL) permite que una red neuronal desarrolle y perfeccione sus habilidades al interactuar con su entorno. Esto permite efectivamente que la inteligencia artificial realice una simulación. Se prevé que la técnica brille en la robótica y la construcción de vehículos autónomos. Los modelos diseñados se pueden aplicar en la predicción de texto o video y para resolver los problemas donde la descripción matemática puede ser demasiado complicada.

“Esta es una de las ideas importantes del aprendizaje por refuerzo. Una encuesta reciente realizada por JB Hammrick de DeepMind proporciona una descripción detallada de las analogías entre el aprendizaje por refuerzo basado en modelos y la simulación mental tal como las considera la ciencia cognitiva”, dice Henryk Michalewski, coordinador de I+D en deepsense.ai y profesor invitado en el Departamento de Ciencias de la Computación. de la Universidad de Oxford.

Los retos de la educación

En el proceso de aprendizaje, el agente de RL es recompensado por realizar una tarea correctamente y castigado por cometer errores. Los autos autónomos brindan quizás el mejor ejemplo: el agente es recompensado por conducir con seguridad y castigado por colisiones y exceso de velocidad. El modelo busca maximizar las recompensas y minimizar los castigos. Inicialmente, todas las acciones son aleatorias y las redes neuronales aún tienen que explorar las posibles formas de realizar las tareas. Por lo tanto, es posible que más de la primera docena de viajes terminen con una colisión con la pared más cercana a medida que el modelo incurre en castigo y aprende a frenar o evitarlo.

Esto lleva a la idea de realizar el proceso de prueba y error dentro de un simulador. “Sin embargo, construir un simulador realista es un problema tedioso para los humanos”, dice Błażej Osiński, científico de datos sénior en deepsense.ai. “Por ejemplo, Unreal Engine 4 tiene varios millones de líneas de código. La idea de nuestro proyecto es dejar que la red neuronal aprenda a simular el entorno. Se sugirió un enfoque similar en un trabajo reciente del laboratorio de Yann LeCun, donde se emplearon redes neuronales para simular tráfico denso”.

El equipo de investigación ha construido una red neuronal que emula el entorno de juego de Atari, un campo de entrenamiento popular para los modelos de aprendizaje por refuerzo. La red pudo crear una versión de los juegos Pong, Freeway y otros que eran casi indistinguibles de los de Atari.

La investigación en curso

El proyecto estuvo a cargo de científicos de datos e investigadores de deepsense.ai, incluidos Henryk Michalewski, Piotr Miłoś, Błażej Osiński y otros investigadores de Google Brain, la Universidad de Varsovia y la Universidad de Illinois en Urbana-Champaign. Se puede encontrar información más detallada sobre la investigación, los resultados y los posibles usos en el artículo de Arxiv y en una publicación de blog detallada sobre imaginación artificial en el blog de deepsense.ai.

La investigación abre formas interesantes de aplicar redes neuronales en entornos empresariales. El primero es construir un agente RL que pueda explorar un entorno altamente complejo y luego emularlo para las necesidades de los modelos que deben realizar tareas dentro de él. El mejor ejemplo puede ser enseñarle al modelo a emular el mundo real en toda su complejidad e imprevisibilidad.

Otra aplicación comercial sería una herramienta de predicción de video que podría entregar videos basados ​​en solo unos pocos fotogramas, reduciendo efectivamente el esfuerzo que los animadores y diseñadores ponen en producir videos de larga duración.

“Consideramos que nuestro trabajo de investigación es una parte esencial de deepsense.ai y un aspecto clave del desarrollo de la empresa. Esta vez, nuestros investigadores realmente han ampliado los límites del conocimiento sin exageraciones de marketing. El proyecto aporta una idea nueva y fresca a la investigación de la IA, algo en lo que vale la pena contribuir”. concluye Tomasz Kułakowski, CEO de deepsense.ai.