Control de movimiento de robots con aprendizaje a partir de demostraciones (LfD)

Vota este post

Aprendiendo de la demostración

Cada robot móvil requiere control de movimiento para realizar tareas complejas de manera eficiente en un entorno altamente dinámico. Hoy en día, utilizamos diferentes formas de determinar y controlar estos comportamientos de robots, como control de voz, control de teclado, control de gestos, etc. Todos estos métodos se basan en algoritmos de control de movimiento robustos para la operación exitosa de robots móviles.

Los algoritmos de control de movimiento determinan la acción apropiada y ejecutan acciones físicas a través de mecanismos de actuación basados ​​en la observación del mundo a través de sensores. Sin embargo, los sensores a veces pueden ser ruidosos y engañosos, lo que dificulta y complica determinar con precisión las trayectorias de los robots móviles y los comportamientos de movimiento sofisticados con enfoques de control tradicionales.

Por lo tanto, el desarrollo de algoritmos de control de movimiento para robots móviles plantea un desafío importante, incluso para comportamientos de movimiento simples. A medida que los comportamientos se vuelven más complejos, la generación de algoritmos de control apropiados solo se vuelve más desafiante. Además, desarrollar comportamientos de movimiento o políticas de movimiento a través de medios tradicionales resultó tedioso y exigió un alto nivel de experiencia.

Estos son algunos de los desafíos críticos en el uso de métodos tradicionales para determinar el control de movimiento del robot.

El mapeo de acción de estado representado por una política de movimiento suele ser complejo de desarrollar. Una de las razones de esta complejidad es que se desconoce el mapeo de observación-acción del objetivo. Lo que se conoce es el comportamiento de movimiento deseado del robot, y este comportamiento debe representarse de alguna manera a través de un mapeo de acción de observación desconocido.

La precisión con la que las técnicas de derivación de políticas reproducen el mapeo es un desafío adicional e independiente. Una segunda razón de esta complejidad son las complicaciones de la ejecución de políticas de movimiento en entornos del mundo real, principalmente porque:

  1. El mundo se observa a través de sensores, que suelen ser ruidosos y pueden proporcionar información contradictoria o engañosa.
  2. Los modelos de la dinámica mundial se aproximan a la dinámica real y, a menudo, se simplifican aún más debido a limitaciones computacionales o de memoria. Por lo tanto, estos modelos pueden predecir de forma imprecisa los efectos del movimiento.
  3. Las acciones son movimientos ejecutados con hardware real, que depende de muchas consideraciones físicas, como la precisión de la calibración, y necesariamente realiza acciones con cierto nivel de imprecisión.

Todos estos desafíos contribuyen a la incertidumbre inherente a la ejecución de políticas en el mundo real. El resultado neto es una diferencia entre la ejecución de la política esperada y la real.

Control de movimiento mediante demostración (LfD)

Un enfoque que mitiga muchos de estos desafíos es desarrollar algoritmos de control de movimiento con una técnica de desarrollo de políticas llamada Aprendizaje a partir de la demostración (LfD). En LfD, el algoritmo de control aprende el comportamiento deseado del robot a partir de ejemplos o demostraciones proporcionadas por un maestro.

Durante la demostración del profesor, se registran las secuencias de los pares estado-acción. Luego, los algoritmos utilizan este conjunto de datos de ejemplos para derivar una política o un mapa de los estados mundiales a las acciones del robot, que reproduce el comportamiento demostrado. La política aprendida constituye un algoritmo de control para el comportamiento, y el robot usa esta política para seleccionar una acción basada en el estado mundial observado.

Aquí, un comportamiento se representa como pares de estados y acciones; más específicamente, los estados encontrados y las acciones ejecutadas por un maestro durante la demostración de comportamiento de movimiento. El algoritmo de control se genera a partir del aprendizaje de una política por parte del robot, o el mapeo de las observaciones del mundo a las acciones del robot, que pueden reproducir el comportamiento de movimiento demostrado.

Las ejecuciones de robots con cualquier política, aprendidas de la demostración, pueden mostrar un rendimiento deficiente, especialmente cuando se encuentran con áreas del espacio de estado que no se ven durante la demostración. Sin embargo, la experiencia de ejecución de este tipo puede ser utilizada por un profesor para corregir y actualizar una política y mejorar el rendimiento y la solidez.

La demostración tiene la característica atractiva de ser un medio intuitivo para la comunicación humana y enfocar los conjuntos de datos en áreas del espacio de estado que se encuentran realmente durante la ejecución del comportamiento. Dado que no requiere un conocimiento experto de la dinámica del sistema, la demostración también abre el desarrollo de políticas a los no expertos en robótica.

LfD tiene muchos puntos atractivos tanto para los alumnos como para los profesores. La aplicación LfD al control de movimiento tiene las siguientes ventajas:

  • Comportamiento implícito a la traducción de mapeo: Al demostrar el comportamiento de movimiento deseado y registrar los estados y acciones encontrados, la traducción de un comportamiento en un mapeo de estado-acción representativo es inmediata e implícita. Esta traducción, por lo tanto, no necesita ser identificada y definida explícitamente por el desarrollador de la política.
  • Robustez bajo la incertidumbre del mundo real: la incertidumbre del mundo real significa que múltiples demostraciones del mismo comportamiento no se ejecutarán de manera idéntica. Por lo tanto, la generalización sobre ejemplos produce una política que no depende de un mundo estrictamente determinista y funcionará más sólidamente bajo la incertidumbre del mundo real.
  • Políticas enfocadas: La demostración tiene la característica práctica de enfocar el conjunto de datos de ejemplos en áreas del espacio de estado-acción que se encuentran realmente durante la ejecución del comportamiento. Esto es particularmente útil en dominios de acción de valor continuo, con un número infinito de combinaciones de estado-acción.
  • No es necesario recrear el estado: Esto es útil si la demostración se requiere en lugares que son peligrosos (p. ej., donde se produce una colisión) o de difícil acceso (p. ej., en medio de una trayectoria de movimiento).
  • No limitado por el demostrador: Las correcciones no se limitan a las habilidades de ejecución del profesor de demostración, que pueden ser subóptimas.
  • Sin restricciones por correspondencia: Las correcciones no están limitadas por las diferencias físicas entre el profesor y el alumno.
  • Las formulaciones de LfD generalmente no requieren un conocimiento experto de la dinámica del dominio, lo que elimina la fragilidad del rendimiento que resulta de las simplificaciones del modelo. La relajación del requisito de conocimiento especializado también abre el desarrollo de políticas a expertos no robóticos, satisfaciendo una necesidad que esperamos aumente a medida que los robots se vuelvan más comunes dentro de la sociedad en general.
  • Además, la demostración tiene la característica atractiva de ser un medio intuitivo para la comunicación de los humanos, quienes ya usan la demostración para enseñar a otros humanos.

LfD ha permitido el desarrollo exitoso de políticas para una variedad de plataformas y aplicaciones de robots. Sin embargo, este enfoque no está exento de limitaciones. Las fuentes comunes de limitaciones de LfD incluyen:

  1. Demostraciones docentes subóptimas o ambiguas.
  2. Áreas descubiertas del espacio de estado, ausentes del conjunto de datos de demostración.
  3. Mala traducción de maestro a alumno debido a diferencias en la detección o actuación.