Sign In

Identifier

Event

Language

Presentation type

Topic it belongs to

Subtopic it belongs to

Title of the presentation (use both uppercase and lowercase letters)

Presentation abstract

Se ha desarrollado un Agente Robótico capaz de aprender del entorno dinámico por el que navega, el cual tiene como objetivo hallar un objeto específico. Para el crecimiento de su aprendizaje, se ha creado la Neuroevolución de Redes Neuronales Híbridas en un Agente Robótico (NHNN-RA por sus siglas en inglés Neuroevolution of Hybrid Neural Networks in a Robotic Agent) que tiene como propósito captar imágenes, clasificarlas con una CNN y decidir acciones con el Aprendizaje por Refuerzo Profundo y la Política de gradiente. Sin embargo para que el algoritmo tenga éxito físicamente se han considerado además dos bloques: el Hardware y la mecánica involucrada, ya que al tratarse de un aprendizaje de entrenamiento on-line, es decir, que actualiza los parámetros de las redes neuronales mientras navega, es una buena opción utilizar el Edge Computing para evitar problemas como la latencia y que esté limitado por el ancho de banda.

Long abstract of your presentation

Neuroevolución de Redes Neuronales Híbridas en un Agente Robótico (NRNH-AR)

La navegación por un entorno dinámico es un problema común de los robots móviles y Aprendizaje por Refuerzo Profundo (ARP) ha recibido una atención significativa debido a su fuerte capacidad de representación y aprendizaje de experiencia. [1] El proyecto va enfocado a implementar el ARP en un agente robótico físico con el algoritmo Twin Delay 3 (TD3) con la finalidad de hallar un objeto específico, sin embargo, para que el algoritmo tenga éxito, es necesario considerar otros 2 bloques que son: el Hardware y la mecánica del agente.

Descripción del Algoritmo

Con el fin de mejorar el tiempo de entrenamiento de los agentes robóticos en el ARP, sin dañar su estructura física, se ha desarrollado la Neuroevolución de Redes Neuronales Híbridas en un Agente Robótico, por sus siglas en ingles NHNN-RA, el cual consiste en ir cambiando el tipo de entrenamiento conforme se van aumentando la base de datos hecha por el mismo agente (entrenamiento on-line) iniciando con el aprendizaje Supervisado, luego el Aprendizaje No Supervisado y por último el Aprendizaje por Refuerzo Profundo.

En el Aprendizaje Supervisado, se busca que el agente adquiera experiencia de forma rápida al indicarle que acciones debe realizar tomando en cuenta la imagen de entrada del entorno y la señal del sensor ultrasónico.

En el Aprendizaje No Supervisado, se sustituirá las decisiones de quien supervisaba en el aprendizaje anterior por un sistema de redes neuronales en paralelo, calculando 2 acciones cuya entrada es la misma imagen y comparándolas entre sí.

En cuanto al Aprendizaje por Refuerzo Profundo, el agente tomará como base lo aprendido anteriormente, aquí se agregan los castigos y premios, además del tiempo que tarda en lograr su objetivo, que en este caso es hallar un objeto. Cabe mencionar que para la clasificación de la base de datos se cuenta con una CNN.

Para medir cuan eficiente se vuelve el NHNN-RA, se coloca una variable llamada Aprendizaje, que va en un rango de 0 a 1, donde 0 representa una red nada eficiente y 1 un sistema de redes eficiente.

Evaluación del Algoritmo

En la etapa del Aprendizaje Supervisado (AS), el nivel de aprendizaje tiene variaciones muy altas, esto es porque al principio no se necesita de precisión, simplemente que la red compare su respuesta con la que el supervisor entrega.

Para evaluar que es necesario pasar a la siguiente etapa de aprendizaje, A=1 en 10 épocas consecutivas.

Luego se coloca el bloque del Aprendizaje Supervisado por el Aprendizaje No Supervisado (ANS), en cuyo inicio se ha percibido una caída del aprendizaje, esto se debe a que debe predecir una acción y calcular otra la cual se ejecutará.

 

El crecimiento del nivel de aprendizaje es paulatino, teniendo caídas en su intermedio, pero esto se debe a que a pesar de que ambas acciones, la predicha y la real son iguales, la calidad de la acción con respecto a lo observado no fue la adecuada, es decir, si predice ir a la izquierda y la acción de ejemplo también calculada es a la izquierda la red que brinda las acciones es correcta, sin embargo, al ir a la izquierda colisiona indica que la calidad de la acción no fue la adecuada.

 

En el Aprendizaje por Refuerzo Profundo, empieza teniendo una caída de Nivel de Aprendizaje (NA), esto se debe a que va conociendo el entorno mientras busca el objeto.

 

Al tardar un poco más en encontrarlo tiene como consecuencia descontar una parte de la recompensa. Es importante tomar en cuenta que el Aprendizaje por Refuerzo Profundo es un caso específico de un ANS, la diferencia es que en este primero va contra tiempo, es castigado o recompensado.

 

Se nota que no hay una caída profunda de aprendizaje y que el ARP es óptimo si se toma como experiencia las etapas anteriores a que si se hubiese empezado con este a generar la base de datos.

 

Como el diseño de las redes permite agregar nuevos datos y seguir aumentando la capacidad de entrenamiento, logra retornar a nivel de aprendizaje igual a 1.

 

 

Conclusión

Si se coloca al agente en un nuevo entorno, tendrá el mismo comportamiento de reducción de NA al principio y cuando tenga los datos suficientes para entender el entorno podrá retornar a NA = 1.

Es posible implementar Edge Computing para entrenamientos de aprendizaje supervisado, no supervizado y por refuerzo profundo, pero hay que agregar un sistema de refrigeración ya que el agente se calienta bastante, además de agregar un mejor sistema de monitoreo de la batería para conocer cómo afecta en el rendimiento del aprendizaje.

Para tener un entrenamiento continuo y más rápido se debe contar con una batería cuya vida útil sea duradera.

Es posible optimizar el aprendizaje en tiempo y gasto computacional usando la Neuroevolución de Redes Neuronales Híbridas en un Agente Robótico, por sus siglas en ingles NHNN-RA

 

Referencias

[1]      Zhu, K, Zhang, T. Deep Reinforcement Learning Based Mobile Robot Navigation: A Review. Volume26 Issue 5 Page 674-691. DOI 10.26599/TST.2021.9010012

Keywords (use both uppercase and lowercase letters)

Main author information

CARLOS ALBERTO VASQUEZ JALPA (Mexico) 7584
Scientific production

Co-authors information

Status:

Approved