Identifier
Event
Language
Presentation type
Topic it belongs to
Subtopic it belongs to
Title of the presentation (use both uppercase and lowercase letters)
Presentation abstract
Long abstract of your presentation
Neuroevolución de Redes Neuronales
Híbridas en un Agente Robótico (NRNH-AR)
La navegación por un entorno
dinámico es un problema común de los robots móviles y Aprendizaje por Refuerzo
Profundo (ARP) ha recibido una atención significativa debido a su fuerte
capacidad de representación y aprendizaje de experiencia. [1] El proyecto va
enfocado a implementar el ARP en un agente robótico físico con el algoritmo
Twin Delay 3 (TD3) con la finalidad de hallar un objeto específico, sin
embargo, para que el algoritmo tenga éxito, es necesario considerar otros 2
bloques que son: el Hardware y la mecánica del agente.
Descripción
del Algoritmo
Con el fin de mejorar el tiempo de entrenamiento de
los agentes robóticos en el ARP, sin dañar su estructura física, se ha desarrollado
la Neuroevolución de Redes Neuronales Híbridas en un Agente Robótico, por sus
siglas en ingles NHNN-RA, el cual consiste en ir cambiando el tipo de
entrenamiento conforme se van aumentando la base de datos hecha por el mismo
agente (entrenamiento on-line) iniciando con el aprendizaje Supervisado, luego
el Aprendizaje No Supervisado y por último el Aprendizaje por Refuerzo
Profundo.
En el Aprendizaje Supervisado, se busca que el agente
adquiera experiencia de forma rápida al indicarle que acciones debe realizar
tomando en cuenta la imagen de entrada del entorno y la señal del sensor
ultrasónico.
En el Aprendizaje No Supervisado, se sustituirá las
decisiones de quien supervisaba en el aprendizaje anterior por un sistema de
redes neuronales en paralelo, calculando 2 acciones cuya entrada es la misma
imagen y comparándolas entre sí.
En cuanto al Aprendizaje por
Refuerzo Profundo, el agente tomará como base lo aprendido anteriormente, aquí
se agregan los castigos y premios, además del tiempo que tarda en lograr su
objetivo, que en este caso es hallar un objeto. Cabe mencionar que para la
clasificación de la base de datos se cuenta con una CNN.
Para
medir cuan eficiente se vuelve el NHNN-RA, se coloca una variable llamada Aprendizaje,
que va en un rango de 0 a 1, donde 0 representa una red nada eficiente y 1 un
sistema de redes eficiente.
Evaluación del Algoritmo
En la etapa del Aprendizaje Supervisado (AS), el nivel
de aprendizaje tiene variaciones muy altas, esto es porque al principio no se
necesita de precisión, simplemente que la red compare su respuesta con la que
el supervisor entrega.
Para
evaluar que es necesario pasar a la siguiente etapa de aprendizaje, A=1
en 10 épocas consecutivas.
Luego se coloca el bloque del Aprendizaje Supervisado
por el Aprendizaje No Supervisado (ANS), en cuyo inicio se ha percibido una
caída del aprendizaje, esto se debe a que debe predecir una acción y calcular
otra la cual se ejecutará.
El crecimiento del nivel de aprendizaje es paulatino,
teniendo caídas en su intermedio, pero esto se debe a que a pesar de que ambas
acciones, la predicha y la real son iguales, la calidad de la acción con
respecto a lo observado no fue la adecuada, es decir, si predice ir a la
izquierda y la acción de ejemplo también calculada es a la izquierda la red que
brinda las acciones es correcta, sin embargo, al ir a la izquierda colisiona
indica que la calidad de la acción no fue la adecuada.
En el Aprendizaje por Refuerzo Profundo, empieza
teniendo una caída de Nivel de Aprendizaje (NA), esto se debe a que va
conociendo el entorno mientras busca el objeto.
Al tardar un poco más en encontrarlo tiene como
consecuencia descontar una parte de la recompensa. Es importante tomar en
cuenta que el Aprendizaje por Refuerzo Profundo es un caso específico de un
ANS, la diferencia es que en este primero va contra tiempo, es castigado o
recompensado.
Se nota que no hay una caída profunda de aprendizaje y
que el ARP es óptimo si se toma como experiencia las etapas anteriores a que si
se hubiese empezado con este a generar la base de datos.
Como el diseño de las redes permite agregar nuevos
datos y seguir aumentando la capacidad de entrenamiento, logra retornar a nivel
de aprendizaje igual a 1.
Conclusión
Si se
coloca al agente en un nuevo entorno, tendrá el mismo comportamiento de
reducción de NA al principio y cuando tenga los datos suficientes para entender
el entorno podrá retornar a NA = 1.
Es posible
implementar Edge Computing para entrenamientos de aprendizaje supervisado, no supervizado
y por refuerzo profundo, pero hay que agregar un sistema de refrigeración ya
que el agente se calienta bastante, además de agregar un mejor sistema de
monitoreo de la batería para conocer cómo afecta en el rendimiento del
aprendizaje.
Para tener
un entrenamiento continuo y más rápido se debe contar con una batería cuya vida
útil sea duradera.
Es posible optimizar
el aprendizaje en tiempo y gasto computacional usando la Neuroevolución de
Redes Neuronales Híbridas en un Agente Robótico, por sus siglas en ingles
NHNN-RA
Referencias
[1] Zhu, K, Zhang, T. Deep Reinforcement
Learning Based Mobile Robot Navigation: A Review. Volume26 Issue 5 Page
674-691. DOI 10.26599/TST.2021.9010012
Keywords (use both uppercase and lowercase letters)
Main author information
Co-authors information
Status:
Approved