Aceleração do Aprendizado por Reforço Aplicado ao Planejamento de Caminho para Robôs Transportadores de Cargas

Santos, João Victor de Mesquita Cândido dos [UNIFESP]

Aceleração do Aprendizado por Reforço Aplicado ao Planejamento de Caminho para Robôs Transportadores de Cargas

Arquivos

TG_Aceleracao_Aprendizado.pdf(10.34 MB)

Data

2021-08-12

Autores

Santos, João Victor de Mesquita Cândido dos [UNIFESP]

Orientadores

Santos, Sérgio Ronaldo Barros dos [UNIFESP]

Tipo

Trabalho de conclusão de curso de graduação

Resumo

Robôs autônomos vem ganhando espaço dentro da sociedade devido a sua grande gama de aplicações. Uma utilização para robôs autônomos está no setor de transporte de produtos, entretanto pensando no processo de locomoção do robô dentro de um ambiente é necessário a realização do planejamento do melhor caminho. Inúmeros algoritmos buscam solucionar esse problema, dentre eles existe a abordagem de Aprendizado por Reforço através da utilização do algoritmo de Q-learning. O problema dessas abordagens é a lentidão no processo de convergência. Para isso, este projeto intitulado de Aceleração do Aprendizado por Reforço Aplicado ao Planejamento de Caminho para Robôs Transportadores de Cargas propõe uma variação do algoritmo de Q-learning, chamado de QLDR. O algoritmo utiiliza a abordagem de uma dupla recompensa, uma estática recebida imediatamente após a tomada de ação e uma recompensa dinâmica utilizando um cálculo de variação da distância euclidiana entre o estado atual e o ponto de destino otimizando o processo na busca do melhor caminho. Através do desenvolvimento do algoritmo foi feita uma comparação com o Q-learning clássico e comprovada a otimização no processo de convergência fazendo com que o robô encontrasse o melhor caminho em menor tempo. Por fim, para validação de conceito foi utilizado um robô hexápode real para se locomover dentro de um ambiente treinado pelo algoritmo QLDR, para o processo de locomoção do robô foi utilizado um sistema de visão externa e o auxílio de algoritmos de processamento de imagem em Python tanto para o planejamento da rota, quanto para o processo de locomoção no ambiente em si.
Autonomous robots have been gaining space within society due to their wide range of applications. One use for autonomous robots is in the product transport sector, however, thinking about the robot’s locomotion process within an environment, it is necessary to carry out the best path planning. Numerous algorithms seek to solve this problem, among them there is the Reinforcement Learning approach through the use of the Q-learning algorithm. The problem of these approaches is the slow convergence process. Therefore, this project entitled Accelerated Learning by Reinforcement Application to Path Planning for Product Transport Robots proposes a variation of the Q-learning algorithm, called QLDR. The algorithm uses the approach of a double reward, a static received immediately after taking action and a dynamic reward using a Euclidean distance variation calculation between the current state and the destination point, optimizing the process in search of the best path. Through the development of the algorithm, a comparison with the classic Q-learning was made and the optimization in the convergence process was proven, making the robot find the best path in less time. Finally, for concept validation, a real hexapod robot was used to move within an environment trained by the QLDR algorithm, for the robot locomotion process an external vision system and the aid of image processing algorithms in Python were used for planning of the route, as for the process of locomotion in the environment itself.