Aceleração do Aprendizado por Reforço Aplicado ao Planejamento de Caminho para Robôs Transportadores de Cargas

dc.contributor.advisorSantos, Sérgio Ronaldo Barros dos [UNIFESP]
dc.contributor.advisorLatteshttp://lattes.cnpq.br/0608523738367987pt_BR
dc.contributor.authorSantos, João Victor de Mesquita Cândido dos [UNIFESP]
dc.contributor.authorLatteshttp://lattes.cnpq.br/2952984436501837pt_BR
dc.coverage.spatialSão José dos Campos, SPpt_BR
dc.date.accessioned2021-08-23T12:15:09Z
dc.date.available2021-08-23T12:15:09Z
dc.date.issued2021-08-12
dc.description.abstractRobôs autônomos vem ganhando espaço dentro da sociedade devido a sua grande gama de aplicações. Uma utilização para robôs autônomos está no setor de transporte de produtos, entretanto pensando no processo de locomoção do robô dentro de um ambiente é necessário a realização do planejamento do melhor caminho. Inúmeros algoritmos buscam solucionar esse problema, dentre eles existe a abordagem de Aprendizado por Reforço através da utilização do algoritmo de Q-learning. O problema dessas abordagens é a lentidão no processo de convergência. Para isso, este projeto intitulado de Aceleração do Aprendizado por Reforço Aplicado ao Planejamento de Caminho para Robôs Transportadores de Cargas propõe uma variação do algoritmo de Q-learning, chamado de QLDR. O algoritmo utiiliza a abordagem de uma dupla recompensa, uma estática recebida imediatamente após a tomada de ação e uma recompensa dinâmica utilizando um cálculo de variação da distância euclidiana entre o estado atual e o ponto de destino otimizando o processo na busca do melhor caminho. Através do desenvolvimento do algoritmo foi feita uma comparação com o Q-learning clássico e comprovada a otimização no processo de convergência fazendo com que o robô encontrasse o melhor caminho em menor tempo. Por fim, para validação de conceito foi utilizado um robô hexápode real para se locomover dentro de um ambiente treinado pelo algoritmo QLDR, para o processo de locomoção do robô foi utilizado um sistema de visão externa e o auxílio de algoritmos de processamento de imagem em Python tanto para o planejamento da rota, quanto para o processo de locomoção no ambiente em si.pt_BR
dc.description.abstractAutonomous robots have been gaining space within society due to their wide range of applications. One use for autonomous robots is in the product transport sector, however, thinking about the robot’s locomotion process within an environment, it is necessary to carry out the best path planning. Numerous algorithms seek to solve this problem, among them there is the Reinforcement Learning approach through the use of the Q-learning algorithm. The problem of these approaches is the slow convergence process. Therefore, this project entitled Accelerated Learning by Reinforcement Application to Path Planning for Product Transport Robots proposes a variation of the Q-learning algorithm, called QLDR. The algorithm uses the approach of a double reward, a static received immediately after taking action and a dynamic reward using a Euclidean distance variation calculation between the current state and the destination point, optimizing the process in search of the best path. Through the development of the algorithm, a comparison with the classic Q-learning was made and the optimization in the convergence process was proven, making the robot find the best path in less time. Finally, for concept validation, a real hexapod robot was used to move within an environment trained by the QLDR algorithm, for the robot locomotion process an external vision system and the aid of image processing algorithms in Python were used for planning of the route, as for the process of locomotion in the environment itself.pt_BR
dc.description.sponsorshipNão recebi financiamentopt_BR
dc.format.extent129 f.pt_BR
dc.identifier.urihttps://repositorio.unifesp.br/handle/11600/61595
dc.languageporpt_BR
dc.publisherUniversidade Federal de São Paulopt_BR
dc.rightsAcesso abertopt_BR
dc.subjectRobôs Hexápodespt_BR
dc.subjectInteligência Artificialpt_BR
dc.subjectAprendizado por Reforçopt_BR
dc.subjectQ-learningpt_BR
dc.subjectProcessamento de Imagempt_BR
dc.subjectPlanejamento de Caminhopt_BR
dc.titleAceleração do Aprendizado por Reforço Aplicado ao Planejamento de Caminho para Robôs Transportadores de Cargaspt_BR
dc.typeTrabalho de conclusão de curso de graduaçãopt_BR
unifesp.campusInstituto de Ciência e Tecnologia (ICT)pt_BR
unifesp.graduacaoEngenharia de Computaçãopt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TG_Aceleracao_Aprendizado.pdf
Tamanho:
10.34 MB
Formato:
Adobe Portable Document Format
Descrição:
TG Final
Licença do Pacote
Agora exibindo 1 - 3 de 3
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
5.73 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Carregando...
Imagem de Miniatura
Nome:
Termo Autorização_Assinado.pdf
Tamanho:
185.59 KB
Formato:
Adobe Portable Document Format
Descrição:
Carregando...
Imagem de Miniatura
Nome:
Termo_de_Responsabilidade_e_Autencidade_TCC_Unifesp_Portaria_Prograd._n._3-2021 (1) (1) (1).pdf
Tamanho:
138.1 KB
Formato:
Adobe Portable Document Format
Descrição: