
Defesa de Dissertação de Mestrado de José Lucas Brandão Montes – 14/10/2024, 8h, por videoconferência
Link para defesa: https://meet.google.com/rqx-iday-dhw
SLAYO-RL: Uma Abordagem para Construção de Um Agente de Aprendizagem por Reforço para Busca e Captura de Alvo em Ambiente Desconhecido
Resumo:
Este trabalho apresenta uma abordagem inovadora para treinar um agente para atingir um alvo específico e pré-determinado em um ambiente desconhecido. Ele usa aprendizado por reforço para um agente com sensor Lidar e uma câmera. Dada a dificuldade de usar informações brutas de alta dimensão para treinar qualquer agente de aprendizagem por reforço, os dados do sensor Lidar foram processados usando Localização e Mapeamento Simultâneos para fornecer a localização do agente no espaço. Para identificar o alvo de interesse do agente, a imagem da câmera foi processada utilizando o modelo de detecção de objetos YoLo para fornecer as coordenadas do alvo na imagem. Além de processar o estado do agente, as duas tecnologias foram utilizadas como composição da recompensa obtida pelo agente, fazendo com que ele desenvolvesse o comportamento de explorar um ambiente desconhecido e, após localizar o alvo, deslocar-se em direção a ele até que o agente colida com ele, o alvo. A abordagem proposta difere do estado da arte porque une as duas tecnologias como uma composição do estado e da recompensa do agente.
Abstract:
This work presents an innovative approach for training an agent to reach a specific and predetermined target in an unknown environment. It uses reinforcement learning for an agent with a Lidar sensor and a camera. Given the difficulty of using raw high-dimensional information to train any reinforcement learning agent, the Lidar sensor data was processed using Simultaneous Localization and Mapping to provide the agent’s location in space. To identify the agent’s target of interest, the camera image was processed using the YoLo object detection model to provide the coordinates of the target in the image. In addition to processing the agent’s state, the two technologies were used as a composition of the reward obtained by the agent, causing it to develop the behavior of exploring an unknown environment and, after locating the target, moving towards it until the agent collides with the target. The proposed approach differs from the state of the art because it unites the two technologies as a composition of the agent’s state and reward.
Banca examinadora:
Prof. Troy Costa Kohwalter, UFF – Presidente
Prof. Esteban Walter Gonzalez Clua, UFF
Prof. Andouglas Gonçalves da Silva Júnior, IFRN