Aprendizado Profundo Aplicado em SLAM Visual para Identificar Fechamento de Loop
Na Robótica, a navegação autônoma vem sendo abordada nos últimos anos devido ao potencial de aplicações em diferentes áreas, como industrial, saúde e entretenimento. A capacidade de navegar, seja de veículos autônomos ou robôs de serviço, está relacionada ao problema do Mapeamento e Localização Simultâneos, do inglês Simultaneous Localization And Mapping (SLAM). O Fechamento de Loop, no contexto do SLAM Visual, utiliza as informações presentes nas imagens para identificar ambientes previamente visitados, permitindo a correção e atualização do mapa e da localização do robô. O objetivo deste trabalho é apresentar um sistema para identificar o Fechamento de Loop em ambiente simulado no Gazebo e com imagens reais dos datasets públicos KITTI e TUM. Para isso, as Redes Neurais (RNs) AlexNet, ConvNeXt, ResNet, VGG-16 Original, VGG-16 Adaptada e Treinada, e VisionTransformer foram utilizadas e os resultados analisados. A VGG-16 Adaptada e Treinada foi criada a partir da VGG-16 Original por meio do conceito de transferência de aprendizado. No treinamento, foram utilizadas imagens virtuais do Gazebo para diminuir a dimensão dos descritores e aumentar a acurácia na extração de features. A implementação do sistema de Fechamento de Loop foi feita a partir do pré-processamento da imagem com a divisão em regiões direita e esquerda. Em seguida, as RNs foram utilizadas na extração de features e geração dos descritores. O limite das distâncias e a sequência de imagens foram definidos para melhorar a performance na comparação de imagens. Por fim, os resultados de cada RN foram analisados com base nas métricas de Acurácia, F1-Score, curva ROC e Area Under the Curve (AUC).