
Defesa de Tese de Doutorado de Wagner Luiz Oliveira dos Santos, 28/08/25, 14h, por videoconferência
Link para defesa: meet.google.com/oeu-xpok-qit
Um Método Baseado em Redes Convolucionais Equivariantes e Representação Topológica de Características para Identificação de Imagens com Alta Similaridade
Resumo:
A identificação de imagens com alta similaridade visual representa um desafio significativo em diversas aplicações, desde segurança até perícia criminal, sendo particularmente complexa devido a variações fotométricas, transformações geométricas e baixa distintividade estrutural. Esta tese propõe uma abordagem inovadora que integra redes neurais convolucionais equivariantes e representação topológica baseada em grafos para aprimorar a capacidade discriminativa de descritores de imagem. Inicialmente, um novo detector de pontos-chave, treinado com uma função de perda tripla derivada do Índice de Similaridade Estrutural, é introduzido para otimizar a repetibilidade posicional e a robustez a variações fotométricas e de perspectiva. A representação topológica, construída a partir de características correspondentes, captura relações estruturais e métricas entre descritores, filtrando informações irrelevantes e destacando atributos distintivos. Experimentos demonstram que a estratégia proposta supera métodos convencionais, alcançando ganhos significativos em precisão, recall e F1-Score, especialmente em conjuntos de dados com alta similaridade, como madeira, rochas, flora, fauna, papel de segurança e ligas metálicas. A abordagem apresentada não apenas avança o estado da arte em reconhecimento de imagens, mas também oferece uma solução eficaz para desafios complexos de identificação visual, abrindo caminho para investigações futuras focadas em aprimorar e validar a técnica em um espectro mais amplo de artefatos e materiais.
Abstract:
The identification of images exhibiting high visual similarity poses a significant challenge across diverse applications, including security and forensic science. This complexity arises from the inherent difficulties in mitigating photometric variations, geometric transformations, and the limited structural distinctiveness often observed in such datasets. This thesis introduces a novel approach integrating equivariant convolutional neural networks and graph-based topological representation to enhance the discriminative capability of image descriptors. Initially, a novel keypoint detector, trained with a triple loss function derived from the Structural Similarity Index, is developed to optimize positional repeatability and robustness to photometric and perspective distortions. The resulting topological representation, constructed from corresponding features, captures structural and metric relationships between descriptors, effectively filtering irrelevant information and emphasizing distinctive attributes. Experimental results demonstrate that the proposed strategy surpasses conventional methods, yielding substantial improvements in precision, recall, and F1-score, particularly when applied to datasets characterized by high visual similarity, such as wood, rocks, flora, fauna, security paper, and metal alloys. The presented approach not only advances the state-of-the-art in image recognition but also provides an effective solution to complex visual identification challenges, thereby opening avenues for future research focused on refining and validating the technique across a broader range of artifacts and materials.
Banca examinadora:
Prof. Anselmo Antunes Montenegro, UFF – Presidente
Prof. Leandro Augusto Frata Fernandes, UFF
Prof. André Maués Brabo Pereira, UFF
Prof. Guilherme Gonçalves Schardong, Universidade de Coimbra
Prof. Luiz José Schirmer Silva, UFSM