Defesa de Tese de Doutorado de Raphael dos Santos Evangelista, em 13/08/2024, às 14:00 horas, por videoconferência
Link para defesa: https://meet.google.com/mhv-rctp-cdc
Manipulação Visual Semântica sob a Óptica da Álgebra Geométrica
Resumo:
Modelos generativos vêm evoluindo consideravelmente em sua capacidade de produzir imagens realistas em diversos domínios (e.g., rostos humanos, partes de cidade). A manipulação semântica de imagens, i.e, a reinterpretação de seu significado, preservando características individuais essenciais, continua como um problema desafiador. Soluções recentes de Machine Learning demonstram boa capacidade de organizar seus espaços de representação de modo a tornar possível a manipulação algébrica de seus vetores.
Esta tese propõe uma abordagem baseada na Álgebra Geométrica (GA) para manipulação de representações latentes das imagens, interpretando-as como conjuntos de características que podem ser transferidos entre contextos distintos. A GA oferece um ferramental matemático elegante e eficaz para operar subespaços lineares, permitindo uma expressão compacta e intuitiva das formulações propostas. O conceito de coerência geométrico semântica foi estabelecido como a correspondência direta entre as operações geométricas realizadas sobre representações latentes e as modificações semânticas resultantes sobre as imagens geradas. Este trabalho apresenta uma forma de operar vetores latentes como pseudovetores em GA (subespaços (n-1)-dimensionais), formados pela união de características visuais (subespaços k-dimensionais), onde k ≤ n.
Os resultados obtidos demonstram a coerência das três formulações propostas sobre arquiteturas diferentes, mas dependem de um espaço latente bem organizado e representativo. Como prova de viabilidade, são apresentados variados experimentos realizados sobre os espaços latentes da SEAN, Semantic Palette e StyleGAN3, incluindo manipulações semânticas consideradas complexas, e.g., progressão de idade e alteração de fenótipo. Outras operações consideram a transferência de acessórios e de expressões faciais, além de uma solução alternativa para realizar consultas semânticas em bases de imagens.
Por fim, são apresentadas duas métricas derivadas diretamente das expressões em GA, úteis para auxiliar no entendimento da formação do espaço latente. Também acrescenta-se uma nova componente de função de perda que pode ser utilizada para acelerar o treinamento da SEAN, a partir do conhecimento prévio sobre a disposição das amostras no espaço latente, conhecimento obtido através dos experimentos realizados.
Abstract:
Generative models have been evolving considerably in their ability to produce realistic images across various domains (e.g., human faces, cityscapes). Semantic image manipulation, i.e., the reinterpretation of an image’s meaning while preserving essential individual features, remains a challenging problem. Recent Machine Learning solutions demonstrate a good capacity to organize their latent spaces in such a way that algebraic manipulation of latent vectors becomes possible.
This thesis proposes an approach based on Geometric Algebra (GA) for manipulating latent representations of images, interpreting them as sets of features that can be transferred between different contexts. GA provides an elegant and effective mathematical toolkit for operating on linear subspaces, allowing for a compact and intuitive expression of the proposed formulations. The concept of geometric-semantic coherence was established as the direct correspondence between geometric operations performed on latent representations and the resulting semantic modifications on the generated images. This work presents a way to operate latent vectors as pseudovectors in GA ((n-1)-dimensional subspaces), spanned by the union of visual features (k-dimensional subspaces), where k ≤ n.
The results obtained demonstrate the coherence of the three proposed formulations across different architectures, but they depend on a well-organized and representative latent space. As proof of feasibility, various experiments conducted on the latent spaces of SEAN, Semantic Palette, and StyleGAN3 are presented, including semantically complex manipulations, e.g., age progression, and phenotype changing. Other operations include transferring accessories and facial expressions, as well as an alternative solution for performing semantic queries in image databases.
Finally, two metrics derived directly from GA expressions are presented, which could be useful for understanding latent space formation. Additionally, a new loss function component is introduced that can be used to accelerate SEAN training based on prior knowledge about the arrangement of samples in the latent space, a knowledge obtained through the experiments’ results.
Banca examinadora:
Prof. Leandro Augusto Frata Fernandes, UFF – Presidente
Profa. Aline Marins Paes Carvalho, UFF
Prof. Anselmo Antunes Montenegro, UFF
Prof. William Robson Schwartz, UFMG
Dra. Cristina Nader Vasconcelos, Google