Defesa de Dissertação de Christian Erik Condori Mamani, 04/07/25, 11h, por videoconferência

Defesa de Dissertação de Christian Erik Condori Mamani, 04/07/25, 11h, por videoconferência

 

Link para defesa: http://meet.google.com/qtx-wtuy-jvu

 

SCVC-NeRF: Mip-NeRF with Semantic Channel and Viewpoint Consensus for Coherent Scene Representation

Resumo:

 

Este trabalho se insere no contexto da visão computacional e da representação tridimensional de cenas, com um foco específico na segmentação semântica multivisual. A segmentação semântica é uma tarefa essencial para a compreensão de cenas em aplicações como veículos autônomos, realidade aumentada, inspeção industrial e robótica. No entanto, os métodos tradicionais de segmentação 2D não garantem coerência entre diferentes pontos de vista, sendo sensíveis a variações de iluminação, oclusões e mudanças de perspectiva. Diante desse desafio, esta pesquisa propõe o SCVC-NeRF, um modelo volumétrico que estende a arquitetura Mip-NeRF 360 por meio da incorporação de um canal semântico supervisionado e de um mecanismo de consenso multivisual. O objetivo do modelo é gerar segmentações 2D coerentes a partir de múltiplas imagens com máscaras segmentadas individualmente, mesmo que estas sejam parciais ou inconsistentes. 

A metodologia empregada baseia-se na integração de máscaras binárias geradas por segmentadores 2D dentro de uma representação volumétrica comum, o que permite ao modelo aprender o campo semântico da cena durante o processo de treinamento. Nesse processo, os campos de cor, densidade e semântica são otimizados simultaneamente utilizando uma combinação de funções de perda baseadas no erro quadrático médio. O mecanismo de consenso aproveita a redundância espacial entre raios provenientes de diferentes câmeras que intersectam a mesma região tridimensional, promovendo uma fusão estatística das etiquetas. 

Durante os experimentos, o SCVC-NeRF demonstrou robustez frente a ruídos, oclusões e dados incompletos, alcançando uma coerência adequada entre vistas em contextos desafiadores. As principais contribuições deste trabalho incluem o desenvolvimento de uma extensão semântica para o NeRF, o design de um mecanismo de consenso multivisual, a definição de uma função de perda multicanal e a validação do modelo em diversos cenários. Conclui-se que o SCVC-NeRF representa um avanço significativo na integração de informações semânticas e estruturais em ambientes tridimensionais, contribuindo para reduzir a lacuna entre a segmentação 2D e a compreensão espacial 3D em sistemas inteligentes.

 

Abstract:

 

This work falls within the context of computer vision and three-dimensional scene representation, with a specific focus on multi-view semantic segmentation. Semantic segmentation is an essential task for scene understanding in applications such as autonomous vehicles, augmented reality, industrial inspection, and robotics. However, traditional 2D segmentation methods do not guarantee consistency across different viewpoints and are sensitive to variations in lighting, occlusions, and perspective changes. In response to this challenge, this research proposes SCVC-NeRF, a volumetric model that extends the Mip NeRF 360 architecture by incorporating a supervised semantic channel and a multi-view consensus mechanism. The model aims to generate consistent 2D segmentations from multiple images with individually segmented masks, even when those masks are partial or inconsistent.

The methodology is based on integrating binary masks generated by 2D segmenters into a shared volumetric representation, enabling the model to learn the semantic field of the scene during training. In this process, the color, density, and semantic fields are optimized simultaneously using a combination of mean squared error loss functions. The consensus mechanism leverages spatial redundancy between rays from different cameras that intersect the same 3D region, promoting a statistical fusion of labels.

During the experiments, SCVC-NeRF demonstrated robustness to noise, occlusions, and incomplete data, achieving satisfactory cross-view consistency in challenging scenarios. The main contributions of this work include the development of a semantic ex tension for NeRF, the design of a multi-view consensus mechanism, the definition of a multi-channel loss function, and the validation of the model across diverse scenarios. It is concluded that SCVC-NeRF represents a significant advancement in integrating semantic and structural information within three-dimensional environments, helping to bridge the gap between 2D segmentation and 3D spatial understanding in intelligent systems.

Banca  examinadora:

 

Prof. Leandro Augusto Frata Fernandes, UFF – Presidente

Profa. Aline Marins Paes Carvalho, UFF

Prof. Patrick Nigri Happ, PUC-Rio

Related Posts

Leave a Reply