Defesa de Tese de Doutorado de Yanexis Pupo Toledo – 04/10/2024, 9h, por videoconferência
Link para defesa: https://meet.google.com/azf-qqop-sbp
Segmentação Multiclasse Escalável a partir de Múltiplos Segmentadores Binários
Resumo:
Uma das abordagens de maior sucesso na literatura para tarefas de segmentação multiclasse é o uso de Redes Neurais Convolucionais (CNNs, do inglês, Convolutional Neural Networks). No entanto, essas redes enfrentam uma compensação entre precisão e recursos computacionais à medida que o número de classes aumenta. Cada classe adicional torna a tarefa de segmentação multiclasse mais complexa, exigindo aumento na dimensão de saída da rede e, em alguns casos, na profundidade ou nas dimensões dos filtros nas camadas ocultas para obter maior capacidade de aprendizagem. Isso resulta no aumento do número de parâmetros e na complexidade do treinamento, prejudicando a escalabilidade em hardware com recursos limitados. Além disso, as redes de segmentação multiclasse sofrem com o problema de desequilíbrio de classes, comum nesse tipo de tarefa. Classes mais frequentes ou que ocupam regiões maiores nas imagens têm maior influência no ajuste dos pesos da rede durante o treinamento, levando a um treinamento desigual, especialmente quando o número de classes é muito grande. Para mitigar esses problemas, propomos uma abordagem de treinamento distribuído chamada MsBNet (do inglês, Multiclass Segmentation by Binary Networks). Nesta abordagem, a segmentação multiclasse é obtida a partir de múltiplos segmentadores binários que podem ser customizados por classe, de acordo com o conjunto de dados disponível para cada classe. Ao contrário de um modelo único multiclasse, onde os parâmetros são ajustados para todas as classes e as classes dominantes têm maior influência, a MsBNet permite um ajuste individualizado por classe. Avaliamos nossa proposta no conjunto de dados de uso público Cityscapes e em um conjunto privado de imagens de Úlceras de Pé Diabético (DFUs, do inglês, Diabetic Foot Ulcers), aprovado pelo comitê de ética e protegido pela Lei Geral de Proteção de Dados. Ambos os conjuntos sofrem com o problema de desequilíbrio de classes e têm como objetivo final a implantação em dispositivos com recursos limitados, assim como a adição dinâmica de novas classes. Os experimentos demonstram as vantagens da nossa MsBNet sobre modelos de segmentação multiclasse de rede única, em termos de escalabilidade e facilidade de lidar com desequilíbrio de classes, tornando-a mais apropriada para implantação em dispositivos com recursos limitados. Além disso, é ideal para aplicações em ambientes dinâmicos, como cidades e áreas médicas, onde a adição de novas classes ajuda a identificar padrões de forma mais granular e a obter novas perspectivas.
Abstract:
One of the most successful approaches in the literature for multiclass segmentation tasks is Convolutional Neural Networks (CNNs). However, these networks face a tradeoff between accuracy and computational resources as the number of classes increases. Each additional class makes the multiclass segmentation task more complex, requiring an increase in the network output dimension and, in some cases, in the depth or filter dimensions in the hidden layers to achieve greater learning capacity. This increases the number of parameters and training complexity, compromising scalability on hardware with limited resources. In addition, multiclass segmentation networks suffer from the problem of class imbalance, which is common in this type of task. More frequent classes, or those that occupy more significant regions in the images, have a greater influence on the adjustment of the network weights during training, leading to uneven training, especially when the number of classes is very large. To mitigate these problems, we propose a distributed training approach called MsBNet (Multiclass Segmentation by Binary Networks). In this approach, multiclass segmentation is achieved from multiple binary segmenters that can be customized per class according to the dataset available for each class. Unlike a single multiclass model, where parameters are tuned for all classes and dominant classes have the most influence, MsBNet allows for individualized tuning per class. We evaluate our proposal on the public Cityscapes dataset and a private dataset of Diabetic Foot Ulcers (DFU) images, approved by the ethics committee and protected by the General Data Protection Regulation. Both datasets suffer from the problem of class imbalance and are ultimately intended for deployment on devices with limited resources and for the dynamic addition of new classes. The experiments demonstrate the advantages of our MsBNet over single-network multiclass segmentation models in terms of scalability and ease of handling class imbalance, making it more suitable for deployment on devices with limited resources. Additionally, it is ideal for applications in dynamic environments such as cities and medical fields, where adding new classes helps identify patterns more granularly and gain new insights.
Banca examinadora:
Prof. Leandro Augusto Frata Fernandes, UFF – Presidente
Profa. Aura Conci, UFF
Prof. Flávio Luiz Seixas, UFF
Prof. Marcos Vinícius Naves Bêdo, UFF
Prof. Rafael Gomes Mantovani, UTFPR
Prof. Antoni Jaume Capó, Universitat de les Illes Balears