Defesa de Proposta de Tese de Doutorado de Rafael Nink de Carvalho, 07/04/2025, 13h, por videoconferência
Link para defesa: https://meet.google.com/udo-ujps-hiq
Balanceamento Incremental de Distribuição de Classes
Resumo:
Esta proposta de tese de doutorado trata do problema da classificação supervisionada em contextos de desbalanceamento entre classes, uma situação recorrente em bases de dados reais nas quais uma das classes possui significativamente menos instâncias do que a outra. O foco da pesquisa está no desenvolvimento e avaliação de uma estratégia de oversampling incremental, que visa tornar o processo de balanceamento mais controlado e adaptado ao desempenho real do modelo. A abordagem proposta consiste na geração iterativa de blocos de instâncias sintéticas da classe minoritária, avaliando, a cada iteração, se sua inclusão na base de treinamento contribui para a melhoria de métricas como o F1-Score, utilizando uma partição separada da base para validação. Apenas os blocos com impacto positivo são incorporados, evitando a adição irrelevante ou prejudicial de amostras. Complementarmente, a proposta inclui a estratégia de Balanceamento Parcial Otimizado, que registra o desempenho obtido a cada etapa do processo incremental e fornece como resultado final a versão da base parcialmente balanceada que apresentou o melhor desempenho, mesmo que esse ponto ocorra antes de se alcançar o balanceamento completo (proporção 1:1). Resultados preliminares em 37 bases de dados binárias desbalanceadas indicam que a estratégia incremental supera, em diversos cenários, tanto a base original desbalanceada quanto o método SMOTE com balanceamento fixo. A versão com Balanceamento Parcial Otimizado apresentou, em muitos casos, desempenho superior ao obtido com o balanceamento completo, reforçando a hipótese de que estratégias orientadas por desempenho podem ser mais eficazes do que abordagens estáticas. A proposta busca ampliar as alternativas metodológicas no tratamento de dados desbalanceados, oferecendo um mecanismo incremental e adaptativo com potencial de aplicação em diferentes domínios e modelos de classificação.
Abstract:
This doctoral thesis proposal addresses the problem of supervised classification in contexts where class imbalance is present, a common scenario in real-world datasets where one class is significantly underrepresented compared to the other. The research focuses on the development and evaluation of an incremental oversampling strategy designed to make the balancing process more controlled and responsive to the model’s actual performance. The proposed approach involves the iterative generation of synthetic minority class instances in blocks, with each block being evaluated for its impact on performance metrics such as the F1-Score, using a separate validation subset. Only blocks that lead to performance improvements are retained, thus avoiding the unnecessary or harmful inclusion of synthetic samples. In addition, the proposal introduces the Optimized Partial Balancing strategy, which tracks the performance obtained at each step of the incremental process and outputs the version of the partially balanced dataset that achieved the best performance, even if that point occurs before a complete class balance (1:1 ratio) is reached. Preliminary experiments on 37 imbalanced binary datasets indicate that the incremental strategy outperforms, in several scenarios, both the original unbalanced data and the SMOTE method with fixed balancing. The Optimized Partial Balancing variant, in many cases, achieved higher performance than full balance, supporting the hypothesis that performance-driven strategies may be more effective than static approaches. This proposal aims to broaden the range of methodological alternatives for handling imbalanced data, offering an adaptive and incremental mechanism with potential applicability across different domains and classification models.
Banca examinadora:
Prof.ª Simone de Lima Martins, UFF – Presidente
Prof. Alexandre Plastino de Carvalho, UFF
Prof. José Viterbo Filho, UFF
Prof. Luiz Henrique de Campos Merschmann, UFLA