Defesa de Proposta de Tese de Doutorado de Ewerton Luiz Costadelle, 14/04/25, 14h, por videoconferência

Defesa de Proposta de Tese de Doutorado de Ewerton Luiz Costadelle, 14/04/25, 14h, por videoconferência

Link para defesa: meet.google.com/evv-vnsv-myb

New Approaches to Handle Data Shift Based on Feature Importance Measurement

Resumo:

data shift (deslocamento na distribuição dos dados) representa um desafio significativo para a confiabilidade e o desempenho preditivo dos modelos de aprendizado de máquina, principalmente, quando a distribuição de dados na fase de implantação difere da distribuição de dados na fase de treinamento. Neste estudo, propomos a Quality-weighted Intervention in Prediction Measure (QIPM), uma nova medida de importância de atributos projetada para melhorar a adaptabilidade, de modelos baseados em árvore, em cenários fora da distribuição (dados com distribuição deslocada). Nosso método proposto para lidar com a mudança de dados combina QIPM com um algoritmo baseado em árvore modificado que prioriza a seleção de atributos com base em sua relevância de classificação, sob condições de mudança de dados. Nossa abordagem atua em duas etapas. Primeiro, a QIPM quantifica a importância de cada atributo com base em sua contribuição para a classificação de instâncias fora da distribuição. Em seguida, essas importâncias orientam a construção de um novo modelo por meio de uma adaptação do algoritmo Biased Splitting, priorizando atributos mais relevantes no novo domínio. Ao contrário dos métodos tradicionais de adaptação de domínio, o método proposto não requer dados rotulados do novo domínio (dados com distribuição deslocada), aproveitando as características latentes dos dados para melhorar o desempenho preditivo. Conduzimos experimentos em 15 conjuntos de dados tabulares do benchmark TableShift e observamos melhorias estatisticamente significativas na acurácia e na F1-measure. Além disso, em comparação com vários outros modelos da literatura, nossa abordagem obteve resultados muito competitivos, figurando entre os métodos de estado-da arte. Essas descobertas demonstram a eficácia e a robustez da nossa abordagem, particularmente na redução da degradação do desempenho causada por data shift.

Abstract:

Data shift poses a significant challenge to machine learning models’ reliability and predictive performance when the distribution of data in the deployment context differs from the training data distribution. In this study, we propose the Quality-weighted Intervention in Prediction Measure (QIPM), a novel feature importance measure designed to improve the adaptability of tree-based models in out-of-distribution scenarios (shifted data). Our proposed method to handle data shift combines QIPM with a modified tree-based algorithm that prioritizes the selection of features based on their classification relevance under data shift conditions. Our approach operates in two stages. First, the QIPM quantifies the importance of each feature by evaluating its contribution to the classification of out-of-distribution instances. Second, these importance scores guide the construction of a new model through an adapted version of the Biased Splitting algorithm, prioritizing features that are more informative in the shifted domain. Unlike traditional domain-adaptation methods, the proposed method does not require labeled data from the new domain (shifted data), leveraging latent data characteristics to improve predictive performance. We conducted experiments on 15 benchmark tabular datasets from the TableShift benchmark and observed statistically significant improvements in accuracy and F1-measure. Furthermore, compared with several other models from the literature, our approach achieved very competitive results, figuring among the state-of-the-art methods. These findings demonstrate the effectiveness and robustness of our approach, particularly in mitigating performance degradation caused by distributional shifts.

Banca  examinadora:

Prof. Alexandre Plastino de Carvalho, UFF – Presidente

Prof.ª Flavia Cristina Bernardini, UFF

Prof. Marcelo Rodrigues de Holanda Maia, IBGE

Prof. Luiz Henrique de Campos Merschmann, UFLA

Related Posts

Leave a Reply