
Defesa de Dissertação de Mestrado de Luiz Fernando Coelho Passos, 10/09/25, 9h, por videoconferência
Link para defesa: https://meet.google.com/hbt-xjsz-bwp
Estudo e Avaliação de Métodos de Imputação para Bases de Dados Longitudinais
Resumo:
Estudos longitudinais são muito comuns na área da saúde. Contudo, a ocorrência de dados faltantes é muito elevada, o que prejudica o treinamento de modelos de predição, tornando desafiadora a realização de análises eficientes. Neste trabalho, foram examinados algoritmos de imputação de valores ausentes apropriados para bases de dados longitudinais como Prev, Next, PrevNext e AllPrevNext, comparando-os com os métodos de imputação K-Nearest Neighbors (KNN) e Média, Mediana e Moda com e sem agrupamento pela classe, a partir de uma análise de desempenho. Foram utilizadas três bases de dados extraídas do Estudo Longitudinal Inglês sobre Envelhecimento, do inglês English Longitudinal Study of Ageing (ELSA): Demência, Diabetes e Pressão Alta. No geral, o valor aproximado de dados ausentes para a base de dados Demência é de 30,22%, para Diabetes é de 32,39% e para Pressão Alta é de 32,68%. Cada método de imputação longitudinal não solucionou a imputação de todos os valores ausentes sozinho. Assim, o algoritmo desenvolvido envolve a combinação dos métodos de imputação, gerando diferentes versões de base de dados para realização dos experimentos. Posteriormente, sendo submetidos aos modelos de aprendizado de máquina Regressão Logística, Árvore de Decisão e Florestas Aleatórias para serem avaliados. Utilizando a base de dados Demência, pode-se observar um ganho de 9,30% na métrica de desempenho F1, com o maior valor observado utilizando os métodos de imputação Prev e Média/Mediana/Moda com agrupamento no modelo Regressão Logística (F1 = 95,2%) em relação ao método KNN Gower com K=1, utilizado como base de comparação, que obteve o maior valor com o modelo de Floresta Aleatória (F1 = 87,1%). Para a base de dados Diabetes, o ganho foi de 26,56%, sendo superior ao ganho apresentado com a base de dados Demência, com o maior valor observado utilizando o método de imputação Média/Mediana/Moda com agrupamento no modelo Árvore de Decisão (F1 = 87,2%) em relação ao método KNN Gower com K=1 que também obteve o maior valor com o modelo Árvore de Decisão (F1 = 68,9%). Por fim, o maior ganho foi observado na base de dados Pressão Alta, de 32,27% na métrica de desempenho F1, com o maior valor observado utilizando o método de imputação Média/Mediana/Moda com agrupamento no modelo Árvore de Decisão (F1 = 83,2%) em relação ao método KNN Gower com K=1 que obteve o maior valor com o modelo Floresta Aleatória (F1 = 62,9%).
Abstract:
Longitudinal studies are very common in the health field. However, the occurrence of missing values is very high, which hinders the training of prediction models, making it challenging to perform efficient analyses. In this work, algorithms were analyzed for imputing missing values that are appropriate for longitudinal databases, such as Prev, Next, PrevNext and AllPrevNext, comparing them with the imputation methods K-Nearest Neighbors (KNN) and Mean, Median and Mode imputation methods with and without clustering by class, based on a performance analysis. Three databases extracted from the English Longitudinal Study of Ageing (ELSA) were used: Dementia, Diabetes and High Blood Pressure. Overall, the approximate value of missing data for the Dementia database is 30.22%, for Diabetes it is 32.39% and for High Blood Pressure it is 32.68%. Each longitudinal imputation method did not solve the imputation of all missing values alone. Thus, the developed algorithm involves combining imputation methods, generating different database versions to perform the experiments. Subsequently, they were submitted to the machine learning models Logistic Regression, Decision Tree and Random Forests for evaluation. Using the Dementia database, a 9.30% gain in the F1 performance metric can be observed, with the highest value observed using the Prev and Mean/Median/Mode imputation methods with clustering in the Logistic Regression model (F1 = 95.2%) compared to the KNN Gower method with K=1, used as a basis for comparison, which obtained the highest value with the Random Forest model (F1 = 87.1%). For the Diabetes database, the gain was 26.56%, which was higher than the gain presented with the Dementia database, with the highest value observed using the Mean/Median/Mode imputation method with clustering in the Decision Tree model (F1 = 87.2%) compared to the KNN Gower method with K=1, which also obtained the highest value with the Decision Tree model (F1 = 68.9%). Finally, the highest gain was observed in the High Blood Pressure database, at 32.27% in the F1 performance metric, with the highest value observed using the Mean/Median/Mode imputation method with clustering in the Decision Tree model (F1 = 83.2%) compared to the KNN Gower method with K=1, which obtained the highest value with the Random Forest model (F1 = 62.9%).
Banca examinadora:
Prof. Flávio Luiz Seixas, UFF – Presidente
Prof. Leandro Santiago de Araújo, UFF
Prof. Erito Marques de Souza Filho, UFRJ