
Defesa de Dissertação de Mestrado de Gabriel Henrique Coelho da Silva – 10/03/2025, 9h, por videoconferência
Link para defesa: https://meet.google.com/onh-zvwy-itu
Reconhecimento de Textos Manuscritos com Dados Limitados: uma Abordagem Exploratória para a Língua Portuguesa
Resumo:
Sistemas voltados para o Reconhecimento de Texto Manuscrito (HTR) desempenham um papel crucial na transcrição e preservação de informações em um formato compreendido pelos computadores. Serviços essenciais como saúde e segurança ainda se apoiam em registros manuais para prescrever receitas e prontuários médicos e registrar ocorrências policiais, por exemplo. Embora metodologias consolidadas como estado-da-arte, particularmente as que combinam Redes Neurais de Convolução (CNN) e Redes Neurais Recorrentes (RNN), e, recentemente, modelos Transformer, tenham propiciado avanços significativos, o HTR quando utilizado para linguagens com dados (anotados) limitados continua sendo desafiador, devido à necessidade de aprender/ajustar uma grande quantidade de pesos relativos aos modelos baseados em redes neurais. Este trabalho propõe uma técnica baseada em few-shot learning para o reconhecimento offline de linhas de texto manuscrito em português (PT). Além disso, é apresentado um conjunto de dados anotados manualmente contendo 5.145 símbolos em PT. Foram conduzidas avaliações experimentais a partir do ajuste fino de quatro modelos disponíveis e o treinamento de uma rede neural sem nenhum conhecimento prévio com base na técnica proposta, comparando os resultados da taxa de erro de caractere (CER) com duas técnicas para HTR similares, que explicitamente fornecem suporte para a língua portuguesa (GPT-4 Vision e Surya OCR toolkit). Os resultados mostram que o ajuste fino de um modelo few-shot utilizando 100 amostras reduz a CER em 0,4. Mesmo não alcançando os melhores resultados, a abordagem proposta explora a tarefa de HTR com muito menos dados anotados do que abordagens existentes na literatura e consideradas estado-da-arte, resultando em menos custo computacional e dados para executar a tarefa.
Abstract:
Handwriting Text Recognition (HTR) systems play a crucial role in transcribing and preserving information in a machine-readable format. Key sectors such as healthcare and security continue to rely on handwriting for medical prescriptions and police reports, for example. Although state-of-the-art methodologies, particularly those combining Convolutional Neural Networks (CNN) and Recurrent Neural Networks (RNN), and recently, Transformer models, have made significant strides, HTR for languages with only a few (annotated) data remains challenging due to the need of learning/adjusting a large volume of NN-based models weights. We propose a few-shot learning technique for offline handwriting recognition of Brazilian Portuguese (PT) text lines. In addition, we introduce a manually annotated dataset consisting of 5,145 symbols in PT. We conduct experimental evaluations by fine-tuning four models and training a neural network without prior knowledge based on our technique, and compare the Character Error Rate (CER) results with two similar HTR techniques, that explicitly assert support for the PT language (GPT-4 Vision and Surya OCR toolkit). The results show that fine-tuning the few-shot model with 100 samples reduces the CER by 0.4. Even not achieving the best results, the proposed approach tackles the HTR task with much less annotated data than state-of-the-art approaches, resulting in lower computational costs and data to execute the task.
Banca examinadora:
Profa. Aline Marins Paes Carvalho, UFF – Presidente
Profa. Isabel Cristina Mello Rosseti, UFF
Prof. Leandro Augusto Frata Fernandes, UFF
Prof. Daniel Cardoso Moraes de Oliveira, UFF
Prof. Byron Leite Dantas Bezerra, UPE