Titulo: Predicting Item Response Theory Parameters Using Question Statements Texts Resumo: Nos últimos anos, avanços em Modelos Neurais de Linguagem pré-treinados em grandes corpora de textos têm possibilitado a extração de representações linguísticas ricas, permitindo o treinamento eficiente de redes neurais para aplicações específicas, mesmo com conjuntos de dados reduzidos. Neste contexto, esta tese investiga o uso dessas representações para a predição de parâmetros da Teoria da Resposta ao Item (TRI), utilizando exclusivamente os enunciados das questões. A pesquisa inova ao demonstrar a viabilidade da obtenção dos parâmetros de dificuldade dos itens a partir da Curva Característica do Item, em vez da abordagem convencional de regressão direta sobre os parâmetros, predominante na literatura. Para avaliar essa proposta, foram testados diversos tipos de encoders, baseados em arquiteturas Transformer, comparando modelos treinados em Português e Multilinguais. A arquitetura piramidal desenvolvida foi capaz de predizer o parâmetro de dificuldade das questões do ENEM 2020 e 2021 com um erro médio de 70 pontos e uma mediana de 58 pontos. Ao calcular a nota TRI para uma amostra de 100.000 estudantes, o erro absoluto médio permaneceu abaixo de 40 pontos em todas as áreas do exame. Para o quartil superior dos candidatos, os candidatos mais competitivos do SISU, o erro médio absoluto foi inferior a 30 pontos em todas as áreas, chegando a menos de 15 pontos em algumas delas. Além disso, foi desenvolvida uma nova abordagem para a obtenção de embeddings baseada em Representações Relativas, que explora a similaridade entre os tokens de uma questão e um conjunto de âncoras selecionadas, reduzindo a complexidade computacional do processo. Os experimentos demonstraram que essa estratégia apresenta desempenho similar ou superior à abordagem piramidal, que utiliza a matriz completa de tokens, além de tornar o processo mais eficiente. Os experimentos foram conduzidos em uma base de dados real e de alta relevância nacional, composta por 2.578 enunciados de questões extraídos de 14 anos de exames do ENEM, principal porta de entrada para o ensino superior no Brasil, impactando milhões de estudantes anualmente. Os resultados desta pesquisa indicam que a tecnologia desenvolvida pode ser utilizada para prever parâmetros de novas questões, compor exames simulados e avaliar o desempenho dos candidatos neste exame com precisão. Além disso, a abordagem reduz a dependência de custosos processos de pré-calibração em avaliações educacionais. Palavras-chave: ENEM, Teoria de Resposta ao Item, Modelos Neurais de Linguagem, Representações Relativas ________________ Abstract: In recent years, advances in pre-trained Neural Language Models on large text corpora have enabled the extraction of rich linguistic representations, allowing for the eficient training of neural networks for specific applications, even with limited datasets. In this context, this thesis investigates the use of these representations for predicting parameters of Item Response Theory (IRT), relying exclusively on the textual content of exam questions. This research introduces an innovative approach by demonstrating the feasibility of obtaining item dificulty parameters from the Item Characteristic Curve, rather than the conventional regression-based approach widely used in the literature. To evaluate this proposal, various Transformer-based encoders were tested, comparing models trained in Portuguese and Multilingual settings. The pyramidal neural architecture developed was able to predict the dificulty parameter of ENEM 2020 and 2021 questions with an average error of 70 points and a median of 58 points. When calculating the IRT scores for a sample of 100,000 students, the mean absolute error remained below 40 points across all exam areas, and below 30 points for the top quartile of candidates, reaching less than 15 points in some cases. Additionally, a novel approach for generating embeddings based on Relative Representations was developed. This method leverages the similarity between question tokens and a selected set of anchor words, reducing computational complexity while maintaining or even improving performance compared to the pyramidal approach, which relies on the full token matrix. The experiments were conducted on a real and nationally relevant dataset, consisting of 2,578 question texts collected from 14 years of ENEM exams. As Brazil's primary university entrance exam, ENEM impacts millions of students annually. The findings of this research suggest that the proposed technology can be used to predict parameters for new exam questions, design simulated tests, and assess candidate performance with high accuracy. Furthermore, this approach reduces reliance on costly pre-calibration processes in educational assessments, optimizing evaluation methodologies. Keywords: ENEM, Item Response Theory, Neural Language Models, Relative Representations