Aplicació de fine-tuning d'embeddings i RAG en models locals per a l'educació

Other authors

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Serveis i Sistemes d'Informació

Alier Forment, Marc

Publication date

2025-06-25



Abstract

Aquest Treball de Final de Grau, desenvolupat en el marc del projecte de codi obert LAMB (Learning Assistant Manager and Builder), aborda una limitació clau dels sistemes de Recuperació Augmentada per Generació (RAG) en dominis acadèmics: la desambiguació d'acrònims. Per a dur a terme l'experimentació, s'ha contribuït al desenvolupament del lamb-kb-server, una eina especialitzada per a la gestió de bases de coneixement. La contribució central és el disseny i la implementació d'un algorisme multifàsic per a l'extracció automàtica d'una ontologia d'acrònims, utilitzant la web de la Facultat d'Informàtica de Barcelona (FIB) com a cas d'estudi. Aquesta ontologia s'utilitza per avaluar diverses estratègies de millora: l'expansió de consultes, l'enriquiment de documents i el fine-tuning d'un model d'embeddings de codi obert. Els resultats demostren que l'aplicació d'aquestes tècniques millora dràsticament la qualitat de la recuperació, assolint un increment del rendiment de fins a un 64,5% amb el model obert nomic-embed-text. L'estudi comparatiu revela que, tot i que un model propietari com el d'OpenAI ofereix el millor rendiment absolut, el model obert afinat s'hi aproxima notablement, validant-lo com una alternativa viable. La conclusió principal és que l'èxit del sistema depèn més d'una enginyeria de dades robusta i de l'ús d'estratègies de recuperació avançades que no pas de la simple elecció del model d'embedding base.


This Final Degree Project, developed within the framework of the open-source project LAMB (Learning Assistant Manager and Builder), addresses a key limitation of Retrieval-Augmented Generation (RAG) systems in academic domains: the disambiguation of acronyms. To carry out the experimentation, contributions were made to the development of the lamb-kb-server, a specialized tool for managing knowledge bases. The central contribution is the design and implementation of a multi-stage algorithm for the automatic extraction of an acronym ontology, using the website of the Faculty of Informatics of Barcelona (FIB) as a case study. This ontology is used to evaluate several improvement strategies: query expansion, document enrichment, and the fine-tuning of an open-source embedding model. The results demonstrate that applying these techniques drastically improves retrieval quality, achieving a performance increase of up to 64.5% with the open-source nomic-embed-text model. The comparative study reveals that while a proprietary model like OpenAI's offers the best absolute performance, the fine-tuned open-source model closely approaches it, validating it as a viable alternative. The main conclusion is that the system's success depends more on robust data engineering and the use of advanced retrieval strategies than on the mere choice of the base embedding model.


Este Trabajo de Fin de Grado, desarrollado en el marco del proyecto de código abierto LAMB (Learning Assistant Manager and Builder), aborda una limitación clave de los sistemas de Recuperación Aumentada por Generación (RAG) en dominios académicos: la desambiguación de acrónimos. Para llevar a cabo la experimentación, se ha contribuido al desarrollo del lamb-kb-server, una herramienta especializada para la gestión de bases de conocimiento. La contribución central es el diseño e implementación de un algoritmo multifásico para la extracción automática de una ontología de acrónimos, utilizando la web de la Facultat d’Informàtica de Barcelona (FIB) como caso de estudio. Esta ontología se emplea para evaluar diversas estrategias de mejora: la expansión de consultas, el enriquecimiento de documentos y el fine-tuning de un modelo de embeddings de código abierto. Los resultados demuestran que la aplicación de estas técnicas mejora drásticamente la calidad de la recuperación, alcanzando un incremento del rendimiento de hasta un 64,5% con el modelo abierto nomic-embed-text. El estudio comparativo revela que, aunque un modelo propietario como el de OpenAI ofrece el mejor rendimiento absoluto, el modelo abierto afinado se le aproxima notablemente, validándolo como una alternativa viable. La conclusión principal es que el éxito del sistema depende más de una ingeniería de datos robusta y del uso de estrategias de recuperación avanzadas que de la simple elección del modelo de embedding base.

Document Type

Bachelor thesis

Language

Catalan

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

Open Access

This item appears in the following Collection(s)