Applicability domain of protein language models: a preliminary study

dc.contributor.author
Jardí Yanes, Pol
dc.date.accessioned
2026-02-06T20:20:50Z
dc.date.available
2026-02-06T20:20:50Z
dc.date.issued
2026-02-05T07:50:51Z
dc.date.issued
2026-02-05T07:50:51Z
dc.date.issued
2025-06-18
dc.identifier
https://hdl.handle.net/10230/72470
dc.identifier.uri
https://hdl.handle.net/10230/72470
dc.description.abstract
Treball de fi de grau en Bioinformàtica. Curs 2024-2025
dc.description.abstract
Tutors: Alexis Molina i Zinnera Tariq
dc.description.abstract
Els models de llenguatge de proteïnes (pLM) ajuden a predir l'estructura i la funció de les proteïnes, però presenten dificultats per generalitzar-se a seqüències desconegudes. En aquesta investigació, s'analitza com canvia el domini d'aplicabilitat dels pLM amb la mida del model, la durada de l'entrenament i la redundància del conjunt de dades (UniRef90 vs. UniRef50). Mitjançant l'ús de dades de MGnify i de diferents mètriques, avaluem el domini d'aplicabilitat del model en seqüències amb diferents nivells de similitud. Els resultats mostren que els models més petits amb un entrenament incert menys perllongat amplien el domini d'aplicabilitat. A més, després d'utilitzar conjunts de dades per a tasques específiques, s'observen els mateixos patrons. Això proporciona informació sobre les configuracions òptimes del model per a aplicacions bioinformàtiques al món real.
dc.description.abstract
Los modelos de lenguaje de proteínas (pLM) ayudan a predecir la estructura y función de las proteínas, pero presentan dificultades para generalizarse a secuencias desconocidas. En esta investigación, se analiza cómo cambia el dominio de aplicabilidad de los pLM con el tamaño del modelo, la duración del entrenamiento y la redundancia del conjunto de datos (UniRef90 vs. UniRef50). Mediante el uso de datos metagenómicos de MGnify y diferentes métricas, evaluamos el dominio de aplicabilidad del modelo en secuencias con diferentes niveles de similitud. Los resultados muestran que los modelos más pequeños y un entrenamiento menos prolongado amplían el dominio de aplicabilidad. Además, tras utilizar conjuntos de datos para tareas específicas, se observan los mismos patrones. Esto proporciona información sobre las configuraciones óptimas del modelo para aplicaciones bioinformáticas en el mundo real.
dc.description.abstract
Protein language models (pLMs) help predict protein structure and function but they struggle with generalization to unseen sequences. In this research, it is analyzed how the applicability domain of pLMs changes with model size, training duration, and dataset redundancy (UniRef90 vs. UniRef50). By using embeddings from MGnify metagenomic data and different metrics we assess model applicability domain across sequences of different similarity levels. Results show that smaller models and shorter training tend to enhance the robustness and expand the applicability domain. Additionally, after using downstream datasets, the same patterns are observed. Providing insights into optimal model configurations for real-world bioinformatics applications.
dc.format
application/pdf
dc.language
eng
dc.rights
This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 license
dc.rights
Attribution-NonCommercial-NoDerivatives 4.0 International
dc.rights
https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights
info:eu-repo/semantics/openAccess
dc.subject
Treball de fi de grau – Curs 2024-2025
dc.subject
Model de llenguatge extens (MLE)
dc.subject
Aprenentatge profund
dc.subject
ESM2
dc.subject
Domini d’aplicabilitat
dc.subject
UniRef
dc.subject
Modelo extenso de lenguaje (MEL)
dc.subject
Aprendizaje profundo
dc.subject
Dominio de aplicabilidad
dc.subject
Large language models (LLM)
dc.subject
Deep learning
dc.subject
Applicability domain
dc.title
Applicability domain of protein language models: a preliminary study
dc.type
info:eu-repo/semantics/bachelorThesis


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)