Applicability domain of protein language models: a preliminary study

Jardí Yanes, Pol

Applicability domain of protein language models: a preliminary study

dc.contributor.author

Jardí Yanes, Pol

dc.date.accessioned

2026-02-06T20:20:50Z

dc.date.available

2026-02-06T20:20:50Z

dc.date.issued

2026-02-05T07:50:51Z

dc.date.issued

2026-02-05T07:50:51Z

dc.date.issued

2025-06-18

dc.identifier

https://hdl.handle.net/10230/72470

dc.identifier.uri

https://hdl.handle.net/10230/72470

dc.description.abstract

Treball de fi de grau en Bioinformàtica. Curs 2024-2025

dc.description.abstract

Tutors: Alexis Molina i Zinnera Tariq

dc.description.abstract

Els models de llenguatge de proteïnes (pLM) ajuden a predir l'estructura i la funció de les proteïnes, però presenten dificultats per generalitzar-se a seqüències desconegudes. En aquesta investigació, s'analitza com canvia el domini d'aplicabilitat dels pLM amb la mida del model, la durada de l'entrenament i la redundància del conjunt de dades (UniRef90 vs. UniRef50). Mitjançant l'ús de dades de MGnify i de diferents mètriques, avaluem el domini d'aplicabilitat del model en seqüències amb diferents nivells de similitud. Els resultats mostren que els models més petits amb un entrenament incert menys perllongat amplien el domini d'aplicabilitat. A més, després d'utilitzar conjunts de dades per a tasques específiques, s'observen els mateixos patrons. Això proporciona informació sobre les configuracions òptimes del model per a aplicacions bioinformàtiques al món real.

dc.description.abstract

Los modelos de lenguaje de proteínas (pLM) ayudan a predecir la estructura y función de las proteínas, pero presentan dificultades para generalizarse a secuencias desconocidas. En esta investigación, se analiza cómo cambia el dominio de aplicabilidad de los pLM con el tamaño del modelo, la duración del entrenamiento y la redundancia del conjunto de datos (UniRef90 vs. UniRef50). Mediante el uso de datos metagenómicos de MGnify y diferentes métricas, evaluamos el dominio de aplicabilidad del modelo en secuencias con diferentes niveles de similitud. Los resultados muestran que los modelos más pequeños y un entrenamiento menos prolongado amplían el dominio de aplicabilidad. Además, tras utilizar conjuntos de datos para tareas específicas, se observan los mismos patrones. Esto proporciona información sobre las configuraciones óptimas del modelo para aplicaciones bioinformáticas en el mundo real.

dc.description.abstract

Protein language models (pLMs) help predict protein structure and function but they struggle with generalization to unseen sequences. In this research, it is analyzed how the applicability domain of pLMs changes with model size, training duration, and dataset redundancy (UniRef90 vs. UniRef50). By using embeddings from MGnify metagenomic data and different metrics we assess model applicability domain across sequences of different similarity levels. Results show that smaller models and shorter training tend to enhance the robustness and expand the applicability domain. Additionally, after using downstream datasets, the same patterns are observed. Providing insights into optimal model configurations for real-world bioinformatics applications.

dc.format

application/pdf

dc.language

eng

dc.rights

This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 license

dc.rights

Attribution-NonCommercial-NoDerivatives 4.0 International

dc.rights

https://creativecommons.org/licenses/by-nc-nd/4.0/

dc.rights

info:eu-repo/semantics/openAccess

dc.subject

Treball de fi de grau – Curs 2024-2025

dc.subject

Model de llenguatge extens (MLE)

dc.subject

Aprenentatge profund

dc.subject

ESM2

dc.subject

Domini d’aplicabilitat

dc.subject

UniRef

dc.subject

Modelo extenso de lenguaje (MEL)

dc.subject

Aprendizaje profundo

dc.subject

Dominio de aplicabilidad

dc.subject

Large language models (LLM)

dc.subject

Deep learning

dc.subject

Applicability domain

dc.title

Applicability domain of protein language models: a preliminary study

dc.type

info:eu-repo/semantics/bachelorThesis

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Treballs d'estudiants [4946]