Applicability domain of protein language models: a preliminary study

Publication date

2026-02-05T07:50:51Z

2026-02-05T07:50:51Z

2025-06-18



Abstract

Treball de fi de grau en Bioinformàtica. Curs 2024-2025


Tutors: Alexis Molina i Zinnera Tariq


Els models de llenguatge de proteïnes (pLM) ajuden a predir l'estructura i la funció de les proteïnes, però presenten dificultats per generalitzar-se a seqüències desconegudes. En aquesta investigació, s'analitza com canvia el domini d'aplicabilitat dels pLM amb la mida del model, la durada de l'entrenament i la redundància del conjunt de dades (UniRef90 vs. UniRef50). Mitjançant l'ús de dades de MGnify i de diferents mètriques, avaluem el domini d'aplicabilitat del model en seqüències amb diferents nivells de similitud. Els resultats mostren que els models més petits amb un entrenament incert menys perllongat amplien el domini d'aplicabilitat. A més, després d'utilitzar conjunts de dades per a tasques específiques, s'observen els mateixos patrons. Això proporciona informació sobre les configuracions òptimes del model per a aplicacions bioinformàtiques al món real.


Los modelos de lenguaje de proteínas (pLM) ayudan a predecir la estructura y función de las proteínas, pero presentan dificultades para generalizarse a secuencias desconocidas. En esta investigación, se analiza cómo cambia el dominio de aplicabilidad de los pLM con el tamaño del modelo, la duración del entrenamiento y la redundancia del conjunto de datos (UniRef90 vs. UniRef50). Mediante el uso de datos metagenómicos de MGnify y diferentes métricas, evaluamos el dominio de aplicabilidad del modelo en secuencias con diferentes niveles de similitud. Los resultados muestran que los modelos más pequeños y un entrenamiento menos prolongado amplían el dominio de aplicabilidad. Además, tras utilizar conjuntos de datos para tareas específicas, se observan los mismos patrones. Esto proporciona información sobre las configuraciones óptimas del modelo para aplicaciones bioinformáticas en el mundo real.


Protein language models (pLMs) help predict protein structure and function but they struggle with generalization to unseen sequences. In this research, it is analyzed how the applicability domain of pLMs changes with model size, training duration, and dataset redundancy (UniRef90 vs. UniRef50). By using embeddings from MGnify metagenomic data and different metrics we assess model applicability domain across sequences of different similarity levels. Results show that smaller models and shorter training tend to enhance the robustness and expand the applicability domain. Additionally, after using downstream datasets, the same patterns are observed. Providing insights into optimal model configurations for real-world bioinformatics applications.

Document Type

Project / Final year job or degree

Language

English

Recommended citation

This citation was generated automatically.

Rights

This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 license

Attribution-NonCommercial-NoDerivatives 4.0 International

https://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)