2026-02-05T07:50:51Z
2026-02-05T07:50:51Z
2025-06-18
Treball de fi de grau en Bioinformàtica. Curs 2024-2025
Tutors: Alexis Molina i Zinnera Tariq
Els models de llenguatge de proteïnes (pLM) ajuden a predir l'estructura i la funció de les proteïnes, però presenten dificultats per generalitzar-se a seqüències desconegudes. En aquesta investigació, s'analitza com canvia el domini d'aplicabilitat dels pLM amb la mida del model, la durada de l'entrenament i la redundància del conjunt de dades (UniRef90 vs. UniRef50). Mitjançant l'ús de dades de MGnify i de diferents mètriques, avaluem el domini d'aplicabilitat del model en seqüències amb diferents nivells de similitud. Els resultats mostren que els models més petits amb un entrenament incert menys perllongat amplien el domini d'aplicabilitat. A més, després d'utilitzar conjunts de dades per a tasques específiques, s'observen els mateixos patrons. Això proporciona informació sobre les configuracions òptimes del model per a aplicacions bioinformàtiques al món real.
Los modelos de lenguaje de proteínas (pLM) ayudan a predecir la estructura y función de las proteínas, pero presentan dificultades para generalizarse a secuencias desconocidas. En esta investigación, se analiza cómo cambia el dominio de aplicabilidad de los pLM con el tamaño del modelo, la duración del entrenamiento y la redundancia del conjunto de datos (UniRef90 vs. UniRef50). Mediante el uso de datos metagenómicos de MGnify y diferentes métricas, evaluamos el dominio de aplicabilidad del modelo en secuencias con diferentes niveles de similitud. Los resultados muestran que los modelos más pequeños y un entrenamiento menos prolongado amplían el dominio de aplicabilidad. Además, tras utilizar conjuntos de datos para tareas específicas, se observan los mismos patrones. Esto proporciona información sobre las configuraciones óptimas del modelo para aplicaciones bioinformáticas en el mundo real.
Protein language models (pLMs) help predict protein structure and function but they struggle with generalization to unseen sequences. In this research, it is analyzed how the applicability domain of pLMs changes with model size, training duration, and dataset redundancy (UniRef90 vs. UniRef50). By using embeddings from MGnify metagenomic data and different metrics we assess model applicability domain across sequences of different similarity levels. Results show that smaller models and shorter training tend to enhance the robustness and expand the applicability domain. Additionally, after using downstream datasets, the same patterns are observed. Providing insights into optimal model configurations for real-world bioinformatics applications.
Project / Final year job or degree
English
Treball de fi de grau – Curs 2024-2025; Model de llenguatge extens (MLE); Aprenentatge profund; ESM2; Domini d’aplicabilitat; UniRef; Modelo extenso de lenguaje (MEL); Aprendizaje profundo; Dominio de aplicabilidad; Large language models (LLM); Deep learning; Applicability domain
This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 license
Attribution-NonCommercial-NoDerivatives 4.0 International
https://creativecommons.org/licenses/by-nc-nd/4.0/
Treballs d'estudiants [4946]