Gene-gene interaction network-guided feature selection for single drug response prediction: Integrating biological priors and data-driven signals through personalized propagation

Bernadas Call, Anna

Gene-gene interaction network-guided feature selection for single drug response prediction: Integrating biological priors and data-driven signals through personalized propagation

dc.contributor

Universitat Politècnica de Catalunya. Departament de Física

dc.contributor

University of Toronto

dc.contributor

Haibe-Kains, Benjamin

dc.contributor.author

Bernadas Call, Anna

dc.date.accessioned

2025-12-06T11:34:20Z

dc.date.available

2025-12-06T11:34:20Z

dc.date.issued

2025-05-27

dc.identifier

https://hdl.handle.net/2117/448543

dc.identifier

PRISMA-192050

dc.identifier.uri

https://hdl.handle.net/2117/448543

dc.description.abstract

En aquesta tesi explorem diverses estratègies de selecció de gens (característiques) rellevants per a predir la sensibilitat a fàrmacs en la monoteràpia contra el càncer. Avaluem quatre mètodes diferents de selecció de característiques: (I) models d'aprenentatge automàtic (regressió lineal regularitzada) per a una selecció de gens purament basada en dades, (II) conjunts de dianes farmacològiques (de 21 fàrmacs anti-càncer estudiats), (III) gens seleccionats segons la seva centralitat topològica en xarxes d’interacció gènica i (IV) un enfocament híbrid que integra característiques derivades de l’aprenentatge automàtic amb context biològic mitjançant la propagació en xarxa via l'algorisme de PageRank personalitzat amb punts d'inici (o llavors) derivats de (I) i (II). Els resultats mostren que la selecció de gens basada en l’aprenentatge automàtic supera les altres estratègies pel que fa a precisió predictiva. Això no obstant, els resultats també posen de manifest que els mètodes híbrids que integren coneixement derivat de l'aprenentatge automàtic amb context de xarxa milloren significativament la interpretabilitat sense comprometre el rendiment predictiu, superant la principal limitació dels models purament basats en dades: la manca de context biològic. Els resultats també mostren que la integració de dianes farmacològies dels fàrmacs estudiats amb el context de xarxa gènica millora el rendiment predictiu respecte als enfocaments purament basats en xarxes o exclusivament en dianes, resolent les limitacions predictives que presenten quan s’utilitzen de forma aïllada aquests contextos biològics. En resum, aquest treball proposa un marc innovador per a la selecció de gens rellevants en la predicció de la resposta a fàrmacs, que combina models basats en dades amb coneixement biològic. A més, aporta una visió sobre el balanç entre precisió predictiva i rellevància biològica en la farmacogenòmica, suggerint que les estratègies híbrides poden oferir un equilibri òptim dels 2.

dc.description.abstract

En esta tesis exploramos distintas estrategias de selección de genes (caracterı́sticas) rel- evantes para predecir la sensibilidad a fármacos contra el cáncer. Evaluamos cuatro métodos distintos de selección de caracterı́sticas: (I) modelos de aprendizaje automático (regresiones lineales regularizadas) para una selección de genes puramente basada en datos, (II) conjuntos de dianas farmacológicas (de 21 fármacos anti-cancerı́genos estudi- ados), (III) genes seleccionados según su centralidad topológica en redes de interacción génica, y (IV) un enfoque hı́brido que integra caracterı́sticas derivadas del aprendizaje automático con contexto biológico mediante propagación en la red génica, a través del algoritmo de PageRank personalizado con semillas derivadas de (I) y (II). Los resultados muestran que la selección de genes basada en aprendizaje automático supera a las demás estrategias en cuanto a precisión predictiva. No obstante, también evidencian que los métodos hı́bridos que integran conocimiento derivado del aprendizaje automático con contexto de red mejoran significativamente la interpretabilidad sin com- prometer el rendimiento predictivo, superando ası́ la principal limitación de los modelos puramente basados en datos: la falta de contexto biológico. Los resultados también demuestran que la integración de dianas farmacológicas con el contexto de red génica mejora el rendimiento predictivo en comparación con los enfoques basados únicamente en redes o exclusivamente en dianas, resolviendo las limitaciones predictivas que presentan estos contextos biológicos de forma aislada. En resumen, este trabajo propone un marco innovador para la selección de genes sig- nificativos en la predicción de la respuesta a fármacos, combinando modelos basados en datos con conocimiento biológico. Aporta una visión sobre el equilibrio entre pre- cisión predictiva y relevancia biológica en farmacogenómica, sugiriendo que las estrategias hı́bridas pueden ofrecer un equilibrio óptimo.

dc.description.abstract

In this thesis, we investigate and compare several feature selection strategies for predict- ing drug sensitivity in cancer monotherapy. We explore four distinct feature selection methods: (I) machine learning-based gene selection, using regularized linear regression models for purely data-driven features, (II) curated drug targets (from a set of 21 anti- cancer compounds studied), (III) genes prioritized by topological centrality measures in gene interaction networks, and (IV) an innovative hybrid approach that integrates machine learning-derived features with biological context using network propagation via Personalized PageRank (PPR) with seeds drawn from (I) and (II). Our primary aim is to balance predictive performance with biological interpretability. The results show that machine learning-based feature selection (I) achieves the highest predictive accuracy. However, hybrid methods (IV) demonstrate that integrating both ML-derived priors with network context significantly enhance interpretability without compromising predictive performance. These findings highlight that combining machine learning with network-based biology can overcome the main limitations of purely data- driven models, providing more robust and biologically meaningful predictive signatures. Furthermore, integrating curated drug targets with network context (IV) improves the predictive performance of using drug targets or network metrics alone, addressing the limited predictive power of each when used in isolation. Overall, this work presents a framework for integrating machine learning and biological knowledge in pharmacogenomics. It highlights the trade-offs between predictive accuracy and biological relevance, suggesting that hybrid strategies offer an optimal balance for drug sensitivity prediction, with strong future implications for precision oncology and personalized medicine.

dc.description.abstract

Outgoing

dc.format

application/pdf

dc.language

eng

dc.publisher

Universitat Politècnica de Catalunya

dc.rights

http://creativecommons.org/licenses/by-sa/4.0/

dc.rights

Open Access

dc.rights

Attribution-ShareAlike 4.0 International

dc.subject

Àrees temàtiques de la UPC::Matemàtiques i estadística

dc.subject

Genes

dc.subject

Machine learning

dc.subject

Pharmacogenomics

dc.subject

precision oncology

dc.subject

machine learning

dc.subject

drug sensitivity prediction

dc.subject

interpretability

dc.subject

feature selection

dc.subject

drug targets

dc.subject

biological networks

dc.subject

gene-gene interaction networks

dc.subject

Personalized PageRank

dc.subject

Gens

dc.subject

Aprenentatge automàtic

dc.subject

Classificació AMS::62 Statistics::62P Applications

dc.subject

Classificació AMS::68 Computer science::68T Artificial intelligence

dc.title

Gene-gene interaction network-guided feature selection for single drug response prediction: Integrating biological priors and data-driven signals through personalized propagation

dc.type

Bachelor thesis

Ficheros en el ítem

Ficheros	Tamaño	Formato	Ver
No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Treballs acadèmics [82545]