dc.contributor
Universitat Politècnica de Catalunya. Departament de Física
dc.contributor
University of Toronto
dc.contributor
Haibe-Kains, Benjamin
dc.contributor.author
Bernadas Call, Anna
dc.date.accessioned
2025-12-06T11:34:20Z
dc.date.available
2025-12-06T11:34:20Z
dc.date.issued
2025-05-27
dc.identifier
https://hdl.handle.net/2117/448543
dc.identifier
PRISMA-192050
dc.identifier.uri
https://hdl.handle.net/2117/448543
dc.description.abstract
En aquesta tesi explorem diverses estratègies de selecció de gens (característiques) rellevants per a predir la sensibilitat a fàrmacs en la monoteràpia contra el càncer. Avaluem quatre mètodes diferents de selecció de característiques: (I) models d'aprenentatge automàtic (regressió lineal regularitzada) per a una selecció de gens purament basada en dades, (II) conjunts de dianes farmacològiques (de 21 fàrmacs anti-càncer estudiats), (III) gens seleccionats segons la seva centralitat topològica en xarxes d’interacció gènica i (IV) un enfocament híbrid que integra característiques derivades de l’aprenentatge automàtic amb context biològic mitjançant la propagació en xarxa via l'algorisme de PageRank personalitzat amb punts d'inici (o llavors) derivats de (I) i (II). Els resultats mostren que la selecció de gens basada en l’aprenentatge automàtic supera les altres estratègies pel que fa a precisió predictiva. Això no obstant, els resultats també posen de manifest que els mètodes híbrids que integren coneixement derivat de l'aprenentatge automàtic amb context de xarxa milloren significativament la interpretabilitat sense comprometre el rendiment predictiu, superant la principal limitació dels models purament basats en dades: la manca de context biològic. Els resultats també mostren que la integració de dianes farmacològies dels fàrmacs estudiats amb el context de xarxa gènica millora el rendiment predictiu respecte als enfocaments purament basats en xarxes o exclusivament en dianes, resolent les limitacions predictives que presenten quan s’utilitzen de forma aïllada aquests contextos biològics. En resum, aquest treball proposa un marc innovador per a la selecció de gens rellevants en la predicció de la resposta a fàrmacs, que combina models basats en dades amb coneixement biològic. A més, aporta una visió sobre el balanç entre precisió predictiva i rellevància biològica en la farmacogenòmica, suggerint que les estratègies híbrides poden oferir un equilibri òptim dels 2.
dc.description.abstract
En esta tesis exploramos distintas estrategias de selección de genes (caracterı́sticas) rel- evantes para predecir la sensibilidad a fármacos contra el cáncer. Evaluamos cuatro métodos distintos de selección de caracterı́sticas: (I) modelos de aprendizaje automático (regresiones lineales regularizadas) para una selección de genes puramente basada en datos, (II) conjuntos de dianas farmacológicas (de 21 fármacos anti-cancerı́genos estudi- ados), (III) genes seleccionados según su centralidad topológica en redes de interacción génica, y (IV) un enfoque hı́brido que integra caracterı́sticas derivadas del aprendizaje automático con contexto biológico mediante propagación en la red génica, a través del algoritmo de PageRank personalizado con semillas derivadas de (I) y (II). Los resultados muestran que la selección de genes basada en aprendizaje automático supera a las demás estrategias en cuanto a precisión predictiva. No obstante, también evidencian que los métodos hı́bridos que integran conocimiento derivado del aprendizaje automático con contexto de red mejoran significativamente la interpretabilidad sin com- prometer el rendimiento predictivo, superando ası́ la principal limitación de los modelos puramente basados en datos: la falta de contexto biológico. Los resultados también demuestran que la integración de dianas farmacológicas con el contexto de red génica mejora el rendimiento predictivo en comparación con los enfoques basados únicamente en redes o exclusivamente en dianas, resolviendo las limitaciones predictivas que presentan estos contextos biológicos de forma aislada. En resumen, este trabajo propone un marco innovador para la selección de genes sig- nificativos en la predicción de la respuesta a fármacos, combinando modelos basados en datos con conocimiento biológico. Aporta una visión sobre el equilibrio entre pre- cisión predictiva y relevancia biológica en farmacogenómica, sugiriendo que las estrategias hı́bridas pueden ofrecer un equilibrio óptimo.
dc.description.abstract
In this thesis, we investigate and compare several feature selection strategies for predict- ing drug sensitivity in cancer monotherapy. We explore four distinct feature selection methods: (I) machine learning-based gene selection, using regularized linear regression models for purely data-driven features, (II) curated drug targets (from a set of 21 anti- cancer compounds studied), (III) genes prioritized by topological centrality measures in gene interaction networks, and (IV) an innovative hybrid approach that integrates machine learning-derived features with biological context using network propagation via Personalized PageRank (PPR) with seeds drawn from (I) and (II). Our primary aim is to balance predictive performance with biological interpretability. The results show that machine learning-based feature selection (I) achieves the highest predictive accuracy. However, hybrid methods (IV) demonstrate that integrating both ML-derived priors with network context significantly enhance interpretability without compromising predictive performance. These findings highlight that combining machine learning with network-based biology can overcome the main limitations of purely data- driven models, providing more robust and biologically meaningful predictive signatures. Furthermore, integrating curated drug targets with network context (IV) improves the predictive performance of using drug targets or network metrics alone, addressing the limited predictive power of each when used in isolation. Overall, this work presents a framework for integrating machine learning and biological knowledge in pharmacogenomics. It highlights the trade-offs between predictive accuracy and biological relevance, suggesting that hybrid strategies offer an optimal balance for drug sensitivity prediction, with strong future implications for precision oncology and personalized medicine.
dc.description.abstract
Outgoing
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
http://creativecommons.org/licenses/by-sa/4.0/
dc.rights
Attribution-ShareAlike 4.0 International
dc.subject
Àrees temàtiques de la UPC::Matemàtiques i estadística
dc.subject
Machine learning
dc.subject
Pharmacogenomics
dc.subject
precision oncology
dc.subject
machine learning
dc.subject
drug sensitivity prediction
dc.subject
interpretability
dc.subject
feature selection
dc.subject
biological networks
dc.subject
gene-gene interaction networks
dc.subject
Personalized PageRank
dc.subject
Aprenentatge automàtic
dc.subject
Classificació AMS::62 Statistics::62P Applications
dc.subject
Classificació AMS::68 Computer science::68T Artificial intelligence
dc.title
Gene-gene interaction network-guided feature selection for single drug response prediction: Integrating biological priors and data-driven signals through personalized propagation