dc.contributor
Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa
dc.contributor
NTT Data Spain
dc.contributor
Martin, Oliver
dc.contributor.author
Perez Padilla, Victor
dc.date.accessioned
2025-12-20T13:59:42Z
dc.date.available
2025-12-20T13:59:42Z
dc.date.issued
2025-10-14
dc.identifier
https://hdl.handle.net/2117/449280
dc.identifier
PRISMA-198459
dc.identifier.uri
https://hdl.handle.net/2117/449280
dc.description.abstract
La Malaltia Renal Crònica (MRC) constitueix una càrrega creixent per a la salut global, la progressió de la qual està fortament influïda per comorbiditats, la polimedicació i l’exposició a fàrmacs nefrotòxics. Aquest projecte desenvolupa un marc integral que integra dades sanitàries observacionals a gran escala en un Data Lake, aplica una validació rigorosa de dades mitjançant la llibreria Great Expectations (GX) i construeix models predictius per a la progressió de la MRC. Pel que fa al modelatge, es va analitzar un estudi de cohort retrospectiu observacional de pacients sota polimedicació o exposats a fàrmacs nefrotòxics entre 2017 i 2024. Es van ajustar Models Lineals Mixtos (LMMs) i Models Additius Generalitzats Mixtos (GAMMs) a més de mig milió de registres longitudinals. Els LMMs van revelar una forta heterogeneïtat interindividual en les trajectòries de la taxa de filtració glomerular estimada (eGFR), mentre que els GAMMs van capturar efectes no lineals de biomarcadors i van assolir una major robustesa. Les mètriques de validació, incloent-hi el Kappa de Cohen, van confirmar una concordança substancial entre els estadis de MRC predits i observats, amb els GAMMs superant lleugerament els LMMs.
Aquest treball demostra que la combinació d’un pipeline validat de Data Lake amb models estadístics avançats proporciona un marc escalable i reproduïble per a l’analítica sanitària. Contribueix tant amb innovacions metodològiques en el control de qualitat de dades com amb models clínicament interpretables per al pronòstic de la MRC, obrint el camí cap a una atenció més personalitzada i basada en dades.
dc.description.abstract
La Enfermedad Renal Crónica (ERC) constituye una creciente carga sanitaria global cuya progresión está fuertemente influenciada por comorbilidades, la polimedicación y la exposición a fármacos nefrotóxicos. Este proyecto desarrolla un marco integral que integra datos sanitarios observacionales a gran escala en un Data Lake, aplica una rigurosa validación de datos mediante la librería Great Expectations (GX) y construye modelos predictivos para la progresión de la ERC. En el ámbito del modelado, se analizó un estudio de cohorte retrospectivo observacional de pacientes bajo polimedicación o expuestos a fármacos nefrotóxicos entre 2017 y 2024. Se ajustaron Modelos Lineales Mixtos (LMMs) y Modelos Aditivos Generalizados Mixtos (GAMMs) a más de medio millón de registros longitudinales. Los LMMs revelaron una fuerte heterogeneidad interindividual en las trayectorias de la tasa de filtrado glomerular estimada (eGFR), mientras que los GAMMs capturaron efectos no lineales de biomarcadores y alcanzaron mayor robustez. Las métricas de validación, incluyendo el Kappa de Cohen, confirmaron una concordancia sustancial entre los estadios de ERC predichos y observados, con los GAMMs superando ligeramente a los LMMs.
Este trabajo demuestra que la combinación de un pipeline validado de Data Lake con modelos estadísticos avanzados proporciona un marco escalable y reproducible para la analítica sanitaria. Contribuye tanto con innovaciones metodológicas en control de calidad de datos como con modelos clínicamente interpretables para el pronóstico de la ERC, allanando el camino hacia una atención más personalizada y basada en datos.
dc.description.abstract
Chronic Kidney Disease (CKD) is a growing global health burden whose progression is strongly influenced by comorbidities, polypharmacy, and exposure to nephrotoxic drugs. This project develops an end-to-end framework that integrates large-scale observational healthcare data into a Data Lake, applies rigorous data validation using the Great Expectations (GX) library and builds predictive models for CKD progression. The Data Lake follows a Medallion architecture aligned with the OMOP Common Data Model (CDM), ensuring semantic interoperability and scalability. The GX module, adapted from the OHDSI Data Quality Dashboard (DQD), was migrated to Python/SQL and PySpark, introducing novel functionalities such as record-level flagging and a unified JSON-based configuration. This implementation enabled comprehensive data validation across ETL layers, with more than 983 million records processed and over 94% passing established quality criteria. On the modelling side, an observational retrospective cohort study of patients under polypharmacy or exposed to nephrotoxic drugs between 2017 and 2024 was analysed. Linear Mixed Models (LMMs) and Generalised Additive Mixed Models (GAMMs) were fitted to more than half a million longitudinal records. LMMs revealed strong patient level heterogeneity in estimated glomerular filtration rate (eGFR) trajectories, while GAMMs captured non-linear biomarker effects and achieved higher robustness. Validation metrics, including Cohen’s Kappa, confirmed substantial agreement between predicted and observed CKD stages, with GAMMs slightly outperforming LMMs.
This work demonstrates that combining a validated Data Lake pipeline with advanced statistical models provides a scalable and reproducible framework for healthcare analytics. It contributes both methodological innovations for data quality assurance and clinically interpretable models for CKD prognosis, thereby paving the way toward more personalised and data-driven patient care.
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
Restricted access - confidentiality agreement
dc.subject
Àrees temàtiques de la UPC::Matemàtiques i estadística
dc.subject
Clinical epidemiology
dc.subject
Drug delivery systems
dc.subject
observational study
dc.subject
healthcare Data Lake
dc.subject
longitudinal modelling
dc.subject
personalised medicine.
dc.subject
Epidemiologia clínica
dc.subject
Medicaments -- Modes d'administració
dc.subject
Classificació AMS::62 Statistics::62P Applications
dc.subject
Classificació AMS::62 Statistics::62J Linear inference, regression
dc.title
Statistical Modelling for Healthcare