Altres autors/es

Universitat Politècnica de Catalunya. Departament de Matemàtiques

Massachusetts Institute of Technology

Uhler, Caroline

Data de publicació

2025-05-26



Resum

Iniciatives clíniques a gran escala com el "Human Phenotype Project" (Projecte del Fenotip Humà) recopilen de manera rutinària modalitats de dades complementàries (p. ex., electrocardiogrames i ARN-seq de sang completa) per a cada participant. Per tal d’obtenir una comprensió holística de la salut del pacient, cal una representació que integri les diferents modalitats. Els mètodes actuals d’aprenentatge de representacions multimodals sovint entrellacen la informació específica de cada modalitat amb la informació compartida, dificultant-ne la interpretabilitat biològica. Adaptem el marc APOLLO —un autoencoder amb un espai latent parcialment solapat après mitjançant optimització latent— a dues cohortes aparellades: (i) senyals d’ECG i comptatges d’ARN-seq, i (ii) ARN-seq aparellat amb 250 metabolits sèrics. APOLLO divideix les variables latents en un subespai compartit i dos subespais específics de cada modalitat, i s’entrena en dues etapes: una d’optimització latent i una d’ajust del codificador. Utilitzem aquest marc per desentrellar la informació entre aquestes cohortes i fem servir la representació resultant per dur a terme anàlisis posteriors ('downstream') dels pacients.


Iniciativas clínicas a gran escala como el "Human Phenotype Project" (Proyecto del Fenotipo Humano) recopilan rutinariamente modalidades de datos complementarias (p. ej., electrocardiogramas y ARN-seq de sangre completa) para cada participante. Para obtener una comprensión holística de la salud del paciente, se necesita una representación que integre las diferentes modalidades. Los métodos actuales de aprendizaje de representación multimodal a menudo entrelazan información específica de la modalidad e información compartida, dificultando la interpretabilidad biológica. Adaptamos el marco APOLLO —un autocodificador con un espacio latente parcialmente superpuesto aprendido mediante optimización latente— a dos cohortes emparejadas: (i) señales de ECG y recuentos de ARN-seq, y (ii) ARN-seq emparejado con 250 metabolitos séricos. APOLLO divide las variables latentes en un subespacio compartido y dos subespacios específicos de modalidad y se entrena en dos etapas de optimización latente y ajuste del codificador. Utilizamos este marco para desentrelazar la información entre esas cohortes y usamos la representación resultante para realizar análisis posteriores ('downstream') en los pacientes.


Large‑scale clinical initiatives such as the Human Phenotype Project routinely collect complementary data modalities (e.g. electrocardiograms and whole‑blood RNA‑seq) for each participant. To obtain an holistic understanding of the patient health, a representation that integrates the different modalities is needed. Current multi-modal representation‑learning methods often entangle modality‑specific and shared information, hampering biological interpretability. We adapt the APOLLO framework—an autoencoder with a partially overlapping latent space learned through latent optimization— to two paired cohorts: (i) ECG signals and RNA‑seq counts, and (ii) RNA‑seq paired with 250 serum metabolites. APOLLO splits the latent variables into one shared and two modality‑specific subspaces and is trained in two stages of latent optimization and encoder fitting. We use this framework to disentangle the information between the paired modalities on those cohorts and use the resulting representation to perform downstream analysis on the patients.


Outgoing

Tipus de document

Bachelor thesis

Llengua

Anglès

Publicat per

Universitat Politècnica de Catalunya

Citació recomanada

Aquesta citació s'ha generat automàticament.

Drets

http://creativecommons.org/licenses/by-nc-nd/4.0/

Open Access

Attribution-NonCommercial-NoDerivs 4.0 International

Aquest element apareix en la col·lecció o col·leccions següent(s)