dc.contributor
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.contributor
Casas Pla, Josep Ramon
dc.contributor
Vilaplana Besler, Verónica
dc.contributor.author
Caro Via, Valèria
dc.date.issued
2024-06-27
dc.identifier
https://hdl.handle.net/2117/416606
dc.description.abstract
El càncer de mama és una malaltia molt present en la societat arreu del món. Gràcies a nous avenços en medicina i tecnologia, cada vegada se'n pot fer un diagnòstic més precís i iniciar el tractament ràpidament, augmentant-ne la taxa de supervivència. DigiPatICS és un projecte nascut l'any 2020 a l'Institut Català de la Salut, per millorar la qualitat dels serveis d'atenció mèdica i augmentar el benestar de la població catalana. Un dels camps d'investigació de DigiPatICS és la detecció de càncer de mama en biòpsies d'Hematoxilina i Eosina mitjançant eines d'inteligència artificial, un dels motius pel quals la Universitat Politècnica de Catalunya forma part d'aquest projecte. Gràcies a l'ús de grans escàners, es poden obtenir Whole Slide Images d'aquestes mostres, de manera que es puguin utilitzar per entrenar models d'aprenentatge automàtic i, així, accelerar la detecció de zones tumorals en el teixit mamari. Aquest treball té com a objectiu identificar, comparar i seleccionar nous algoritmes per a la segmentació semàntica i la classificació del càncer de mama en imatges. L'objectiu és aportar millores a la pipeline del projecte DigiPatICS, utilitzant tècniques innovadores que maximitzin l'eficàcia de la detecció de regions tumorals. En particular, es busca aplicar algoritmes recents que tinguin un gran potencial, mantenint així les tècniques a l'avantguarda de la investigació mèdica. En aquest treball, s'estudien dues vies de detecció de càncer de mama: la segmentació semàntica i la classificació de patches. En el cas de la segmentació, s'entrena una U-Net amb una EfficientNet com a codificador, mentre que per a la classificació utilitzem el Vision Transformer UNI amb una MLP. A més, s'analitzen tots els passos de preprocessat de les dades d'entrada al model per tal d'optimitzar-ne els resultats, així com la visualització d'aquests. Els models s'han entrenat a partir d'una base de dades anotada amb WSI pròpies de l'Institut Català de la Salut, que s'està contruint avui en dia sota el marc del projecte DigiPatICS. En aquest treball, es descriu tot el procés de creació d'aquest dataset i la seva anotació. Els resultats obtinguts, tot i ser preliminars degut a la disponibilitat limitada de WSI fins el moment, són força prometedors; es pot observar una millora significativa respecte el model base de la pipeline inicial. En un futur, amb la base de dades completa, es podria continuar l'estudi per aconseguir un major aprenentatge dels models i els algoritmes seleccionats.
dc.description.abstract
Breast cancer is a disease highly prevalent in society worldwide. Thanks to new advances in medicine and technology, it is increasingly possible to make a more accurate diagnosis and initiate treatment quickly, thus increasing the survival rate. DigiPatICS is a project born in 2020 at the Catalan Health Institute, aimed at enhancing the quality of healthcare services and improving the well-being of the Catalan population. One of the research areas of DigiPatICS is the detection of breast cancer in Hematoxylin and Eosin-stained biopsies using artificial intelligence tools, which is one of the reasons why the Polytechnic University of Catalonia is involved in this project. With the use of large scanners, Whole Slide Images of these samples can be obtained, which can be used to train machine learning models and thereby accelerate the detection of tumor zones in breast tissue. This work aims to identify, compare, and select new algorithms for semantic segmentation and classification of breast cancer on images. The goal is to bring improvements to the DigiPatICS project's pipeline, using innovative techniques that maximize the effectiveness of tumor region detection. Specifically, the aim is to apply recent algo- rithms with high potential, keeping techniques at the forefront of medical research. This study investigates two approaches to breast cancer detection: semantic segmentation and patches classification. For segmentation, a U-Net with an EfficientNet encoder is trained, while for classification, the Vision Transformer UNI with an MLP is employed. Additionally, all preprocessing steps of input data to the model are analyzed to optimize results, along with their visualization. Models have been trained using a dataset annotated with WSI specific to the Catalan Health Institute, currently being developed under the DigiPatICS project framework. This work describes the entire process of creating this dataset and its annotation. The results obtained, though preliminary due to the limited availability of WSI until now, are quite promising; a significant improvement is observed compared to the baseline model of the initial pipeline. In the future, with a complete database, the study could be continued to achieve further learning from the selected models and algorithms.
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.subject
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic
dc.subject
Àrees temàtiques de la UPC::Informàtica::Informàtica teòrica::Algorísmica i teoria de la complexitat
dc.subject
Breast--Cancer
dc.subject
Machine learning
dc.subject
Càncer de mama
dc.subject
Whole Slide Images
dc.subject
Hematoxilina i Eosina
dc.subject
Segmentació semàntica
dc.subject
Classificació de patches
dc.subject
Hematoxylin and Eosin
dc.subject
Seman- tic segmentation
dc.subject
Patches classification
dc.subject
Aprenentatge automàtic
dc.title
Selection and integration of H&E algorithms in the DigiPatICS pipeline