Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Casas Pla, Josep Ramon
Vilaplana Besler, Verónica
2024-06-27
El càncer de mama és una malaltia molt present en la societat arreu del món. Gràcies a nous avenços en medicina i tecnologia, cada vegada se'n pot fer un diagnòstic més precís i iniciar el tractament ràpidament, augmentant-ne la taxa de supervivència. DigiPatICS és un projecte nascut l'any 2020 a l'Institut Català de la Salut, per millorar la qualitat dels serveis d'atenció mèdica i augmentar el benestar de la població catalana. Un dels camps d'investigació de DigiPatICS és la detecció de càncer de mama en biòpsies d'Hematoxilina i Eosina mitjançant eines d'inteligència artificial, un dels motius pel quals la Universitat Politècnica de Catalunya forma part d'aquest projecte. Gràcies a l'ús de grans escàners, es poden obtenir Whole Slide Images d'aquestes mostres, de manera que es puguin utilitzar per entrenar models d'aprenentatge automàtic i, així, accelerar la detecció de zones tumorals en el teixit mamari. Aquest treball té com a objectiu identificar, comparar i seleccionar nous algoritmes per a la segmentació semàntica i la classificació del càncer de mama en imatges. L'objectiu és aportar millores a la pipeline del projecte DigiPatICS, utilitzant tècniques innovadores que maximitzin l'eficàcia de la detecció de regions tumorals. En particular, es busca aplicar algoritmes recents que tinguin un gran potencial, mantenint així les tècniques a l'avantguarda de la investigació mèdica. En aquest treball, s'estudien dues vies de detecció de càncer de mama: la segmentació semàntica i la classificació de patches. En el cas de la segmentació, s'entrena una U-Net amb una EfficientNet com a codificador, mentre que per a la classificació utilitzem el Vision Transformer UNI amb una MLP. A més, s'analitzen tots els passos de preprocessat de les dades d'entrada al model per tal d'optimitzar-ne els resultats, així com la visualització d'aquests. Els models s'han entrenat a partir d'una base de dades anotada amb WSI pròpies de l'Institut Català de la Salut, que s'està contruint avui en dia sota el marc del projecte DigiPatICS. En aquest treball, es descriu tot el procés de creació d'aquest dataset i la seva anotació. Els resultats obtinguts, tot i ser preliminars degut a la disponibilitat limitada de WSI fins el moment, són força prometedors; es pot observar una millora significativa respecte el model base de la pipeline inicial. En un futur, amb la base de dades completa, es podria continuar l'estudi per aconseguir un major aprenentatge dels models i els algoritmes seleccionats.
Breast cancer is a disease highly prevalent in society worldwide. Thanks to new advances in medicine and technology, it is increasingly possible to make a more accurate diagnosis and initiate treatment quickly, thus increasing the survival rate. DigiPatICS is a project born in 2020 at the Catalan Health Institute, aimed at enhancing the quality of healthcare services and improving the well-being of the Catalan population. One of the research areas of DigiPatICS is the detection of breast cancer in Hematoxylin and Eosin-stained biopsies using artificial intelligence tools, which is one of the reasons why the Polytechnic University of Catalonia is involved in this project. With the use of large scanners, Whole Slide Images of these samples can be obtained, which can be used to train machine learning models and thereby accelerate the detection of tumor zones in breast tissue. This work aims to identify, compare, and select new algorithms for semantic segmentation and classification of breast cancer on images. The goal is to bring improvements to the DigiPatICS project's pipeline, using innovative techniques that maximize the effectiveness of tumor region detection. Specifically, the aim is to apply recent algo- rithms with high potential, keeping techniques at the forefront of medical research. This study investigates two approaches to breast cancer detection: semantic segmentation and patches classification. For segmentation, a U-Net with an EfficientNet encoder is trained, while for classification, the Vision Transformer UNI with an MLP is employed. Additionally, all preprocessing steps of input data to the model are analyzed to optimize results, along with their visualization. Models have been trained using a dataset annotated with WSI specific to the Catalan Health Institute, currently being developed under the DigiPatICS project framework. This work describes the entire process of creating this dataset and its annotation. The results obtained, though preliminary due to the limited availability of WSI until now, are quite promising; a significant improvement is observed compared to the baseline model of the initial pipeline. In the future, with a complete database, the study could be continued to achieve further learning from the selected models and algorithms.
Bachelor thesis
Catalan
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic; Àrees temàtiques de la UPC::Informàtica::Informàtica teòrica::Algorísmica i teoria de la complexitat; Breast--Cancer; Biopsy; Machine learning; Càncer de mama; Whole Slide Images; Hematoxilina i Eosina; Segmentació semàntica; Classificació de patches; Breast cancer; Hematoxylin and Eosin; Seman- tic segmentation; Patches classification; Mama--Càncer; Biòpsia; Aprenentatge automàtic
Universitat Politècnica de Catalunya
Open Access
Treballs acadèmics [82541]