Diagnóstico automatizado de linfomas malignos en biopsias H&E mediante aprendizaje automático

dc.contributor
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.contributor
Delgado Pin, Jordi
dc.contributor.author
Choudhry, Aftab Ahmed
dc.date.accessioned
2025-12-11T21:13:29Z
dc.date.available
2025-12-11T21:13:29Z
dc.date.issued
2025-07-01
dc.identifier
https://hdl.handle.net/2117/448835
dc.identifier
199301
dc.identifier.uri
https://hdl.handle.net/2117/448835
dc.description.abstract
El propósito de este Trabajo de Fin de Grado es explorar, experimentar y desarrollar un sistema automatizado que utilice técnicas de aprendizaje profundo para clasificar imágenes histológicas de linfoma en tres subtipos: CLL, FL y MCL. Esta clasificación tiene un alto valor clínico, ya que puede facilitar un diagnóstico más rápido y preciso, apoyando así a los especialistas médicos en la toma de decisiones. Para ello se utilizó el conjunto de datos "Malignant Lymphoma Classification" disponible en Kaggle, compuesto por un total de 374 imágenes distribuidas entre las tres clases. Dado el tamaño reducido del dataset, se aplicaron diversas técnicas de data augmentation para enriquecer los datos y mejorar la capacidad de generalización del modelo. Las imágenes, originalmente en formato .tif, fueron convertidas a .png, redimensionadas a 224x224 píxeles y normalizadas. Posteriormente, se dividieron de forma estratificada en subconjuntos de entrenamiento, validación y prueba (80%-10%-10%). Se experimentó con múltiples arquitecturas de redes neuronales convolucionales preentrenadas, concretamente InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2 y VGG16, utilizando la técnica de transfer learning en dos fases: feature extraction y fine tuning. Durante el entrenamiento, se aplicaron técnicas de optimización como el algoritmo Adam y data augmentation. El rendimiento de cada modelo fue evaluado utilizando métricas como la precisión, el informe de clasificación, la matriz de confusión y las curvas ROC multiclase. Los resultados obtenidos muestran un alto nivel de precisión tanto en los datos de validación como en los de prueba, lo que indica que el modelo funciona bien incluso con imágenes que no ha visto antes. El análisis del rendimiento por clase demuestra que el sistema identifica de forma equilibrada los tres tipos de linfoma, logrando un buen compromiso entre detectar correctamente los casos y evitar errores. En conclusión, este TFG demuestra que es factible aplicar técnicas de deep learning al ámbito médico con recursos moderados y un enfoque sostenible. La solución propuesta puede constituir un valioso apoyo al diagnóstico clínico, reduciendo la carga de trabajo de los profesionales y mejorando la precisión en la detección de linfomas. El proyecto también refleja un aprendizaje profundo en términos técnicos y éticos, con una clara conciencia de sus implicaciones económicas, sociales y medioambientales. Todo el código fuente desarrollado para este proyecto se encuentra disponible públicamente en mi repositorio de GitHub.
dc.description.abstract
The purpose of this Final Degree Project is to explore, experiment with, and develop an automated system that uses deep learning techniques to classify histological lymphoma images into three subtypes: CLL, FL, and MCL. This classification has high clinical value, as it can enable faster and more accurate diagnoses, thus supporting medical specialists in decision-making. For this purpose, the "Malignant Lymphoma Classification" dataset available on Kaggle was used, consisting of a total of 374 images distributed across the three classes. Given the small size of the dataset, various data augmentation techniques were applied to enrich the data and improve the model's generalization capability. The images, originally in .tif format, were converted to .png, resized to 224x224 pixels, and normalized. They were then split in a stratified manner into training, validation, and test subsets (80%-10%-10%). Multiple pre-trained convolutional neural network architectures were tested, specifically InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2, and VGG16, using transfer learning in two phases: feature extraction and fine-tuning. During training, optimization techniques such as the Adam algorithm and data augmentation were applied. The performance of each model was evaluated using metrics such as accuracy, classification report, confusion matrix, and multiclass performance indicators. The results show a high level of accuracy on both validation and test data, indicating that the model performs well even with previously unseen images. Class-specific analysis demonstrates that the system reliably distinguishes between the three lymphoma subtypes, achieving a good balance between correctly identifying cases and minimizing errors. In conclusion, this project demonstrates the feasibility of applying deep learning techniques to the medical field with moderate resources and a sustainable approach. The proposed solution can be a valuable support tool in clinical diagnosis, reducing the workload of healthcare professionals and improving the accuracy of lymphoma detection. The project also reflects deep learning in both the technical and ethical sense, with clear awareness of its economic, social, and environmental implications. All source code developed for this project is publicly available in my GitHub repository.
dc.description.abstract
L’objectiu d’aquest Treball de Fi de Grau és explorar, experimentar i desenvolupar un sistema automatitzat que utilitzi tècniques d’aprenentatge profund per classificar imatges histològiques de limfoma en tres subtipus: CLL, FL i MCL. Aquesta classificació té un alt valor clínic, ja que pot facilitar un diagnòstic més ràpid i precís, donant suport als especialistes mèdics en la presa de decisions. Per a això s’ha utilitzat el conjunt de dades “Malignant Lymphoma Classification” disponible a Kaggle, compost per un total de 374 imatges distribuïdes entre les tres classes. Donada la mida reduïda del conjunt de dades, s’han aplicat diverses tècniques d’augment de dades per enriquir la informació disponible i millorar la capacitat de generalització del model. Les imatges, originalment en format .tif, es van convertir a .png, redimensionar a 224x224 píxels i normalitzar. Posteriorment, es van dividir de manera estratificada en subconjunts d’entrenament, validació i prova (80%-10%-10%). S’ha experimentat amb múltiples arquitectures de xarxes neuronals convolucionals preentrenades, concretament InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2 i VGG16, utilitzant la tècnica d’aprenentatge per transferència en dues fases: extracció de característiques i ajust fi (fine tuning). Durant l’entrenament, s’han aplicat tècniques d’optimització com l’algorisme Adam i augment de dades. El rendiment de cada model s’ha avaluat amb mètriques com la precisió, l’informe de classificació, la matriu de confusió i indicadors de rendiment per classe. Els resultats obtinguts mostren un alt nivell de precisió tant en les dades de validació com en les de prova, cosa que indica que el model funciona bé fins i tot amb imatges que no ha vist abans. L’anàlisi per classes demostra que el sistema identifica de forma equilibrada els tres tipus de limfoma, assolint un bon compromís entre la detecció correcta dels casos i la minimització d’errors. En conclusió, aquest TFG demostra que és factible aplicar tècniques d’aprenentatge profund en l’àmbit mèdic amb recursos moderats i un enfocament sostenible. La solució proposada pot constituir un suport valuós per al diagnòstic clínic, reduint la càrrega de treball dels professionals sanitaris i millorant la precisió en la detecció de limfomes. El projecte també reflecteix un aprenentatge profund tant en l’àmbit tècnic com ètic, amb una clara consciència de les seves implicacions econòmiques, socials i ambientals. Tot el codi font desenvolupat per a aquest projecte està disponible públicament al meu repositori de GitHub [56].
dc.format
application/pdf
dc.language
spa
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
Open Access
dc.subject
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic
dc.subject
Deep learning (Machine learning)
dc.subject
Histology, Pathological
dc.subject
Computer vision
dc.subject
Aprenentatge profund
dc.subject
Xarxes neuronals convolucionals
dc.subject
Classificació d'imatges
dc.subject
Diagnòstic mèdic assistit
dc.subject
Limfoma
dc.subject
Imatges histològiques
dc.subject
Transferència d'aprenentatge
dc.subject
Augment de dades
dc.subject
Intel·ligència artificial
dc.subject
Diagnòstic automatitzat
dc.subject
Processament d'imatges mèdiques
dc.subject
Classificació multiclasse
dc.subject
Eficiència computacional
dc.subject
Desenvolupament sostenible
dc.subject
Ciència de dades mèdiques
dc.subject
Deep learning
dc.subject
Convolutional neural networks
dc.subject
Image classification
dc.subject
Computer-aided diagnosis
dc.subject
Lymphoma
dc.subject
Histological images
dc.subject
Transfer learning
dc.subject
Data augmentation
dc.subject
Artificial intelligence
dc.subject
Automated diagnosis
dc.subject
Medical image processing
dc.subject
Multiclass classification
dc.subject
Computational efficiency
dc.subject
Sustainable development
dc.subject
Medical data science
dc.subject
Aprenentatge profund (Aprenentatge automàtic)
dc.subject
Histopatologia
dc.subject
Visió per ordinador
dc.title
Diagnóstico automatizado de linfomas malignos en biopsias H&E mediante aprendizaje automático
dc.type
Bachelor thesis


Ficheros en el ítem

FicherosTamañoFormatoVer

No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)