Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Delgado Pin, Jordi
2025-07-01
El propósito de este Trabajo de Fin de Grado es explorar, experimentar y desarrollar un sistema automatizado que utilice técnicas de aprendizaje profundo para clasificar imágenes histológicas de linfoma en tres subtipos: CLL, FL y MCL. Esta clasificación tiene un alto valor clínico, ya que puede facilitar un diagnóstico más rápido y preciso, apoyando así a los especialistas médicos en la toma de decisiones. Para ello se utilizó el conjunto de datos "Malignant Lymphoma Classification" disponible en Kaggle, compuesto por un total de 374 imágenes distribuidas entre las tres clases. Dado el tamaño reducido del dataset, se aplicaron diversas técnicas de data augmentation para enriquecer los datos y mejorar la capacidad de generalización del modelo. Las imágenes, originalmente en formato .tif, fueron convertidas a .png, redimensionadas a 224x224 píxeles y normalizadas. Posteriormente, se dividieron de forma estratificada en subconjuntos de entrenamiento, validación y prueba (80%-10%-10%). Se experimentó con múltiples arquitecturas de redes neuronales convolucionales preentrenadas, concretamente InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2 y VGG16, utilizando la técnica de transfer learning en dos fases: feature extraction y fine tuning. Durante el entrenamiento, se aplicaron técnicas de optimización como el algoritmo Adam y data augmentation. El rendimiento de cada modelo fue evaluado utilizando métricas como la precisión, el informe de clasificación, la matriz de confusión y las curvas ROC multiclase. Los resultados obtenidos muestran un alto nivel de precisión tanto en los datos de validación como en los de prueba, lo que indica que el modelo funciona bien incluso con imágenes que no ha visto antes. El análisis del rendimiento por clase demuestra que el sistema identifica de forma equilibrada los tres tipos de linfoma, logrando un buen compromiso entre detectar correctamente los casos y evitar errores. En conclusión, este TFG demuestra que es factible aplicar técnicas de deep learning al ámbito médico con recursos moderados y un enfoque sostenible. La solución propuesta puede constituir un valioso apoyo al diagnóstico clínico, reduciendo la carga de trabajo de los profesionales y mejorando la precisión en la detección de linfomas. El proyecto también refleja un aprendizaje profundo en términos técnicos y éticos, con una clara conciencia de sus implicaciones económicas, sociales y medioambientales. Todo el código fuente desarrollado para este proyecto se encuentra disponible públicamente en mi repositorio de GitHub.
The purpose of this Final Degree Project is to explore, experiment with, and develop an automated system that uses deep learning techniques to classify histological lymphoma images into three subtypes: CLL, FL, and MCL. This classification has high clinical value, as it can enable faster and more accurate diagnoses, thus supporting medical specialists in decision-making. For this purpose, the "Malignant Lymphoma Classification" dataset available on Kaggle was used, consisting of a total of 374 images distributed across the three classes. Given the small size of the dataset, various data augmentation techniques were applied to enrich the data and improve the model's generalization capability. The images, originally in .tif format, were converted to .png, resized to 224x224 pixels, and normalized. They were then split in a stratified manner into training, validation, and test subsets (80%-10%-10%). Multiple pre-trained convolutional neural network architectures were tested, specifically InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2, and VGG16, using transfer learning in two phases: feature extraction and fine-tuning. During training, optimization techniques such as the Adam algorithm and data augmentation were applied. The performance of each model was evaluated using metrics such as accuracy, classification report, confusion matrix, and multiclass performance indicators. The results show a high level of accuracy on both validation and test data, indicating that the model performs well even with previously unseen images. Class-specific analysis demonstrates that the system reliably distinguishes between the three lymphoma subtypes, achieving a good balance between correctly identifying cases and minimizing errors. In conclusion, this project demonstrates the feasibility of applying deep learning techniques to the medical field with moderate resources and a sustainable approach. The proposed solution can be a valuable support tool in clinical diagnosis, reducing the workload of healthcare professionals and improving the accuracy of lymphoma detection. The project also reflects deep learning in both the technical and ethical sense, with clear awareness of its economic, social, and environmental implications. All source code developed for this project is publicly available in my GitHub repository.
L’objectiu d’aquest Treball de Fi de Grau és explorar, experimentar i desenvolupar un sistema automatitzat que utilitzi tècniques d’aprenentatge profund per classificar imatges histològiques de limfoma en tres subtipus: CLL, FL i MCL. Aquesta classificació té un alt valor clínic, ja que pot facilitar un diagnòstic més ràpid i precís, donant suport als especialistes mèdics en la presa de decisions. Per a això s’ha utilitzat el conjunt de dades “Malignant Lymphoma Classification” disponible a Kaggle, compost per un total de 374 imatges distribuïdes entre les tres classes. Donada la mida reduïda del conjunt de dades, s’han aplicat diverses tècniques d’augment de dades per enriquir la informació disponible i millorar la capacitat de generalització del model. Les imatges, originalment en format .tif, es van convertir a .png, redimensionar a 224x224 píxels i normalitzar. Posteriorment, es van dividir de manera estratificada en subconjunts d’entrenament, validació i prova (80%-10%-10%). S’ha experimentat amb múltiples arquitectures de xarxes neuronals convolucionals preentrenades, concretament InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2 i VGG16, utilitzant la tècnica d’aprenentatge per transferència en dues fases: extracció de característiques i ajust fi (fine tuning). Durant l’entrenament, s’han aplicat tècniques d’optimització com l’algorisme Adam i augment de dades. El rendiment de cada model s’ha avaluat amb mètriques com la precisió, l’informe de classificació, la matriu de confusió i indicadors de rendiment per classe. Els resultats obtinguts mostren un alt nivell de precisió tant en les dades de validació com en les de prova, cosa que indica que el model funciona bé fins i tot amb imatges que no ha vist abans. L’anàlisi per classes demostra que el sistema identifica de forma equilibrada els tres tipus de limfoma, assolint un bon compromís entre la detecció correcta dels casos i la minimització d’errors. En conclusió, aquest TFG demostra que és factible aplicar tècniques d’aprenentatge profund en l’àmbit mèdic amb recursos moderats i un enfocament sostenible. La solució proposada pot constituir un suport valuós per al diagnòstic clínic, reduint la càrrega de treball dels professionals sanitaris i millorant la precisió en la detecció de limfomes. El projecte també reflecteix un aprenentatge profund tant en l’àmbit tècnic com ètic, amb una clara consciència de les seves implicacions econòmiques, socials i ambientals. Tot el codi font desenvolupat per a aquest projecte està disponible públicament al meu repositori de GitHub [56].
Bachelor thesis
Spanish
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic; Deep learning (Machine learning); Histology, Pathological; Computer vision; Aprenentatge profund; Xarxes neuronals convolucionals; Classificació d'imatges; Diagnòstic mèdic assistit; Limfoma; Imatges histològiques; Transferència d'aprenentatge; Augment de dades; Intel·ligència artificial; Diagnòstic automatitzat; Processament d'imatges mèdiques; Classificació multiclasse; Eficiència computacional; Desenvolupament sostenible; Ciència de dades mèdiques; Deep learning; Convolutional neural networks; Image classification; Computer-aided diagnosis; Lymphoma; Histological images; Transfer learning; Data augmentation; Artificial intelligence; Automated diagnosis; Medical image processing; Multiclass classification; Computational efficiency; Sustainable development; Medical data science; Aprenentatge profund (Aprenentatge automàtic); Histopatologia; Visió per ordinador
Universitat Politècnica de Catalunya
Open Access
Treballs acadèmics [82485]