Diagnóstico automatizado de linfomas malignos en biopsias H&E mediante aprendizaje automático

Choudhry, Aftab Ahmed

Diagnóstico automatizado de linfomas malignos en biopsias H&E mediante aprendizaje automático

dc.contributor

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

dc.contributor

Delgado Pin, Jordi

dc.contributor.author

Choudhry, Aftab Ahmed

dc.date.accessioned

2025-12-11T21:13:29Z

dc.date.available

2025-12-11T21:13:29Z

dc.date.issued

2025-07-01

dc.identifier

https://hdl.handle.net/2117/448835

dc.identifier

199301

dc.identifier.uri

https://hdl.handle.net/2117/448835

dc.description.abstract

El propósito de este Trabajo de Fin de Grado es explorar, experimentar y desarrollar un sistema automatizado que utilice técnicas de aprendizaje profundo para clasificar imágenes histológicas de linfoma en tres subtipos: CLL, FL y MCL. Esta clasificación tiene un alto valor clínico, ya que puede facilitar un diagnóstico más rápido y preciso, apoyando así a los especialistas médicos en la toma de decisiones. Para ello se utilizó el conjunto de datos "Malignant Lymphoma Classification" disponible en Kaggle, compuesto por un total de 374 imágenes distribuidas entre las tres clases. Dado el tamaño reducido del dataset, se aplicaron diversas técnicas de data augmentation para enriquecer los datos y mejorar la capacidad de generalización del modelo. Las imágenes, originalmente en formato .tif, fueron convertidas a .png, redimensionadas a 224x224 píxeles y normalizadas. Posteriormente, se dividieron de forma estratificada en subconjuntos de entrenamiento, validación y prueba (80%-10%-10%). Se experimentó con múltiples arquitecturas de redes neuronales convolucionales preentrenadas, concretamente InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2 y VGG16, utilizando la técnica de transfer learning en dos fases: feature extraction y fine tuning. Durante el entrenamiento, se aplicaron técnicas de optimización como el algoritmo Adam y data augmentation. El rendimiento de cada modelo fue evaluado utilizando métricas como la precisión, el informe de clasificación, la matriz de confusión y las curvas ROC multiclase. Los resultados obtenidos muestran un alto nivel de precisión tanto en los datos de validación como en los de prueba, lo que indica que el modelo funciona bien incluso con imágenes que no ha visto antes. El análisis del rendimiento por clase demuestra que el sistema identifica de forma equilibrada los tres tipos de linfoma, logrando un buen compromiso entre detectar correctamente los casos y evitar errores. En conclusión, este TFG demuestra que es factible aplicar técnicas de deep learning al ámbito médico con recursos moderados y un enfoque sostenible. La solución propuesta puede constituir un valioso apoyo al diagnóstico clínico, reduciendo la carga de trabajo de los profesionales y mejorando la precisión en la detección de linfomas. El proyecto también refleja un aprendizaje profundo en términos técnicos y éticos, con una clara conciencia de sus implicaciones económicas, sociales y medioambientales. Todo el código fuente desarrollado para este proyecto se encuentra disponible públicamente en mi repositorio de GitHub.

dc.description.abstract

The purpose of this Final Degree Project is to explore, experiment with, and develop an automated system that uses deep learning techniques to classify histological lymphoma images into three subtypes: CLL, FL, and MCL. This classification has high clinical value, as it can enable faster and more accurate diagnoses, thus supporting medical specialists in decision-making. For this purpose, the "Malignant Lymphoma Classification" dataset available on Kaggle was used, consisting of a total of 374 images distributed across the three classes. Given the small size of the dataset, various data augmentation techniques were applied to enrich the data and improve the model's generalization capability. The images, originally in .tif format, were converted to .png, resized to 224x224 pixels, and normalized. They were then split in a stratified manner into training, validation, and test subsets (80%-10%-10%). Multiple pre-trained convolutional neural network architectures were tested, specifically InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2, and VGG16, using transfer learning in two phases: feature extraction and fine-tuning. During training, optimization techniques such as the Adam algorithm and data augmentation were applied. The performance of each model was evaluated using metrics such as accuracy, classification report, confusion matrix, and multiclass performance indicators. The results show a high level of accuracy on both validation and test data, indicating that the model performs well even with previously unseen images. Class-specific analysis demonstrates that the system reliably distinguishes between the three lymphoma subtypes, achieving a good balance between correctly identifying cases and minimizing errors. In conclusion, this project demonstrates the feasibility of applying deep learning techniques to the medical field with moderate resources and a sustainable approach. The proposed solution can be a valuable support tool in clinical diagnosis, reducing the workload of healthcare professionals and improving the accuracy of lymphoma detection. The project also reflects deep learning in both the technical and ethical sense, with clear awareness of its economic, social, and environmental implications. All source code developed for this project is publicly available in my GitHub repository.

dc.description.abstract

L’objectiu d’aquest Treball de Fi de Grau és explorar, experimentar i desenvolupar un sistema automatitzat que utilitzi tècniques d’aprenentatge profund per classificar imatges histològiques de limfoma en tres subtipus: CLL, FL i MCL. Aquesta classificació té un alt valor clínic, ja que pot facilitar un diagnòstic més ràpid i precís, donant suport als especialistes mèdics en la presa de decisions. Per a això s’ha utilitzat el conjunt de dades “Malignant Lymphoma Classification” disponible a Kaggle, compost per un total de 374 imatges distribuïdes entre les tres classes. Donada la mida reduïda del conjunt de dades, s’han aplicat diverses tècniques d’augment de dades per enriquir la informació disponible i millorar la capacitat de generalització del model. Les imatges, originalment en format .tif, es van convertir a .png, redimensionar a 224x224 píxels i normalitzar. Posteriorment, es van dividir de manera estratificada en subconjunts d’entrenament, validació i prova (80%-10%-10%). S’ha experimentat amb múltiples arquitectures de xarxes neuronals convolucionals preentrenades, concretament InceptionV3, MobileNetV2, DenseNet201, EfficientNetV2B0, ResNet50V2 i VGG16, utilitzant la tècnica d’aprenentatge per transferència en dues fases: extracció de característiques i ajust fi (fine tuning). Durant l’entrenament, s’han aplicat tècniques d’optimització com l’algorisme Adam i augment de dades. El rendiment de cada model s’ha avaluat amb mètriques com la precisió, l’informe de classificació, la matriu de confusió i indicadors de rendiment per classe. Els resultats obtinguts mostren un alt nivell de precisió tant en les dades de validació com en les de prova, cosa que indica que el model funciona bé fins i tot amb imatges que no ha vist abans. L’anàlisi per classes demostra que el sistema identifica de forma equilibrada els tres tipus de limfoma, assolint un bon compromís entre la detecció correcta dels casos i la minimització d’errors. En conclusió, aquest TFG demostra que és factible aplicar tècniques d’aprenentatge profund en l’àmbit mèdic amb recursos moderats i un enfocament sostenible. La solució proposada pot constituir un suport valuós per al diagnòstic clínic, reduint la càrrega de treball dels professionals sanitaris i millorant la precisió en la detecció de limfomes. El projecte també reflecteix un aprenentatge profund tant en l’àmbit tècnic com ètic, amb una clara consciència de les seves implicacions econòmiques, socials i ambientals. Tot el codi font desenvolupat per a aquest projecte està disponible públicament al meu repositori de GitHub [56].

dc.format

application/pdf

dc.language

spa

dc.publisher

Universitat Politècnica de Catalunya

dc.rights

Open Access

dc.subject

Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic

dc.subject

Deep learning (Machine learning)

dc.subject

Histology, Pathological

dc.subject

Computer vision

dc.subject

Aprenentatge profund

dc.subject

Xarxes neuronals convolucionals

dc.subject

Classificació d'imatges

dc.subject

Diagnòstic mèdic assistit

dc.subject

Limfoma

dc.subject

Imatges histològiques

dc.subject

Transferència d'aprenentatge

dc.subject

Augment de dades

dc.subject

Intel·ligència artificial

dc.subject

Diagnòstic automatitzat

dc.subject

Processament d'imatges mèdiques

dc.subject

Classificació multiclasse

dc.subject

Eficiència computacional

dc.subject

Desenvolupament sostenible

dc.subject

Ciència de dades mèdiques

dc.subject

Deep learning

dc.subject

Convolutional neural networks

dc.subject

Image classification

dc.subject

Computer-aided diagnosis

dc.subject

Lymphoma

dc.subject

Histological images

dc.subject

Transfer learning

dc.subject

Data augmentation

dc.subject

Artificial intelligence

dc.subject

Automated diagnosis

dc.subject

Medical image processing

dc.subject

Multiclass classification

dc.subject

Computational efficiency

dc.subject

Sustainable development

dc.subject

Medical data science

dc.subject

Aprenentatge profund (Aprenentatge automàtic)

dc.subject

Histopatologia

dc.subject

Visió per ordinador

dc.title

Diagnóstico automatizado de linfomas malignos en biopsias H&E mediante aprendizaje automático

dc.type

Bachelor thesis

Ficheros en el ítem

Ficheros	Tamaño	Formato	Ver
No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Treballs acadèmics [82549]