Sistema ETL automatizado y escalable en la nube

Ingeniería de Datos: Estrategias Modernas y Aplicaciones Prácticas

dc.contributor
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
dc.contributor
Marín Tordera, Eva
dc.contributor.author
Mayor Cebrian, Alejandro
dc.date.issued
2025-05-30
dc.identifier
https://hdl.handle.net/2117/431574
dc.identifier
PRISMA-193150
dc.description.abstract
Títol alternatiu emprat a la intranet docent de l'EPSEVG: "Ingeniería de Datos: Estrategias Modernas y Aplicaciones Prácticas"
dc.description.abstract
Este Trabajo de Fin de Grado presenta el diseño e implementación de un sistema ETL (Extract, Transform, Load) automatizado y escalable en la nube, orientado a la integración eficiente de datos meteorológicos y de consumo a partir de APIs externas. Aprovechando los servicios de la plataforma Microsoft Azure, como Azure Data Factory, Azure Storage, Azure Databricks, Azure Functions y Power BI, se ha desarrollado una arquitectura modular que automatiza el flujo de datos desde su origen hasta su visualización final. La solución planteada aborda retos comunes en entornos tradicionales on-premise, como la escalabilidad limitada, la rigidez operativa y el alto coste de mantenimiento, proponiendo como alternativa una infraestructura cloud que favorece la elasticidad, la eficiencia económica y la gobernanza de datos. Se ha utilizado .NET C# para la conexión segura con APIs, Scala con Apache Spark en Databricks para el procesamiento distribuido, y Power BI para la explotación analítica. Desde el punto de vista metodológico, se ha seguido un enfoque iterativo de desarrollo ágil con validación progresiva por capas: entorno local, entorno cloud aislado y entorno productivo completo. Las pruebas realizadas permiten evidenciar un sistema funcional y eficiente, con métricas de rendimiento que superan las soluciones tradicionales. Se identifican además cuellos de botella derivados del uso de archivos pequeños y del modelo de inserción SQL, proponiendo soluciones como la consolidación de archivos, el uso de punteros con Autoloader y una mejor orquestación centralizada con ADF. El trabajo también recoge propuestas para optimizar costes, como el uso de instancias específicas (B-series o Dv5) según el tipo de carga, y considera aspectos de sostenibilidad y gobernanza, incluyendo la preparación para el cumplimiento del RGPD en proyectos que incorporen datos sensibles. A nivel académico, este TFG aplica conocimientos adquiridos en asignaturas como Fundamentos de la Informática (FUIN), Arquitectura y Desarrollo de Software (ADSO) y Bases de Datos (DABD), reflejando una sólida base en cloud, ETL y modelado de datos. En conclusión, el proyecto no solo valida la viabilidad técnica de una solución ETL moderna, sino que también evidencia el cambio de paradigma hacia arquitecturas cloud, destacando su impacto positivo en eficiencia, automatización, gobernanza y sostenibilidad. Este TFG constituye una base sólida para futuras extensiones como flujos de streaming, aprendizaje automático o ampliaciones multi-API.
dc.description.abstract
This Final Degree Project presents the design and implementation of an automated and scalable cloud-based ETL (Extract, Transform, Load) system for the efficient integration of meteorological and consumption data from external APIs. Leveraging Microsoft Azure platform services such as Azure Data Factory, Azure Storage, Azure Databricks, Azure Functions, and Power BI, a modular architecture was developed that automates the data flow from source to final visualization. The proposed solution addresses common challenges in traditional on-premise environments, such as limited scalability, operational rigidity, and high maintenance costs, proposing a cloud infrastructure that favors elasticity, economic efficiency, and data governance. .NET C# was used for secure connection to APIs, Scala with Apache Spark in Databricks for distributed processing, and Power BI for analytical exploitation. From a methodological perspective, an iterative agile development approach was followed with progressive layered validation: local environment, isolated cloud environment, and full production environment. The tests conducted demonstrate a functional and efficient system, with performance metrics that outperform traditional solutions. Bottlenecks derived from the use of small files and the SQL insertion model were also identified, proposing solutions such as file consolidation, the use of pointers with Autoloader, and improved centralized orchestration with ADF. The work also includes proposals for cost optimization, such as the use of specific instances (B-series or Dv5) depending on the load type, and considers sustainability and governance aspects, including preparation for GDPR compliance in projects that incorporate sensitive data. At an academic level, this final project applies knowledge acquired in subjects such as Computer Science Fundamentals (FUIN), Software Architecture and Development (ADSO), and Databases (DABD), reflecting a solid foundation in cloud, ETL, and data modeling. In conclusion, the project not only validates the technical feasibility of a modern ETL solution but also demonstrates the paradigm shift toward cloud architectures, highlighting their positive impact on efficiency, automation, governance, and sustainability. This TFG provides a solid foundation for future extensions such as streaming, machine learning, or multi-API extensions.
dc.format
application/pdf
dc.format
application/pdf
dc.format
application/zip
dc.language
spa
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
Open Access
dc.subject
Àrees temàtiques de la UPC::Informàtica::Sistemes d'informació
dc.subject
Cloud computing
dc.subject
ETL
dc.subject
Orquestración
dc.subject
Data factory
dc.subject
Databricks
dc.subject
Automatización
dc.subject
Escalabilidad
dc.subject
Monitorización
dc.subject
API
dc.subject
Data lake
dc.subject
Cloud computing
dc.subject
Computació en núvol
dc.title
Sistema ETL automatizado y escalable en la nube
dc.title
Ingeniería de Datos: Estrategias Modernas y Aplicaciones Prácticas
dc.type
Bachelor thesis


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)