Comparació de rendiment i costos entre Delta Lake i Snowflake

Other authors

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Puig Rabat, Jordi

Muñoz Medina, Olga

Publication date

2024-06-26

Abstract

Aquest treball presenta una comparació detallada entre les tecnologies Delta Lake i Snowflake per a l'anàlisi de dades emmagatzemades al núvol. Mitjançant l'ús del benchmark TPC-DS, s'avalua el rendiment de les dues plataformes en termes de velocitat de resposta, eficiència en la gestió de dades i capacitat per satisfer les necessitats analítiques empresarials. Les dades emmagatzemades a Azure Data Lake Storage (ADLS) s'integren tant amb Snowflake com amb Databricks, utilitzant tècniques específiques per a cada plataforma. Els experiments es basen en un conjunt de mètriques clau, com la mida de còmput, el temps d'execució i el cost, per avaluar el rendiment i els costos associats amb cada operació. A més, es prenen mesures per assegurar la comparabilitat dels clústers de computació entre les dues plataformes i s'evita l'ús de memòria cau per garantir la consistència dels resultats. L'anàlisi dels resultats permetrà arribar a una conclusió informada sobre les capacitats i limitacions de cada tecnologia per a l'anàlisi de dades empresarials.


This study provides an exhaustive comparison between Delta Lake and Snowflake technologies for cloud-based data analysis. Leveraging the TPC-DS benchmark, the performance of both platforms is evaluated across criteria such as response time, data management efficiency, and their suitability for fulfilling enterprise analytical requirements. The integration of data stored in Azure Data Lake Storage (ADLS) with Snowflake and Databricks is feasible by employing platform-specific techniques. Experiments are designed around key metrics, including compute size, execution duration, and cost, aiming to measure performance and associated expenses for each operation. Moreover, measures are applied to ensure the comparability of compute clusters between both platforms and avoid caching to guarantee result consistency. The analysis of findings will lead to a well-founded conclusion regarding the strengths and weaknesses of each technology for enterprise-grade data analysis.

Document Type

Bachelor thesis

Language

Catalan

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

Open Access

This item appears in the following Collection(s)