🏗️ Data Lake Analytics Pipeline

Un pipeline de análisis de datos transaccionales escalable en AWS que permite procesamiento eficiente, validación de calidad y carga en un entorno analítico centralizado.

🚀 Resumen del Proyecto

Objetivo: Optimizar el procesamiento y análisis de datos transaccionales a gran escala.

Problema: Procesos ineficientes para manejar grandes volúmenes de datos, con alta latencia y sin control de calidad.

Solución: Un pipeline serverless utilizando AWS Glue, S3 y Redshift que:

Reduce el tiempo de procesamiento en un 70%
Habilita análisis casi en tiempo real
Escala automáticamente con el volumen de datos

🛠️ Stack Tecnológico

Servicio / Tecnología	Función
Amazon S3	Almacenamiento de datos crudos y curados
AWS Glue	Crawler + ETL PySpark jobs
Apache Spark	Transformación distribuida de datos
Amazon Redshift	Almacén analítico
AWS Lambda	Automatización del pipeline (opcional)
EventBridge	Orquestación serverless (opcional)
Amazon QuickSight	Visualización de datos

🔁 Flujo del Pipeline

Ingesta: Archivos CSV/JSON son subidos a un bucket S3 (raw).
Catálogo: Un crawler de Glue identifica el esquema y lo registra en el Glue Data Catalog.
Transformación ETL:
- Limpieza y transformación de datos con PySpark en AWS Glue
- Conversión a formato Parquet
- Validaciones de calidad de datos
Carga: Datos curados son almacenados en otro bucket S3 y luego cargados en Redshift.
Visualización: Dashboards interactivos son generados desde Redshift.

🧪 Validaciones de Calidad de Datos

Eliminación de registros con campos nulos críticos
Reglas aplicadas:
- amount > 0
- payment_method IN [‘credit’, ‘debit’, ‘cash’]
- date IS NOT NULL
Registros fallidos se almacenan en un bucket de errores

📈 Resultados Clave

Métrica	Antes	Después
Tiempo de procesamiento	~2 hrs	30 min
Calidad de datos	Baja	Alta (validada)
Acceso a reportes	Manual	Automatizado y centralizado

🧰 Cómo Reproducir (Simulación o Demo)

Crear buckets S3: raw/, curated/, logs/
Subir un dataset de prueba (data/)
Configurar Glue Crawler para detectar esquema
Ejecutar Glue Job con PySpark (glue_jobs/etl_job.py)
Crear una tabla en Redshift y cargar los datos desde S3
Conectar Redshift a QuickSight o Tableau

🧠 Próximos Pasos

Añadir API REST para ingestión en tiempo real (AWS API Gateway + Lambda)
Integrar validación con Deequ o Great Expectations
Configurar alertas automáticas con Amazon CloudWatch

👩‍💻 Autora

Rocío Baigorria
Data Scientist & AWS Solutions Architect
Especializada en soluciones cloud escalables, pipelines analíticos y machine learning.
🔗 LinkedIn

📜 Licencia

MIT License – uso libre con atribución.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
data		data
glue_jobs		glue_jobs
lambda_functions		lambda_functions
README.md		README.md
diagram.png		diagram.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🏗️ Data Lake Analytics Pipeline

🚀 Resumen del Proyecto

🛠️ Stack Tecnológico

🔁 Flujo del Pipeline

🧪 Validaciones de Calidad de Datos

📈 Resultados Clave

🧰 Cómo Reproducir (Simulación o Demo)

🧠 Próximos Pasos

👩‍💻 Autora

📜 Licencia

About

Uh oh!

Releases

Packages

Languages

tuni56/datalake-analytics-pipeline

Folders and files

Latest commit

History

Repository files navigation

🏗️ Data Lake Analytics Pipeline

🚀 Resumen del Proyecto

🛠️ Stack Tecnológico

🔁 Flujo del Pipeline

🧪 Validaciones de Calidad de Datos

📈 Resultados Clave

🧰 Cómo Reproducir (Simulación o Demo)

🧠 Próximos Pasos

👩‍💻 Autora

📜 Licencia

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages