Skip to content

Proyecto de ingeniería de datos aplicado en la nube de Microsoft Azure usando diferentes servicios con data de prueba

ValladaresC/ingenieria_ms_azure_data_prueba

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ingenieria_ms_azure_data_prueba

Resumen de servicios de Azure usados en la ejecución del proyecto:

image

Se realizó una ingesta de datos de prueba desde una base de datos Azure SQL hacia un Azure Data Lake Storage, automatizado mediante un pipeline realizado en Azure Data Factory y aplicando políticas de seguridad mediante Azure Key Vaults.

Los archivos migrados como .csv al Azure Data Lake Storage son cargados y procesados en Azure Databricks (Lakehouse) para posteriormente obtener un Dashboard (Lakeview) dentro de este último servicio.

Por último fue generado un notebook que es procesado mediante un pipeline de Databricks DataFlow y las conexiones establecidas con el Azure Data Lake Storage cumplen con políticas de seguridad con Azure Key Vault.

La siguiente imagen muestra el proceso o secuencia del proyecto mediante un índice de contenido:

image

Imagen 01. Servicios de Azure para el proyecto

Imagen 02. Creación de servidor SQL, azuresqlservercvalladares

Imagen 03. Creación de base de datos Azure SQL, databcvalladares

Imagen 04. Creación de tablas (Alumnos, Cursos y Notas) e inserción de datos

Note

EL código SQL para creación de tablas e inserción de datos se encuetran en el archivo insert_data_azure_sql.txt

Imagen 05 y 06. Seguridad establecida medienta key vaults para conexion con Azure SQL y ADLS

Imagen 07. Creación de linked services para key vault, azure sql y azure data lake storage (ADLS)

Imagen 08 y 09. Creación del dataset proveniente de la base de datos en Azure sql

Sin parámetros para que pueda recorrer todas las tablas de la base de datos.

Con parámetros para que obtenga los nombres de las tablas de la base de datos.

Imagen 10. Carga del dataset generado en ADLS

Imagen 11. Creación del pipeline, pip-sql-a-adls-csv

Explicación gráfica del pipeline en Azure Data Factory

Note

El linked service lksv_asql_01 tiene establecido la base de datos Azure SQL a la cual debe conectarse. Como opción, pudo haberse establecido como parámetro.

Imagen 12. Creación del Azure Data Lake Storage, adlseu2dsrpd01cv

Imagen 13 y 14. Creación del contenedor 'data' y directorio 'archivoscsv'

Imagen 15 y 16. Carga de los archivos .csv mediante ejecución del pipeline

Imagen 17 y 18. Creación del Databricks dataflow, pipeline-lakehouse-cv, para ejecutar el notebook Conect_Read_Load_ADLS_DBricks, que lleva los archivos .csv en el ADSL hacia Databricks

Note

El archivo Conect_Read_Load_ADLS_DBricks se encuentra en la carpeta Notebooks de este proyecto en dos versiones .dbc y .ipynb

Imagen 19 y 20. El pipeline incluye trigger y notificación mediante e-mail

Imagen 21. Creación del Cluster, carlos valladares's Cluster 14.3LTS

Imagen 22. Creación de la carpeta poryecto en Workspace y notebook Conect_Read_Load_ADLS_DBricks

Imagen 23. Ejecución del notebook mediante el pipeline (dataflow) y generación de tabla delta (delta_notas_estudiantes)

Imagen 24. Uso de tabla delta para generación del dashboard (lakeview)

Imagen 25. Generación de nuevo conjunto de datos con sql query (Total_Estudiantes) para conocer aprobados y reprobados en los diferentes cursos.

Imagen 26 y 27. Creación de KPI's. graficas y tablas para el Dashboard

About

Proyecto de ingeniería de datos aplicado en la nube de Microsoft Azure usando diferentes servicios con data de prueba

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Languages