Engenharia de dados: conhecendo Apache Airflow

Objetivo: extrair dados diretamente da API do Twitter

Fizemos a construção do data pipeline! Começamos com requisitos do projeto, em que deveríamos providenciar dados para o time de marketing e cientistas de dados referentes a dados do Twitter relacionados ao perfil da Alura Online. As ferramentas Apache que foram introduzidas neste curso, Airflow e Spark, são utilizadas na maioria das empresas ao redor do mundo.

Características do Airflow:

A arquitetura em medalhas, do inglês medallion, permite acesso flexível e processamento de dados extensíveis. As tabelas na camada bronze são usadas para ingestão de dados e permitem acesso rápido, sem a necessidade de modelagem a uma única fonte de dados. Conforme os dados fluem para as tabelas na camada Silver, ou prata, eles se tornam mais refinados e otimizados para a inteligência de negócio, ou BI, e ciência de dados, através de transformações.

As camadas Bronze e Silver agem como um ODS, ou seja, um banco de dados operacional, cujas tabelas permitem modificações ágeis para serem reproduzidas nas tabelas transformadas. Para análises profundas, se utiliza a camada Gold, ou ouro, e o usuário possui o poder de extrair conhecimento e formular pesquisas.

Dados na camada Gold:

Pensando no data lake como um lago que purifica a água para ser consumida por analistas em suas pesquisas de BI e cientistas de dados em seus algoritmos de Machine Learning, as tabelas na etapa Bronze recebem água constantemente e em grande quantidade, e então fica “suja”, com diferentes procedências. Esta água flui constantemente para a etapa Silver, juntando com águas que vieram de diferentes locais e começando a ser purificada, até que, como em um rio de águas cristalinas, é encontrada na camada Gold pronta para consumo.

Três Vs:

criando pasta do projeto e env

$ mkdir datapipeline
$ cd datapipeline
$ git clone https://github.com/DiegoBolonik/ApacheAirflow-AluraOnline.git
$ python -m venv .env

extrair arquivo dentro do pasta datapipeline

inciando a máquina virtual e instalando módulos

$ source .env/bin/activate
$ pip install -r requirements.txt

Colocando as variáveis de ambiente

$ export AIRFLOW_HOME=$(pwd)/airflow
$ export BEARER_TOKEN=****

Comandos de inicialização:

$ airflow initdb
$ airflow scheduler
$ Airflow webserver

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
airflow		airflow
datalake		datalake
spark		spark
README.md		README.md
Screenshot_20220619_113046.png		Screenshot_20220619_113046.png
Screenshot_20220619_113300.png		Screenshot_20220619_113300.png
airflow_caracteristics.png		airflow_caracteristics.png
data_lake_3vs.png		data_lake_3vs.png
recent_search.py		recent_search.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Engenharia de dados: conhecendo Apache Airflow

Dados na camada Gold:

Três Vs:

criando pasta do projeto e env

inciando a máquina virtual e instalando módulos

Colocando as variáveis de ambiente

Comandos de inicialização:

About

Uh oh!

Releases

Packages

Languages

DiegoBolonik/ApacheAirflow-AluraOnline

Folders and files

Latest commit

History

Repository files navigation

Engenharia de dados: conhecendo Apache Airflow

Dados na camada Gold:

Três Vs:

criando pasta do projeto e env

inciando a máquina virtual e instalando módulos

Colocando as variáveis de ambiente

Comandos de inicialização:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages