Projeto_individual

Projeto individual do curso de Engenharia de Dados

📜Desafio

Nivel Infra

O Dataset deve ser salvo em ambiente cloud(Cloud Storage)
O arquivo original e tratado deve ser salvo em MongoDB Atlas em coleções diferentes
Os DataFrames devem ser obrigatoriamente salvos em uma bucket do CloudStorage

Nivel Pandas

O arquivo está em outra linguagem e deve ter seus dados traduzidos para Português-BR
Realizar a extração corretamente para um dataframe
Verificar a existência de dados inconsistentes e realizar a limpeza para NaN ou NA
Realizar o drop(se necessário) de colunas do dataframe realizando o comentário do porque da exclusão
Todos os passos devem ser comentados

Nivel PySpark (Funções básicas vistas em aula)

Deverá ser montada a estrutura do DataFrame utilizando o StructType.
Verificar a existência de dados inconsistentes, nulos e realizar a limpeza.
Verificar a necessidade de drop em colunas ou linhas. Caso seja necessário, fazer comentário do porque.
Realizar a mudança de nome de pelo menos 2 colunas
Deverá criar pelo menos duas novas colunas contendo alguma informação relevante sobre as outras colunas já existentes (Funções de Agrupamento, Agregação ou Joins). (Use a sua capacidade analítica)
Deverá utilizar filtros, ordenação e agrupamento, trazendo dados relevantes para o negócio em questão. (Use a sua capacidade analítica)
Utilizar pelo menos duas Window Functions

Nivel SparkSQL

Utilizar no minimo 5 consultas diferentes utilizando o SparkSQL, comentando o porquê de ter escolhido essas funções e explicando o que cada consulta faz.

Nível DataStudio

Construir um dashboard (maximo 1 pagina) para apresentação dos insights

Ferramentas

Colab ou Ides | Google Cloud | Data Studio

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
LICENSE		LICENSE
Projeto_individual_Lilia.ipynb		Projeto_individual_Lilia.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Projeto_individual

📜Desafio

Nivel Infra

Nivel Pandas

Nivel PySpark (Funções básicas vistas em aula)

Nivel SparkSQL

Nível DataStudio

Ferramentas

About

Uh oh!

Releases

Packages

Languages

License

liliabakker/Projeto_individual

Folders and files

Latest commit

History

Repository files navigation

Projeto_individual

📜Desafio

Nivel Infra

Nivel Pandas

Nivel PySpark (Funções básicas vistas em aula)

Nivel SparkSQL

Nível DataStudio

Ferramentas

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages