Projeto individual do curso de Engenharia de Dados
- O Dataset deve ser salvo em ambiente cloud(Cloud Storage)
- O arquivo original e tratado deve ser salvo em MongoDB Atlas em coleções diferentes
- Os DataFrames devem ser obrigatoriamente salvos em uma bucket do CloudStorage
- O arquivo está em outra linguagem e deve ter seus dados traduzidos para Português-BR
- Realizar a extração corretamente para um dataframe
- Verificar a existência de dados inconsistentes e realizar a limpeza para NaN ou NA
- Realizar o drop(se necessário) de colunas do dataframe realizando o comentário do porque da exclusão
- Todos os passos devem ser comentados
- Deverá ser montada a estrutura do DataFrame utilizando o StructType.
- Verificar a existência de dados inconsistentes, nulos e realizar a limpeza.
- Verificar a necessidade de drop em colunas ou linhas. Caso seja necessário, fazer comentário do porque.
- Realizar a mudança de nome de pelo menos 2 colunas
- Deverá criar pelo menos duas novas colunas contendo alguma informação relevante sobre as outras colunas já existentes (Funções de Agrupamento, Agregação ou Joins). (Use a sua capacidade analítica)
- Deverá utilizar filtros, ordenação e agrupamento, trazendo dados relevantes para o negócio em questão. (Use a sua capacidade analítica)
- Utilizar pelo menos duas Window Functions
- Utilizar no minimo 5 consultas diferentes utilizando o SparkSQL, comentando o porquê de ter escolhido essas funções e explicando o que cada consulta faz.
- Construir um dashboard (maximo 1 pagina) para apresentação dos insights
- Colab ou Ides | Google Cloud | Data Studio