# Projeto-ETL-CAT-INSS-
Projeto ETL realizado em dupla por Suzana Gomes e Vinicius Sodre durante o bootcamp de Engenharia de Dados da SoulCode Academy utilizando a base de dados de CAT, cadastradas no sistema informatizado de Comunicação de Acidentes do Trabalho do INSS (CATWEB) ou quando da concessão de benefício por incapacidade acidentário, observado o disposto no Decreto nº 8.777/16 e Lei de Acesso à Informação nº 12.527/2011.
Dando uma resumida, o projeto foi uma limpeza na base do governo do INSS de Comunicação de Acidente de Trabalho (CAT):
- Extração da base e carregamento do arquivo original no Google Cloud Storage (bucket) e MongoDB
- Tratamento através do Pandas, Numpy, Pyspark
- Análises do Pandas, Matplotlib , Pyspark e SparkSQL
- Carregamento dos dados tratados: Google Cloud Storage (bucket), MongoDB e MySQL do Google CloudSQL