Skip to content

curso-r/202105-faxina

Repository files navigation

Imagem de Allison Horst.

Imagem de Allison Horst.

Quando trabalhamos com dados tidy (arrumados), podemos utilizar as mesmas ferramentas, de formas similares, em bases de dados diferentes…

… porém, quando trabalhamos com bases de dados untidy (desarrumadas), muitas vezes precisamos reinventar a roda: desenvolvemos uma solução que muitas vezes é difícil de iterar ou reutilizar.

– (tradução livre, thanks to Beatriz Milz)

Informações importantes

Dúvidas

Fora do horário de aula ou monitoria:

  • perguntas gerais sobre o curso deverão ser feitas no Classroom.

  • perguntas sobre R, principalmente as que envolverem código, deverão ser enviadas no nosso fórum.

Slides

slide link pdf
slides/01-introducao-ao-curso.html https://curso-r.github.io/main-faxina/slides/01-introducao-ao-curso.html https://curso-r.github.io/main-faxina/slides/01-introducao-ao-curso.pdf
slides/02-introducao-faxina.html https://curso-r.github.io/main-faxina/slides/02-introducao-faxina.html https://curso-r.github.io/main-faxina/slides/02-introducao-faxina.pdf
slides/03-integracao.html https://curso-r.github.io/main-faxina/slides/03-integracao.html https://curso-r.github.io/main-faxina/slides/03-integracao.pdf

Scripts utilizados em aula

Aqui colocamos scripts utilizados em aula que são novos ou que são versões modificadas do material básico da aula.

script link
01-exemplo_ssp_micro.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/01-exemplo_ssp_micro.R
02-consultoria.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/02-consultoria.R
03-funcoes.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/03-funcoes.R
04-pdf-pdftools.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/04-pdf-pdftools.R
05-pdf-tabulizer.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/05-pdf-tabulizer.R
06-lista-json.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/06-lista-json.R
07-lista-xml.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/07-lista-xml.R
08-consultoria-continuacao.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/08-consultoria-continuacao.R
09-csv-comparacoes.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/09-csv-comparacoes.R
10-dados-grandes-rfb.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/10-dados-grandes-rfb.R
11-case-rfb-sindec.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/11-case-rfb-sindec.R
12-case-rfb-sindec-dash.Rmd https://curso-r.github.io/202105-faxina/exemplos_de_aula/12-case-rfb-sindec-dash.Rmd
xx-exemplos-adicionais.R https://curso-r.github.io/202105-faxina/exemplos_de_aula/xx-exemplos-adicionais.R

Lição de casa

nome link
exercicios/01-exercicio.R https://curso-r.github.io/main-faxina/exercicios/01-exercicio.R
exercicios/02-exercicio.R https://curso-r.github.io/main-faxina/exercicios/02-exercicio.R
exercicios/03-exercicio.R https://curso-r.github.io/main-faxina/exercicios/03-exercicio.R

Trabalho final

O trabalho final consiste em construir um projeto em R que utiliza os conceitos que aprendemos no curso, partindo de uma base de dados untidy como entrada e apresentando um (ou mais) scripts que a entrada em uma base tidy.

Com o objetivo de tornar o trabalho mais divertido e útil para a comunidade, de preferência, use uma base de dados que esteja pública (que possa ser acessada por qualquer pessoa, sem restrição). Você pode, por exemplo, escolher uma fonte de dados que você tem interesse em trabalhar. Se não tiver ideia do que escolher, seguem algumas sugestões:

O que devo entregar?

Uma pasta contendo três itens:

  • A base de dados em formato bruto OU um script de acesso a essa base, fazendo um download por exemplo. Esse segundo caso só deve ser usado caso a base que você pretenda utilizar ultrapasse 50 MB. Caso você queira usar uma base maior, pedimos que ela 1 GB.

  • Um ou mais scripts R que transformem a sua base bruta e untidy em uma (ou mais) base(s) tidy. O(s) seu(s) script(s) deve(m) necessariamente:

    • Ler os dados brutos;
    • Manipular uma coluna do tipo texto;
    • Salvar uma base de dados ao final do script que esteja no formato tidy “aumentado” que apresentamos no começo do curso, no formato .rds.
  • Um arquivo Rmarkdown (.Rmd) contendo uma descrição do que foi feito e uma análise simples da base tidy (por exemplo, um gráfico). Não faça a leitura dos arquivos brutos nesse documento.

    • Obs: Se você não se sentir confortável com o formato RMarkdown, pode mandar um arquivo .docx (editado no Microsoft Word), um arquivo .txt, ou comentários (bem detalhados) nos script(s) .R enviado(s).

O que é importante conter na descrição do que foi feito?

  • Uma introdução, que consiste num texto descrevendo o que o seu código fará, respondendo no mínimo três perguntas: Por que a base pode ser considerada untidy? Como você organizou os seus arquivos pra transforma-la em uma base tidy? Que tipo de análise a sua base tidy possibilita?

A entrega pode ser feita anexando a pasta .zip, ou então enviando um link da pasta no Google Drive (atenção: permita que qualquer pessoa possa ler os arquivos).

As pessoas que fizerem os três trabalhos mais legais receberão bolsas da Curso-R!

Observação: Caso você entregue o trabalho, entendemos que concorda em apresentar um link para o seu trabalho na página do curso. Caso você não se sinta confortável com essa possibilidade, pedimos que nos avise no momento da entrega através dos comentários.

A data limite de entrega é 24/06/2021, às 23:59. Os resultados serão avaliados até o dia 25/07/2021.

Trabalhos finais premiados

(em breve)

Material extra

Referências extras comentadas nas aulas.

Aula Tema Descrição
0 organizacao Pacote targets para organização de projetos
0 organizacao Livro sobre pacote targets
0 organizacao Pacote drake (que foi substituído pelo targets)
0 janitor Pacote janitor no livro da curso-r
1 organizacao Slides de pacotes
1 organizacao Livro Zen do R
1 organizacao Livro R Packages
1 leitura Tentar achar o encoding
1 exemplo Exemplo de pacote
1 leitura Artigo do Hadley sobre Tidy Data
2 exemplo Exemplo de pacote com automação
2 organizacao Exemplo de documentação de dados
2 leitura Como instalar o rJava
3 organizacao Parse de datas
3 Bases grandes Pacote disk.frame
3 Bases grandes Pacote arrow
3 Bases grandes Pacote rsqlite
3 Bases grandes Pacote dbplyr
3 Bases grandes Pacote dtplyr
3 Bases grandes Pacote bigrquery
3 Bases grandes Post: Como acessar a base de dados de CNPJ da receita federal
3 Bases grandes Base dos dados
3 Bases grandes Video do Base dos dados: Aprenda a acessar dados públicos em R
3 outros Live da Curso-R - Novo pipe |>
3 outros Pacote stringdist

Dados

nome link
BasedeDadosInfopenJunhode2020.xlsx https://curso-r.github.io/202105-faxina/dados/BasedeDadosInfopenJunhode2020.xlsx
case/atendimento_uf.rds https://curso-r.github.io/202105-faxina/dados/case/atendimento_uf.rds
case/contagem_sexo_faixa.rds https://curso-r.github.io/202105-faxina/dados/case/contagem_sexo_faixa.rds
case/contagem_tema.rds https://curso-r.github.io/202105-faxina/dados/case/contagem_tema.rds
case/da_sindec_empresas_arrumado.rds https://curso-r.github.io/202105-faxina/dados/case/da_sindec_empresas_arrumado.rds
case/dados_rfb.rds https://curso-r.github.io/202105-faxina/dados/case/dados_rfb.rds
case/map_uf.rds https://curso-r.github.io/202105-faxina/dados/case/map_uf.rds
case/tab_nat.rds https://curso-r.github.io/202105-faxina/dados/case/tab_nat.rds
crf2019-dados-abertos/CRF2019 Dados Abertos.csv https://curso-r.github.io/202105-faxina/dados/crf2019-dados-abertos/CRF2019%20Dados%20Abertos.csv
csv_dados_qsa_cnpj_23-11-20/cnpj_dados_cadastrais_pj.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/cnpj_dados_cadastrais_pj.csv
csv_dados_qsa_cnpj_23-11-20/cnpj_dados_cnae_secundario.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/cnpj_dados_cnae_secundario.csv
csv_dados_qsa_cnpj_23-11-20/cnpj_dados_socios_pj.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/cnpj_dados_socios_pj.csv
csv_dados_qsa_cnpj_23-11-20/tab_cnae.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/tab_cnae.csv
csv_dados_qsa_cnpj_23-11-20/tab_cnpj_entes_publicos.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/tab_cnpj_entes_publicos.csv
csv_dados_qsa_cnpj_23-11-20/tab_codigo_municipios_siafi.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/tab_codigo_municipios_siafi.csv
csv_dados_qsa_cnpj_23-11-20/tab_natureza_juridica.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/tab_natureza_juridica.csv
csv_dados_qsa_cnpj_23-11-20/tab_qualificacao_responsavel_socio.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/tab_qualificacao_responsavel_socio.csv
csv_dados_qsa_cnpj_23-11-20/tab_situacao_cadastral.csv https://curso-r.github.io/202105-faxina/dados/csv_dados_qsa_cnpj_23-11-20/tab_situacao_cadastral.csv
dados_consultoria.xlsx https://curso-r.github.io/202105-faxina/dados/dados_consultoria.xlsx
dados_rfb_small.csv https://curso-r.github.io/202105-faxina/dados/dados_rfb_small.csv
DadosBO_2021_3(ROUBO DE CELULAR).xls https://curso-r.github.io/202105-faxina/dados/DadosBO_2021_3(ROUBO%20DE%20CELULAR).xls
DadosBO_2021_3(ROUBO DE VEÍCULOS))_completa.xls https://curso-r.github.io/202105-faxina/dados/DadosBO_2021_3(ROUBO%20DE%20VE%CDCULOS))_completa.xls
DadosBO_2021_3(ROUBO DE VEÍCULOS).xls https://curso-r.github.io/202105-faxina/dados/DadosBO_2021_3(ROUBO%20DE%20VE%CDCULOS).xls
ReporteReimpresion-Mayo.csv https://curso-r.github.io/202105-faxina/dados/ReporteReimpresion-Mayo.csv

Redes sociais da Curso-R

Instagram: https://www.instagram.com/cursoo_r/

Twitter: https://twitter.com/curso_r

Youtube: https://www.youtube.com/c/CursoR6/featured

Linkedin: https://www.linkedin.com/company/curso-r/

Facebook: https://www.facebook.com/cursodeR

About

Repositório da turma de 5 de 2021 do curso Faxina de dados.

Topics

Resources

Stars

Watchers

Forks

Contributors 2

  •  
  •  

Languages