sigmine‑rag‑insights automatiza a análise de processos minerários do SIGMINE.
Ele lê o shapefile completo, calcula áreas, prioriza os maiores processos e executa um fluxo RAG (Retrieval-Augmented Generation) que busca evidências na web e gera relatórios markdown e CSV — tudo pronto para jornalismo investigativo e fiscalização ambiental.
- Visão geral
- Instalação
- Estrutura de pastas
- Como usar
- Saídas geradas
- Notebook Colab
- Fontes de dados abertas
- Fluxo do processo
- Limitações & ética
- Créditos
Scripts apresentados no Domingo de Dados 2025 na atividade Investigando dados ambientais: compliance e anticorrupção, que apresentou o estudo "Dados Abertos e Combate a Crimes Ambientais" (Transparência Internacional Brasil, Abraji e ICV como autores)
Veja os slides da apresentação
E neste repositório dentro da pasta prompts_orientacoes existem dois documentos que oferecem, de forma integrada, um guia prático com 10 orientações e exemplos de investigações para jornalistas usarem dados ambientais abertos, além de um conjunto de prompts e boas práticas de IA (RAG, LLMs e Google Colab) que amplificam análises minerárias, fundiárias e de compliance, garantindo rigor metodológico, eficiência técnica e respeito ético.
Sobre o projeto
O SIGMINE, cadastro oficial da Agência Nacional de Mineração, lista 255 230 processos que cobrem cerca de 218 milhões de hectares em todo o Brasil (downloads feitos 1o. de julho de 2025).
Este repositório oferece:
- Geoprocessamento: reprojeta o shapefile (EPSG 5880), calcula área e seleciona os top‑10 processos por extensão.
- Busca contextual (RAG): consulta Google Custom Search (ou DuckDuckGo como fallback) com dorks temáticos, salva documentos no ChromaDB e usa Gemini 2.5 Pro via LangChain para resumir e citar fontes.
- Relatórios automáticos: gera um markdown (
relatorio_sigmine_contexto.md
) e dois CSV (analise_sigmine_resultados.csv
,descobertas_impactos_detalhadas.csv
).
Ideal para jornalistas, órgãos de controle, ONGs e pesquisadores que precisam identificar impactos socioambientais, titulares reincidentes e sobreposições críticas (TI, UC, CAR).
git clone https://github.com/<seu_usuario>/sigmine-rag-insights.git
cd sigmine-rag-insights
python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
Copie o shapefile SIGMINE (BRASIL.shp
e arquivos auxiliares) para data/BRASIL/
.
Crie um arquivo .env
com suas chaves (opcional):
GOOGLE_API_KEY=YOUR_API_KEY
GOOGLE_CSE_ID=YOUR_CSE_ID
Sem chaves, o script usa DuckDuckGo automaticamente.
sigmine-rag-insights/
│
├─ main.py # pipeline principal
├─ analisa_sigmine.ipynb # notebook Colab complementar
├─ requirements.txt
├─ data/
│ └─ BRASIL/BRASIL.shp # shapefile SIGMINE (baixar da ANM)
└─ output/ # relatórios e csvs gerados (criado em runtime)
python main.py
Variáveis no topo de main.py
permitem alterar o caminho do shapefile, a pasta de saída e o nome do relatório.
arquivo | descrição |
---|---|
relatorio_sigmine_contexto.md |
resumo dos 10 maiores processos, titulares e impactos citados |
analise_sigmine_resultados.csv |
métricas linha‑a‑linha por processo (área, # fontes, links) |
descobertas_impactos_detalhadas.csv |
todas as evidências coletadas com URL, trecho e query |
Abra analisa_sigmine.ipynb
no Google Colab para análises avançadas:
- Carrega todo o micro‑dado (255 230 processos).
- Oferece filtros dinâmicos por substância, status e UF.
- Demonstra estudo de caso 803.237/2022 com múltiplos responsáveis e 6 municípios afetados.
- Gera estatísticas: histogramas de área, top titulares, heatmap Brasil.
dataset | descrição | link |
---|---|---|
SIGMINE | Metadados e shapefile oficial de processos minerários ativos no Brasil | https://dados.gov.br/dados/conjuntos-dados/sistema-de-informacoes-geograficas-da-mineracao- |
Cadastro Mineiro (SCM) | Cadastro de requerentes e microdados detalhados dos processos | https://dados.gov.br/dados/conjuntos-dados/sistema-de-cadastro-mineiro |
Microdados SCM | Download direto dos microdados CSV | https://app.anm.gov.br/dadosabertos/SCM/microdados/ |
Municípios do Brasil – IBGE | Tabela CSV com IBGE ID, nome, UF e geocódigo de todos os municípios brasileiros | https://raw.githubusercontent.com/kelvins/municipios-brasileiros/master/csv/municipios.csv |
flowchart TD
A[Shapefile SIGMINE] -->|GeoPandas| B[Top‑10 processos]
B --> C[Google / DuckDuckGo]
C --> D[Documentos brutos]
D -->|Embeddings| E[ChromaDB]
E -->|Gemini 2.5 Pro| F[Resposta c/ fontes]
F --> G[Relatório MD & CSVs]
- Ausência de resultados na busca não significa falta de impacto — confirme em campo.
- A mensagem no relatório "Nenhum impacto socioambiental significativo foi identificado nas fontes consultadas" deve ser vista com cautela - o script atual considera apenas casos muito graves como significativo, mas isso precisa ser checado no CSV.
- Refaça as buscas você mesmo a partir do conteúdo da coluna "query_busca" do CSV para ter certeza se são relavantes ou não - cheque tudo!
- O resultado de uma busca na internet pode variar de acordo com dia, mês, ano, da busca.
- Cotas gratuitas da Google CSE são limitadas; ao estourá‑las, a qualidade de busca pode cair.
- Modelos generativos podem conter erros factuais; confirme URLs antes de publicar.
- Envolva comunidades afetadas antes de divulgar denúncias baseadas nesta ferramenta.
- Reinaldo Chaves – reichaves@gmail.com
- Dados SIGMINE – Agência Nacional de Mineração.
- Cadastro Mineiro SCM – ANM.
- Municípios IBGE – repositório kelvins/municipios-brasileiros.
- PRODES/DETER – INPE TerraBrasilis.
- README usa Shields.io e Mermaid nativo do GitHub.
“Dados públicos + IA == jornalismo ambiental mais poderoso.”
Contribuições são bem‑vindas!