ARANI (do tupi-guarani: proteção) é uma abordagem extensível baseada em Linha de Experimento para configurar, executar e avaliar fluxos de anonimização de dados em Data Lakes, com foco na conformidade com a LGPD e outras regulamentações de privacidade.
ARANI foi desenvolvida para permitir a publicação segura de dados sensíveis em Data Lakes por meio da combinação modular e reusável de técnicas de anonimização, como:
- k-Anonimato
- Privacidade Diferencial (ε, δ)
- Microagregação
- Adição de ruído
- Supressão e generalização
A ferramenta oferece métricas integradas de risco de privacidade e utilidade dos dados, permitindo avaliar o trade-off entre segurança e valor analítico.
- 📚 Registro e reuso de algoritmos de anonimização (scripts Python customizáveis)
- 🧪 Criação e instanciação de Linhas de Experimento
- 🔒 Cálculo de métricas de risco:
- Re-identification Risk (RID)
- Linkability Risk (RA)
- Inference Risk (RIF)
- 📊 Cálculo de utilidade dos dados pós-anonimização
- 🧠 Consolidação dos indicadores na Função Objetivo de Anonimização (FOA)
- 🗂️ Armazenamento seguro em formatos como
.csv
,.parquet
ou visões materializadas - ⚙️ Suporte a execução segura (ex.: via containers Docker)
A ARANI é composta por nove módulos principais, incluindo:
- Anotação dos atributos
- Banco de metadados de privacidade
- Catálogo e registro de algoritmos
- Instanciação e execução de fluxos de anonimização
- Publicação no Data Lake
- Banco de dados de proveniência para rastreabilidade
A ARANI foi validada com o dataset Adult (UCI), demonstrando:
- Boa escalabilidade com aumento de volume de dados
- Redução progressiva do risco com técnicas combinadas
- Preservação da utilidade dos dados
- Python 3.8+
- PostgreSQL (para metadados e proveniência)
- Anonymeter
- Docker (opcional, para execução segura dos algoritmos)
# Clonar o repositório
git clone https://github.com/SEU_USUARIO/arani.git
cd arani
# Instalar dependências
pip install -r requirements.txt
# Configurar o ambiente (variáveis, banco e algoritmos)
python setup.py