Olá! Eu sou a Débora, e este é a minha pipeline de dados para o desafio técnico da Localiza.
Utilizei as bibliotecas pandas
e numpy
. A pipeline não faz uma análise tão profunda do dataset, mas tem o necessário para a preparação dos dados para gerar as duas tabelas solicitadas.
clean_dataframe()
-> Remove dados duplicados e substitui dados inconsistente por NaN
set_datatype()
-> Define o tipo de dado correto em cada coluna
input_median()
-> Substitui valores nulos pela média
-
location_per_riskscore()
-> Gera uma tabela com a média derisk_score
porlocation_region
-
address_bigger_sales()
-> Gera uma tabela com 3receiving_address
cujas vendas (transaction_type
==sale
) tiveram maioramount
recentemente (>timestamp
)
A aplicação está em um container, então com Docker instalado e rodando em sua máquina, você deve executar o código:
docker build -t localizalab .
- Para realizar os testes unitários nas funções, basta executar o código dentro da pasta
testes
:
pytest test_main.py