Este trabalho foi desenvolvido como projeto para a disciplina de Aprendizado Supervisionado.
Os procedimentos realizados e os resultados obtidos estão bem documentados em report.pdf
.
Este relatório apresenta um estudo sobre a detecção de fraudes em transações financeiras utilizando duas abordagens principais: modelagem da distribuição dos dados de transações legais via uma distribuição Gaussiana multivariada e detecção de anomalias, e uma abordagem supervisionada baseada em regressão logı́stica. Avaliamos e comparamos as abordagens com base em métricas como AUC-ROC, AUC-PR, F1-score, precisão e recall, considerando também os impactos práticos da escolha de limiares de decisão.
O problema de detecção de fraudes é um desafio clássico de classificação binária com substancial desbalanceamento entre classes. Neste relatório, utilizamos um conjunto de dados contendo transações rotuladas como fraude e normal, com o objetivo de identificar transações fraudulentas com alta precisão e baixa taxa de falsos positivos. O conjunto de dados possui 29 features, 28 delas sendo confidenciais e obtidas a partir do PCA dos dados originais e uma última com o tamanho da transação, além da coluna de indicação da classe da transação.