🧪 Pré-processamento de Dados: Normalização, Padronização e Codificação

Este repositório apresenta um roteiro prático para realizar normalizações, padronizações e codificações de variáveis em um conjunto de dados utilizando pandas e técnicas da biblioteca sklearn. O objetivo é preparar os dados para aplicações de machine learning ou análise estatística.

💡 Objetivo

O script é útil para entender e aplicar diferentes técnicas de transformação e codificação de dados, servindo como base para pipelines de data science e machine learning.

📂 Estrutura do Projeto

O código está organizado em duas partes principais:

Transformações em Variáveis Numéricas
- Normalização com MinMaxScaler: Escala os dados entre 0 e 1.
- Padronização com StandardScaler: Centraliza os dados em média 0 e desvio padrão 1.
- Padronização com RobustScaler: Utiliza a mediana e o IQR, sendo resistente a outliers.

Transformações estatísticas:

- Box-Cox: Aplica transformação estatística para normalizar a distribuição.

- Logarítmica: Reduz a assimetria em distribuições enviesadas.

Codificação de Variáveis Categóricas
- One-Hot Encoding: Gera colunas binárias para categorias (ex: estado_civil).
- Codificação Ordinal: Define ordem explícita entre categorias (ex: nível_educacao).
- Codificação com .cat.codes: Atribui um código numérico a cada categoria (ex: area_atuacao).
- LabelEncoder: Transforma rótulos em valores numéricos (ex: estado).
- Codificação de Frequência: Representa a frequência de ocorrência de uma categoria.

🛠️ Bibliotecas Utilizadas

pandas
numpy
scikit-learn
scipy.stats (para Box-Cox)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
RoteiroPadronizaçãoNormalizaçãoCodificacao.py		RoteiroPadronizaçãoNormalizaçãoCodificacao.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🧪 Pré-processamento de Dados: Normalização, Padronização e Codificação

💡 Objetivo

📂 Estrutura do Projeto

🛠️ Bibliotecas Utilizadas

About

Uh oh!

Releases

Packages

Languages

Larissalcl/Padroniza-o_Normaliza-o_Codifica-o_Python

Folders and files

Latest commit

History

Repository files navigation

🧪 Pré-processamento de Dados: Normalização, Padronização e Codificação

💡 Objetivo

📂 Estrutura do Projeto

🛠️ Bibliotecas Utilizadas

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages