Neste projeto estou colocando dados num modelo de Machine Learning pra ver se ele é capaz de prever o tipo de tinto que é a saída (tinto ou branco).
Logo abaixo eu explico um passo a passo que eu segui...:
Antes de começar qualquer projeto é necessário, sempre, se questionar "qual resposta está buscando?". Com Machine Learning não é diferente, saber seu objetivo é o primeiro passo para começar este trabalho.
Após sua visualização de objetivo, precisamos pegar os dados que nos foram fornecidos e tratá-los de forma que consigamos trabalhar nele sem variáveis vazias, erradas, sem padrão... dentre outros problemas que podemos encontrar no nosso banco de dados. Após isso, estamos prontos pra realmente trabalhar com as ferramentas de Machine Learning.
Seguindo com o projeto, devemos escolher um modelo que será utilizado para trabalhar, isso já vai depender do seu contexto e o tipo de Aprendizado de Máquina que deverá ser utilizado, como Supervisionado, Não Supervisionado, ou por Reforço.
Reparta os dados que serão utilizados para treino e para teste. É bom, estudar bem essa parte para evitar casos de Overfitting e Underfitting.
Com seu modelo rodando bem, podemos pensar em formas de aperfeiçoá-lo ou até mesmo testar outro modelo. E é nisso que se resume a útima etapa do projeto, entretanto é bom se atentar em como o algoritmo se porta em cada aperfeiçoamento, se o esforço acaba aumentando demais para pouco valor de retorno, então é sinal de que você não deve mais mexer neste projeto em questão até segunda ordem.
Overfitting: quando o modelo "memoriza" os dados de treinamento muito bem, mas não consegue generalizar para novos dados. É como se o modelo tivesse decorado as respostas ao invés de aprender as regras subjacentes. Isso leva a um bom desempenho nos dados de treinamento, mas a um mau desempenho nos dados de teste.
Underfitting: quando o modelo é muito simples e não consegue capturar as relações complexas nos dados. Isso leva a um mau desempenho tanto nos dados de treinamento quanto nos dados de teste.
Fontes: