ML Olympiad - Toxic Language (PTBR) Detection

Competição do Kaggle para Classificação Binária entre tweets Tóxicos e Não Tóxicos em Português Brasileiro

https://www.kaggle.com/competitions/ml-olympiad-toxic-language-ptbr-detection/overview

Meu intuito ao entrar no desafio era exercitar na prática, em um cenário real, como utilizar uma rede neural para problemas de Classificação de texto.

Ao longo do desenvolvimento da solução utilizei conceitos e libs já conhecidas para tratamento de texto como remoção de stop words, correção ortográfica, tokenização, stemming e vetorizacão.

Desses destaco a biblioteca Symspell para a correção de palavras por funcionar através de Symmetric spelling correction que conheci através do artigo A quick overview of the implementation of a fast spelling correction algorithm por precisar de uma biblioteca que fizesse a correção ortográfica rapidamente.

Neste notebook, além do código, descrevi as etapas de desenvolvimento do modelo que separei nos tópicos abaixo.

Índice

ML Olympiad - Toxic Language (PTBR) Detection
Tratamento dos Dados
1. Dicionário para tratar "expressões de internet"
2. Definição do Corpus para Correção das Palavras
3. Correção de Palavras
  1. Exceções
  2. Funções para Tratamento
Visualização dos Dados
1. Word Cloud
2. Quantidade de Palavras x Aparições na Base
Treino e Validação do Modelo
1. Rede Neural
2. Regressão Logística
Aplicação do Modelo
1. Tratamento dos dados submetidos para a Competição
2. Predição

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README.md		README.md
Toxic_Language_PTBR_Classification.ipynb		Toxic_Language_PTBR_Classification.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ML Olympiad - Toxic Language (PTBR) Detection

Índice

About

Uh oh!

Releases

Packages

Languages

thiagot35/Toxic_Language_PTBR_Classification

Folders and files

Latest commit

History

Repository files navigation

ML Olympiad - Toxic Language (PTBR) Detection

Índice

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages