Skip to content

pierrelouisbescond/datascience-initiation-student-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

31 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

student studying

Photo by Green Chameleon on Unsplash

datascience-initiation-student-dataset

Ce repository regroupe une série de notebooks destinés aux Data Scientists Juniors qui rejoignent l'équipe Data Science pour quelques jours.

Ils leur permettent de se plonger dans l'univers de la Data Science à travers un cas d'étude simple, inspiré du dataset (adapté) de l'University of California : ici.

Description des notebooks :

  • student-notebook-1-explore permet d'importer et d'explorer le jeu de données et de repérer certaines incohérences volontairement introduites dans les valeurs.
  • student-notebook-2-correct explique comment corriger les valeurs incohérentes. Ce notebook est complété par student-notebook-2-pandas-data-selection qui explique, avec un DataFrame simple, les sélections de données via Pandas.
  • student-notebook-3-transform explique pourquoi il est nécessaire de transformer certaines informations enregistrées sous formes de chaines de caractères (ex. "yes" / "no") en vecteurs de 0 et 1.
  • student-notebook-4-train détaille la création des jeux de données X_train, X_test, y_train et y_test ainsi que l'entrainement et l'évaluation du modèle.
  • student-notebook-5-aller_plus_loin montre l'impact sur la performance lorsque l'on supprime les prédicteurs G1 et G2 et quel score un modèle de type Gradient Boosted Trees peut atteindre avec le même jeu de données de départ.

Description des jeux de données :

  • student-0-original : jeu de données original tel que fourni par l'UCI.
  • student-1-start : jeu de données adapté (suppression de certaines colonnes et corruption de la colonne "age").

Le répertoire completed_notebooks contient le jumeau de chaque notebook avec le code complété ainsi que les jeux de données intermédiaires.

About

Une série de notebooks destinés à faire découvrir la Data Science (niveau 3ème)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published