Skip to content

Commit 90ef8c4

Browse files
committed
Grammar and translation corrections
1 parent 45ff78d commit 90ef8c4

2 files changed

+22
-22
lines changed

Lesson 1-2-2 Programmatic data wrangling with Python and Pandas.ipynb

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -27,7 +27,7 @@
2727
"\n",
2828
"### Setting up your development environment, and installing third-party packages\n",
2929
"\n",
30-
"Python is a programming language. At its core are the functions and definitions you learned in Lesson 1.2.1. However, Python is also a community of passionate developers - just like you - who each bring to the programming language their particular interest. It could be solving complex maths, or drawing striking charts and visualisations, creating computer games, or even working with structured data. When they do this, they create new functions which they can package up as libraries to be used by others. The Pyton community has produced tens of thousands of these packages, and we're going to install some of them now.\n",
30+
"Python is a programming language. At its core are the functions and definitions you learned in Lesson 1.2.1. However, Python is also a community of passionate developers - just like you - who each bring to the programming language their particular interest. It could be solving complex maths, or drawing striking charts and visualisations, creating computer games, or even working with structured data. When they do this, they create new functions which they can package up as libraries to be used by others. The Python community has produced tens of thousands of these packages, and we're going to install some of them now.\n",
3131
"\n",
3232
"If you haven't already, start your Anaconda Navigator: \n",
3333
"\n",
@@ -469,7 +469,7 @@
469469
"cell_type": "markdown",
470470
"metadata": {},
471471
"source": [
472-
"Well, that's a problem, but then - if you remember the original tutorial - the header row isn't in the first row, it's actually in the third. Let's reimport our file and make sure we ignore the first two rows:"
472+
"Well, that's a problem, but then - if you remember the original tutorial - the header row isn't in the first row, it's actually in the fourth. Let's reimport our file and make sure we ignore the first two rows:"
473473
]
474474
},
475475
{

Leçon 1-2-2 Les querelles de données programmatiques avec Python et Pandas.ipynb renamed to Leçon 1-2-2 La préparation de données par programmation avec Python et Pandas.ipynb

Lines changed: 20 additions & 20 deletions
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,7 @@
44
"cell_type": "markdown",
55
"metadata": {},
66
"source": [
7-
"# Leçon 2.2 Les querelles de données programmatiques avec Python et Pandas\n",
7+
"# Leçon 2.2 La préparation de données par programmation avec Python et Pandas\n",
88
"\n",
99
"<div class=\"alert alert-block alert-warning\">\n",
1010
" <b>A la fin de la formation, vous pourrez:</b>\n",
@@ -19,15 +19,15 @@
1919
"cell_type": "markdown",
2020
"metadata": {},
2121
"source": [
22-
"## 2.2.1 Enquêter et manipuler les données avec les pandas\n",
22+
"## 2.2.1 Explorer et manipuler les données avec Pandas\n",
2323
"\n",
24-
"Ce serait bien si vous pouviez importer des données désordonnées et avoir un programme qui les restructure automatiquement pour vous dans le schéma de métadonnées que vous avez choisi. Il n'existe actuellement aucun mécanisme pour ce faire, et les querelles de programme sur les données ne réduisent la complexité du processus que de façon limitée. Ce qu'il fait, c'est réduire les tâches répétitives, comme le copier-coller, et limiter massivement le risque d'introduire des erreurs liées à la copie.\n",
24+
"Ce serait bien si vous pouviez importer des données désordonnées et avoir un programme qui les restructure automatiquement pour vous dans le schéma de métadonnées que vous avez choisi. Il n'existe actuellement aucun mécanisme pour faire cela, et les préparations de données par programmation ne réduisent la complexité du processus que de façon limitée. Ca apporte seulement de réduire les tâches répétitives, comme le copier-coller, et limiter de façon important le risque d'introduire des erreurs liées à la copie.\n",
2525
"\n",
2626
"### Configurer votre environnement de développement et installer des paquets tiers\n",
2727
"\n",
28-
"Python est un langage de programmation. Au cœur de ce langage se trouvent les fonctions et les définitions que vous avez apprises dans la leçon 1.2.1. Cependant, Python est aussi une communauté de développeurs passionnés - tout comme vous - qui apportent chacun au langage de programmation leur intérêt particulier. Il peut s'agir de résoudre des mathématiques complexes, ou de dessiner des graphiques et des visualisations saisissantes, de créer des jeux informatiques, ou même de travailler avec des données structurées. Ce faisant, ils créent de nouvelles fonctions qu'ils peuvent regrouper sous forme de bibliothèques pour les mettre à la disposition des autres. La communauté Pyton a produit des dizaines de milliers de ces paquets, et nous allons en installer certains maintenant.\n",
28+
"Python est un langage de programmation. Au cœur de ce langage se trouvent les fonctions et les définitions que vous avez apprises dans la leçon 1.2.1. Cependant, Python est aussi une communauté de développeurs passionnés - tout comme vous - qui apportent chacun au langage de programmation leur intérêt particulier. Il peut s'agir de résoudre des mathématiques complexes, ou de dessiner des graphiques et des visualisations saisissantes, de créer des jeux informatiques, ou même de travailler avec des données structurées. Ce faisant, ils créent de nouvelles fonctions qu'ils peuvent regrouper sous forme de bibliothèques pour les mettre à la disposition des autres. La communauté Python a produit des dizaines de milliers de ces paquets, et nous allons en installer certains maintenant.\n",
2929
"\n",
30-
"Si vous ne l'avez pas encore fait, lancez votre Anaconda Navigator : \n",
30+
"Si vous ne l'avez pas encore fait, lancez votre navigateur Anaconda : \n",
3131
"\n",
3232
"![Jupyter menu (base)](images/jupyter-home-base.jpg)\n",
3333
"\n",
@@ -39,7 +39,7 @@
3939
"\n",
4040
"![Jupyter environments](images/jupyter-environments.JPG \"Jupyter environments\")\n",
4141
"\n",
42-
"Donnez à votre environnement le nom que vous voulez, mais vous pouvez l'appeler `datascience` pour qu'il soit facile à trouver. Maintenant, vous devez installer les paquets dont nous avons besoin pendant ce cours. Il y a deux façons de le faire, l'une pour les paquets que Conda connaît déjà, et l'autre à partir du terminal du système d'exploitation. Nous allons maintenant faire la seconde qui nous permettra d'installer tout ce dont nous avons besoin.\n",
42+
"Donnez à votre environnement le nom que vous voulez, mais vous pouvez l'appeler `datascience` pour qu'il soit facile à trouver. Maintenant, vous devez installer les paquets dont nous avons besoin pendant ce cours. Il y a deux façons de le faire, l'une pour les paquets que Conda connaît déjà, et l'autre à partir du terminal du système d'exploitation. Nous allons maintenant appliquer la seconde méthode qui nous permettra d'installer tout ce dont nous avons besoin.\n",
4343
"\n",
4444
"Faites un clic gauche sur la \"flèche\" à côté de `datascience` et choisissez `Open Terminal`. Assurez-vous que vous cliquez sur le bon environnement ; pas sur `base` ou`root`, mais sur le nom de l'environnement que vous venez de créer : \n",
4545
"\n",
@@ -106,7 +106,7 @@
106106
" <br>\n",
107107
" <ul>\n",
108108
" <li>Après avoir importé un module, <code>dir(module)</code> vous permet de voir une liste de toutes les fonctions implémentées dans cette bibliothèque.</li>\n",
109-
" <li>Vous pouvez également lire l'aide des chaînes de documentation du module avec <code>help(module)</code></li>\n",
109+
" <li>Vous pouvez également lire l'aide du module avec <code>help(module)</code></li>\n",
110110
" </ul>\n",
111111
"</div>"
112112
]
@@ -225,14 +225,14 @@
225225
"cell_type": "markdown",
226226
"metadata": {},
227227
"source": [
228-
"Nous `import` un module et pouvons le renommer en utilisant le terme `as` :\n",
228+
"Nous importons un module avec `import` et pouvons le renommer en utilisant le terme `as` :\n",
229229
"\n",
230230
" import pandas as pd\n",
231231
" import numpy as np\n",
232232
" \n",
233-
"Il n'y a rien de spécial avec `pd` ou `np`, c'est juste une convention, mais nous utiliserons ___beaucoup___ ces modules, donc raccourcir les pandas en pd et numpy en np rend la frappe légèrement plus facile. Nous allons maintenant importer le même fichier Excel que nous avons utilisé dans la leçon 1.1 et faire exactement le même tutoriel qu'auparavant, mais cette fois-ci en utilisant des `pandas` et des `numpy`.\n",
233+
"Il n'y a rien de spécial avec `pd` ou `np`, c'est juste une convention, mais nous utiliserons ___beaucoup___ ces modules, donc raccourcir les pandas en pd et numpy en np rend la frappe légèrement plus facile. Nous allons maintenant importer le même fichier Excel que nous avons utilisé dans la leçon 1.1 et faire exactement le même tutoriel qu'auparavant, mais cette fois-ci en utilisant `pandas` et `numpy`.\n",
234234
"\n",
235-
"Nous commençons par importer le fichier Excel. Dans les pandas, une feuille de calcul est appelée `dataframe`, ou `df` en abrégé."
235+
"Nous commençons par importer le fichier Excel. Dans pandas, une feuille de calcul est appelée `dataframe`, ou `df` en abrégé."
236236
]
237237
},
238238
{
@@ -459,15 +459,15 @@
459459
"# read_excel est une fonction de pandas qui vous ouvrira un fichier Excel\n",
460460
"# la \"source\" peut être n'importe où, soit dans un fichier local, soit dans une ressource en ligne distante\n",
461461
"df = pd.read_excel(source)\n",
462-
"# la tête imprimera les x premières lignes de la trame de données pour que nous puissions voir à quoi elle ressemble\n",
462+
"# head imprimera les x premières lignes du fichier de données pour que nous puissions voir à quoi il ressemble\n",
463463
"df.head(5) "
464464
]
465465
},
466466
{
467467
"cell_type": "markdown",
468468
"metadata": {},
469469
"source": [
470-
"Eh bien, c'est un problème, mais alors - si vous vous souvenez du tutoriel original - la ligne d'en-tête n'est pas dans la première rangée, elle est en fait dans la troisième. Réimportons notre fichier et assurons-nous d'ignorer les deux premières rangées :"
470+
"C'est un problème! mais si vous vous souvenez du tutoriel de la première leçon - la ligne d'en-tête n'est pas dans la première rangée, elle est en fait dans la quatrième. Réimportons notre fichier et assurons-nous d'ignorer les trois premières rangées :"
471471
]
472472
},
473473
{
@@ -691,7 +691,7 @@
691691
"cell_type": "markdown",
692692
"metadata": {},
693693
"source": [
694-
"Vous remarquez le `NaN` dans la colonne `2019` ? Le `NaN` est l'abréviation de `Not-a-Number`, et c'est la façon dont les pandas (et `numpy`, le logiciel sur lequel ils fonctionnent) gardent la trace de nombres indéfinis. Dans ce cas, cela signifie qu'il n'y a pas de chiffres disponibles pour certains pays pour cette année-là. Les pandas essaieront de deviner le format des colonnes pour vous, mais il arrive qu'ils se trompent. Vérifions et voyons ce qu'il en pense :"
694+
"Vous remarquez la valeur `NaN` dans la colonne `2019` ? `NaN` est l'abréviation de `Not-a-Number`, et c'est la façon dont pandas (et `numpy`, le logiciel sur lequel il fonctionne) garde la trace de nombres indéfinis. Dans ce cas, cela signifie qu'il n'y a pas de chiffres disponibles pour certains pays pour cette année-là. Pandas essaiera de deviner le format des colonnes pour vous, mais il arrive qu'il se trompe. Vérifions et voyons ce qu'il en pense :"
695695
]
696696
},
697697
{
@@ -785,12 +785,12 @@
785785
"cell_type": "markdown",
786786
"metadata": {},
787787
"source": [
788-
"`dtypes` nous indiquent les types de données pour chacune des colonnes. `object` est toute sorte de `string` ou de type de données qui ne correspond pas aux types de données numériques, catégorielles ou de date. `float64` signifie que ces valeurs sont considérées comme des nombres à virgule flottante de 64 bits.\n",
788+
"`dtypes` nous indiquent les types de données pour chacune des colonnes. `object` est n'importe quelle sorte de `string` ou de type de données qui ne correspondend pas aux types de données numériques, de catégories (on verra ca plus tard) ou de date. `float64` signifie que ces valeurs sont considérées comme des nombres à virgule flottante de 64 bits.\n",
789789
"\n",
790790
"<div class=\"alert alert-block alert-warning\">\n",
791791
" <p>À partir de maintenant, je ne ferai référence à la documentation que pour chaque nouvelle fonction que j'introduirai sous forme de commentaire dans le code, avec un lien vers une ressource en ligne où vous pourrez trouver des informations supplémentaires. C'est une habitude de codage utile à prendre car vous pouvez parfois oublier exactement comment vous avez découvert cette solution ou cette référence.</p>\n",
792792
" <p>Par exemple, <code># https://stackoverflow.com/a/51794989</code> est une référence à <a href=\"https://stackoverflow.com\">Stackoverflow</a> - un site de questions et réponses très populaire parmi les développeurs. Si vous visitez ce lien, vous obtiendrez une foule d'informations sur la ligne de code, ou la solution technique, qui suit. Certaines références, par exemple <code># Référence pour np.where https://docs.scipy.org/doc/numpy/reference/generated/numpy.where.html</code>, vous mèneront à la documentation du paquet.</p>\n",
793-
" <p>Prendre l'habitude de lire des documents de référence. Le développement de logiciels exige de la patience et vous serez toujours en train de chercher. Faire vos propres recherches fait de vous un bon codeur.</p>\n",
793+
" <p>Prendre l'habitude de lire des documents de référence. Le développement de logiciels exige de la patience et vous serez toujours en train de chercher. Faire vos propres recherches fait de vous un bon développeur.</p>\n",
794794
"</div>\n",
795795
"\n",
796796
"La liste complète des colonnes peut être consultée sous forme de liste :"
@@ -828,7 +828,7 @@
828828
"cell_type": "markdown",
829829
"metadata": {},
830830
"source": [
831-
"Le fichier est actuellement au format `large` et nous préférerions qu'il soit `long`, avec toutes les années qui s'écoulent le long de la trame de données. Pour ce faire, nous devons `pivot` notre cadre de données et créer une nouvelle colonne `année`. Pandas dispose d'une fonction appelée `melt` pour ce faire, mais nous devons d'abord obtenir les colonnes que nous voulons utiliser :"
831+
"Le fichier est actuellement au format `large` et nous préférerions qu'il soit `long`, avec toutes les années qui s'écoulent le long de la trame de données. Pour ce faire, nous devons faire 'pivoter (instruction `pivot`) notre cadre de données et créer une nouvelle colonne `année`. Pandas dispose d'une fonction appelée `melt` pour ce faire, mais nous devons d'abord obtenir les colonnes que nous voulons utiliser :"
832832
]
833833
},
834834
{
@@ -990,7 +990,7 @@
990990
"cell_type": "markdown",
991991
"metadata": {},
992992
"source": [
993-
"Pandas peuvent faire bien plus que simplement déplacer des données. Vous pouvez aussi filtrer, trier et dessiner des graphiques :"
993+
"Pandas peux faire bien plus que simplement déplacer des données. Vous pouvez aussi filtrer, trier et dessiner des graphiques :"
994994
]
995995
},
996996
{
@@ -1022,7 +1022,7 @@
10221022
}
10231023
],
10241024
"source": [
1025-
"# importer la bibliothèque de graphiques dont nous avons besoin et la mettre en ligne avec le carnet\n",
1025+
"# importer la bibliothèque de graphiques dont nous avons besoin et la mettre en ligne avec le carnet (similaire a import mais spécifique a jupyter notebook pour que les graphiques soient affichés dans le notebook)\n",
10261026
"%matplotlib inline\n",
10271027
"# D'abord, triez par année pour vous assurer que tout est en ordre\n",
10281028
"# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html\n",
@@ -1039,7 +1039,7 @@
10391039
"source": [
10401040
"## 2.2.2 Tutoriel - nettoyage de données complexes\n",
10411041
"\n",
1042-
"La feuille de calcul sur laquelle vous avez travaillé dans le premier tutoriel avait des problèmes beaucoup plus complexes que le simple fait d'être large. Elle comporte des cellules fusionnées qui doivent être nettoyées. Bien sûr, vous pouvez le faire manuellement avant de l'importer dans les pandas, mais essayons de le réparer par programme.\n",
1042+
"La feuille de calcul sur laquelle vous avez travaillé dans le premier tutoriel avait des problèmes beaucoup plus complexes que le simple fait d'être large. Elle comporte des cellules fusionnées qui doivent être nettoyées. Bien sûr, vous pouvez le faire manuellement avant de l'importer dans pandas, mais essayons de le réparer par programme.\n",
10431043
"\n",
10441044
"Tout d'abord, n'oubliez pas que c'est à cela que ça ressemble :\n",
10451045
"\n",
@@ -3643,7 +3643,7 @@
36433643
"cell_type": "markdown",
36443644
"metadata": {},
36453645
"source": [
3646-
"Nous pouvons faire beaucoup plus pour nettoyer cette feuille de calcul, mais c'est un bon début et cela vous apprend beaucoup sur ce que vous pouvez faire avec les pandas. Lorsque vous aurez terminé, n'oubliez pas de sauvegarder votre cadre de données en tant que `CSV` en utilisant le fichier `.to_csv`, comme vous l'avez fait lors de l'exercice précédent.\n",
3646+
"Nous pouvons faire beaucoup plus pour nettoyer cette feuille de calcul, mais c'est un bon début et cela vous apprend beaucoup sur ce que vous pouvez faire avec pandas. Lorsque vous aurez terminé, n'oubliez pas de sauvegarder votre feuille de données en tant que `CSV` en utilisant la commande `.to_csv`, comme vous l'avez fait lors de l'exercice précédent.\n",
36473647
"\n",
36483648
"---\n",
36493649
"\n",

0 commit comments

Comments
 (0)