Skip to content

Commit 0ae9231

Browse files
committed
Lesson 1 complete (French & English)
1 parent 4cb5c72 commit 0ae9231

36 files changed

+1285
-0
lines changed

Lesson 1-1 - Structuring and wrangling messy data using a spreadsheet editor.ipynb

Lines changed: 612 additions & 0 deletions
Large diffs are not rendered by default.

Leçon 1-1 - Structurer et démêler des données confuses à l'aide d'un tableur.ipynb

Lines changed: 597 additions & 0 deletions
Large diffs are not rendered by default.

README.fr.md

Lines changed: 74 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,74 @@
1+
[🇬🇧 English](README.md)
2+
3+
# Lutte contre les données et validation des données ouvertes
4+
5+
L'expression "données ouvertes" s'entend généralement des données qui sont mises à la disposition du public gratuitement, sans enregistrement ni licence restrictive, à quelque fin que ce soit (y compris à des fins commerciales), dans des formats électroniques lisibles par machine qui garantissent que les données sont faciles à trouver, à télécharger et à utiliser.
6+
7+
Les initiatives en matière de données ouvertes prises par les institutions publiques, telles que les gouvernements et les organisations intergouvernementales, reconnaissent que ces données sont produites avec des fonds publics et doivent donc, à quelques exceptions près, être traitées comme des biens publics.
8+
9+
La réutilisation des données, tant par les experts en données que par le grand public, est essentielle pour créer de nouvelles opportunités et de nouveaux avantages à partir des données gouvernementales. La réutilisation ouverte des données requiert deux critères de base :
10+
11+
1. Les données doivent être légalement ouvertes, ce qui signifie qu'elles sont placées dans le domaine public ou dans des conditions d'utilisation libérales avec un minimum de restrictions. Cela garantit que les politiques gouvernementales ne créent pas de barrières ou d'ambiguïtés quant à la manière dont les données peuvent être utilisées.
12+
2. Les données doivent être techniquement ouvertes, ce qui signifie qu'elles sont publiées dans des formats électroniques lisibles par machine et non propriétaires. Cela garantit que les citoyens ordinaires peuvent accéder aux données et les utiliser à peu de frais, voire gratuitement, en utilisant des outils logiciels courants.
13+
14+
L'objectif de ce programme d'études dans _Querelle et validation des données pour les données ouvertes_ est de guider les apprenants vers la confiance dans la fourniture de données techniquement ouvertes : des données bien structurées, lisibles par machine, validées selon un schéma de métadonnées défini et standard.
15+
16+
## Leçon 1 : Querelle de données - données désordonnées
17+
18+
_Résultats de l'apprentissage_ :
19+
20+
- Comprendre et avoir une expérience pratique de la structure et de la conception des fichiers de données lisibles par machine.
21+
- Utiliser Excel pour étudier et manipuler les données sources afin d'apprendre leurs métadonnées, leur forme et leur robustesse, et utiliser ces méthodes pour développer un schéma de métadonnées structurelles.
22+
- Apprenez et appliquez un ensemble de méthodes de base pour restructurer des données source désordonnées en fichiers CSV lisibles par machine à l'aide de Microsoft Excel.
23+
- Apprendre, et avoir une expérience pratique de l'écriture, la syntaxe de base et l'approche du codage en Python.
24+
- Intégrer et appliquer les méthodes des bibliothèques d'analyse de données de base de Numpy, Pandas et Matplotlib pour étudier et manipuler les données sources.
25+
- Effectuer des techniques d'analyse et de codage, en utilisant le paquet de disputes de données Whyqd, pour créer une méthode structurée, au format JSON, pour restructurer les données dans un schéma standard.
26+
27+
_Projet_ :
28+
29+
Chaque participant se verra attribuer une feuille de calcul de [données de formation](https://drive.google.com/open?id=0B8eZRkdFGaEHfnlwU25vdVRUOFNOdnNfWnMwb3IwYXJ3QU9BeTU0ZmlTNlpaRmZFZE5iM28) et devra la restructurer à la fois dans Excel et en utilisant Python/Whyqd.
30+
31+
## Leçon 2 : Validation des données restructurées par rapport à un schéma
32+
33+
_Résultats de l'apprentissage_ :
34+
35+
- Comprendre et utiliser des définitions standard pour écrire un schéma JSON pour la validation des données.
36+
- Effectuer la validation des données à l'aide de Microsoft Excel.
37+
- Apprendre à valider des données lisibles par machine dans des applications en ligne par rapport à un schéma défini.
38+
- Écrire et utiliser des fonctions modulaires pour valider automatiquement des fichiers de données en utilisant Python.
39+
- Appliquer des techniques de publication de données ouvertes pour préparer les données, les schémas et les résultats de validation en vue de leur publication.
40+
41+
_Projet_ :
42+
43+
En utilisant la feuille de calcul lisible par machine créée dans la leçon 1, développer un schéma JSON, et valider les données en utilisant ce schéma sur [CSV Lint](https://csvlint.io/). Ensuite, importez [Frictionless Data](https://github.com/frictionlessdata/tableschema-py) et effectuez la même tâche en Python.
44+
45+
## Leçon 3 : Anonymisation des données personnelles avant la publication
46+
47+
_Résultats de l'apprentissage_ :
48+
49+
- Reconnaître les problèmes de respect de la vie privée et de la confidentialité lors du stockage des données et de la sécurité des données personnelles.
50+
- Reconnaître les responsabilités et les mécanismes de sécurisation des données au repos et des données en mouvement.
51+
- Utiliser des méthodes d'anonymisation des données, y compris la gigue géospatiale, la suppression des adresses et des noms, et l'obscurcissement des champs.
52+
- Étudier et appliquer des techniques d'agrégation appropriées pour anonymiser les données personnelles qui sont autrement à l'abri des méthodes d'effacement sur le terrain.
53+
54+
_Projet_ :
55+
56+
Utiliser un échantillon de fichier de données fabriqué contenant des informations personnelles et expurger ces données pour éviter la désanonymisation.
57+
58+
## Projet : Préparation des données COVID-19 en vue de leur publication
59+
60+
Comme sujet d'actualité, une discussion générale sur les sources de données probables pour la diffusion, et les querelles. Nous pourrions avoir besoin de dossiers de patients fabriqués pour l'agrégation, les querelles et la diffusion.
61+
62+
---
63+
64+
## Whois
65+
66+
Je m'appelle [Gavin Chait](https://gavinchait.com), et je suis un scientifique indépendant spécialisé dans le développement économique et la conservation des données. J'ai passé plus de dix ans dans des initiatives de développement économique et de développement en Afrique du Sud. J'ai été le responsable commercial de projets de données ouvertes à l'Open Knowledge Foundation, dirigeant l'équipe de développement de l'open source CKAN, et j'ai dirigé la mise en œuvre de nombreux projets techniques et de recherche de données ouvertes dans le monde entier. Récemment, j'ai développé [Sqwyre.com](https://sqwyre.com), une initiative pour développer un moteur de recherche complet d'intelligence économique pour les entrepreneurs. Les données sont basées sur des données ouvertes et des demandes de liberté d'information.
67+
68+
J'ai une grande expérience dans la direction de projets de recherche, la mise en œuvre d'initiatives de logiciels libres, et l'élaboration et l'animation de séminaires et d'ateliers. J'ai enseigné pendant 25 ans, notamment pour les étudiants de premier cycle, la formation des adultes et l'enseignement technique et analytique à tous les niveaux.
69+
70+
## Licences et diffusion
71+
72+
Le contenu, le matériel et l'approche du cours sont protégés par les droits d'auteur de Gavin Chait et sont publiés sous les licences [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/) et [MIT](https://opensource.org/licenses/MIT).
73+
74+
L'objectif est d'assurer la réutilisation et je recommande - mais n'exige pas - que toute modification ou adaptation du matériel source soit publiée sous une licence équivalente.

README.md

Lines changed: 2 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1,3 +1,5 @@
1+
[🇫🇷 Français](README.fr.md)
2+
13
# Data Wrangling and Validation for Open Data
24

35
The term _Open Data_ is generally understood to be data that are made available to the public free of charge, without registration or restrictive licenses, for any purpose whatsoever (including commercial purposes), in electronic, machine-readable formats that ensure data are easy to find, download and use.

images/01-01-human-readable-data.jpg

46.8 KB
Loading
39.5 KB
Loading

images/01-01-narrow-data.jpg

98.8 KB
Loading
Loading
45.1 KB
Loading

images/01-01-wide-data.jpg

167 KB
Loading

0 commit comments

Comments
 (0)