|
1 | 1 | [🇬🇧 English](README.md)
|
2 | 2 |
|
3 |
| -# Lutte contre les données et validation des données ouvertes |
| 3 | +# Préparation (data wrangling) et validation des données ouvertes |
4 | 4 |
|
5 |
| -L'expression "données ouvertes" s'entend généralement des données qui sont mises à la disposition du public gratuitement, sans enregistrement ni licence restrictive, à quelque fin que ce soit (y compris à des fins commerciales), dans des formats électroniques lisibles par machine qui garantissent que les données sont faciles à trouver, à télécharger et à utiliser. |
| 5 | +L'expression "données ouvertes" s'entend généralement des données qui sont mises à la disposition du public gratuitement, accesible sans authentification ni licence restrictive, à quelque fin que ce soit (y compris à des fins commerciales), dans des formats électroniques exploitables par des machines (machine-readable) qui garantissent que les données sont faciles à trouver, à télécharger et à utiliser. |
6 | 6 |
|
7 |
| -Les initiatives en matière de données ouvertes prises par les institutions publiques, telles que les gouvernements et les organisations intergouvernementales, reconnaissent que ces données sont produites avec des fonds publics et doivent donc, à quelques exceptions près, être traitées comme des biens publics. |
| 7 | +Les initiatives en matière de données ouvertes prises par les institutions publiques ou privés, telles que les gouvernements et les organisations intergouvernementales reconnaissent que ces données sont produites avec des fonds publics et doivent donc, à quelques exceptions près, être traitées comme des biens publics. |
8 | 8 |
|
9 |
| -La réutilisation des données, tant par les experts en données que par le grand public, est essentielle pour créer de nouvelles opportunités et de nouveaux avantages à partir des données gouvernementales. La réutilisation ouverte des données requiert deux critères de base : |
| 9 | +La réutilisation des données, tant par les experts en données que par le grand public, est essentielle pour créer de nouvelles opportunités et de nouvelles connaissances à partir des données gouvernementales. La réutilisation ouverte des données requiert deux critères de base : |
10 | 10 |
|
11 | 11 | 1. Les données doivent être légalement ouvertes, ce qui signifie qu'elles sont placées dans le domaine public ou dans des conditions d'utilisation libérales avec un minimum de restrictions. Cela garantit que les politiques gouvernementales ne créent pas de barrières ou d'ambiguïtés quant à la manière dont les données peuvent être utilisées.
|
12 |
| -2. Les données doivent être techniquement ouvertes, ce qui signifie qu'elles sont publiées dans des formats électroniques lisibles par machine et non propriétaires. Cela garantit que les citoyens ordinaires peuvent accéder aux données et les utiliser à peu de frais, voire gratuitement, en utilisant des outils logiciels courants. |
| 12 | +2. Les données doivent être techniquement ouvertes, ce qui signifie qu'elles sont publiées dans des formats électroniques exploitables par des machines et non propriétaires. Cela garantit que les citoyens ordinaires peuvent accéder aux données et les utiliser à peu de frais, voire gratuitement, en utilisant des outils logiciels courants. |
13 | 13 |
|
14 |
| -L'objectif de ce programme d'études dans _Querelle et validation des données pour les données ouvertes_ est de guider les apprenants vers la confiance dans la fourniture de données techniquement ouvertes : des données bien structurées, lisibles par machine, validées selon un schéma de métadonnées défini et standard. |
| 14 | +L'objectif de ce programme d'études dans _Préparation et validation de données ouvertes_ est de guider les participants vers la confiance dans la fourniture de données techniquement ouvertes : des données bien structurées, exploitable par des machines, validées selon un schéma de métadonnées défini et standard. |
15 | 15 |
|
16 |
| -## Leçon 1 : Querelle de données - données désordonnées |
| 16 | +## Leçon 1 : Préparation de données - données désordonnées |
17 | 17 |
|
18 |
| -_Résultats de l'apprentissage_ : |
| 18 | +_Objectifs d'apprentissage_ : |
19 | 19 |
|
20 |
| -- Comprendre et avoir une expérience pratique de la structure et de la conception des fichiers de données lisibles par machine. |
21 |
| -- Utiliser Excel pour étudier et manipuler les données sources afin d'apprendre leurs métadonnées, leur forme et leur robustesse, et utiliser ces méthodes pour développer un schéma de métadonnées structurelles. |
22 |
| -- Apprenez et appliquez un ensemble de méthodes de base pour restructurer des données source désordonnées en fichiers CSV lisibles par machine à l'aide de Microsoft Excel. |
| 20 | +- Comprendre et avoir une expérience pratique de la structure et de la conception des fichiers de données exploitables par les machines. |
| 21 | +- Utiliser Excel pour étudier et manipuler les données sources afin de connaitre leurs métadonnées, leur forme et leur robustesse, et utiliser ces méthodes pour développer un schéma de métadonnées structurelles. |
| 22 | +- Apprendre et appliquer un ensemble de méthodes de base pour restructurer des données source désordonnées en fichiers CSV exploitables par une machine à l'aide de Microsoft Excel. |
23 | 23 | - Apprendre, et avoir une expérience pratique de l'écriture, la syntaxe de base et l'approche du codage en Python.
|
24 | 24 | - Intégrer et appliquer les méthodes des bibliothèques d'analyse de données de base de Numpy, Pandas et Matplotlib pour étudier et manipuler les données sources.
|
25 |
| -- Effectuer des techniques d'analyse et de codage, en utilisant le paquet de disputes de données Whyqd, pour créer une méthode structurée, au format JSON, pour restructurer les données dans un schéma standard. |
| 25 | +- Effectuer des techniques d'analyse et de codage, en utilisant le package de préparation de données Whyqd, pour créer une méthode structurée, au format JSON, pour restructurer les données dans un schéma standard. |
26 | 26 |
|
27 | 27 | _Projet_ :
|
28 | 28 |
|
29 | 29 | Chaque participant se verra attribuer une feuille de calcul de [données de formation](https://drive.google.com/open?id=0B8eZRkdFGaEHfnlwU25vdVRUOFNOdnNfWnMwb3IwYXJ3QU9BeTU0ZmlTNlpaRmZFZE5iM28) et devra la restructurer à la fois dans Excel et en utilisant Python/Whyqd.
|
30 | 30 |
|
31 | 31 | ## Leçon 2 : Validation des données restructurées par rapport à un schéma
|
32 | 32 |
|
33 |
| -_Résultats de l'apprentissage_ : |
| 33 | +_Objectifs d'apprentissage_ : |
34 | 34 |
|
35 | 35 | - Comprendre et utiliser des définitions standard pour écrire un schéma JSON pour la validation des données.
|
36 | 36 | - Effectuer la validation des données à l'aide de Microsoft Excel.
|
37 |
| -- Apprendre à valider des données lisibles par machine dans des applications en ligne par rapport à un schéma défini. |
| 37 | +- Apprendre à valider des données exploitables par les machines dans des applications en ligne par rapport à un schéma défini. |
38 | 38 | - Écrire et utiliser des fonctions modulaires pour valider automatiquement des fichiers de données en utilisant Python.
|
39 | 39 | - Appliquer des techniques de publication de données ouvertes pour préparer les données, les schémas et les résultats de validation en vue de leur publication.
|
40 | 40 |
|
41 | 41 | _Projet_ :
|
42 | 42 |
|
43 |
| -En utilisant la feuille de calcul lisible par machine créée dans la leçon 1, développer un schéma JSON, et valider les données en utilisant ce schéma sur [CSV Lint](https://csvlint.io/). Ensuite, importez [Frictionless Data](https://github.com/frictionlessdata/tableschema-py) et effectuez la même tâche en Python. |
| 43 | +En utilisant la feuille de calcul créée dans la leçon 1, développer un schéma JSON, et valider les données en utilisant ce schéma sur [CSV Lint](https://csvlint.io/). Ensuite, importez [Frictionless Data](https://github.com/frictionlessdata/tableschema-py) et effectuez la même tâche en Python. |
44 | 44 |
|
45 | 45 | ## Leçon 3 : Anonymisation des données personnelles avant la publication
|
46 | 46 |
|
47 |
| -_Résultats de l'apprentissage_ : |
| 47 | +_Objectifs d'apprentissage_ : |
48 | 48 |
|
49 | 49 | - Reconnaître les problèmes de respect de la vie privée et de la confidentialité lors du stockage des données et de la sécurité des données personnelles.
|
50 |
| -- Reconnaître les responsabilités et les mécanismes de sécurisation des données au repos et des données en mouvement. |
51 |
| -- Utiliser des méthodes d'anonymisation des données, y compris la gigue géospatiale, la suppression des adresses et des noms, et l'obscurcissement des champs. |
52 |
| -- Étudier et appliquer des techniques d'agrégation appropriées pour anonymiser les données personnelles qui sont autrement à l'abri des méthodes d'effacement sur le terrain. |
| 50 | +- Reconnaître les responsabilités et les mécanismes de sécurisation des données stockées (ata-at-rest) ou en transit (date-in-motion). |
| 51 | +- Utiliser des méthodes d'anonymisation des données, y compris le floutage géospatiale, la suppression des adresses et des noms, et l'obscurcissement des champs. |
| 52 | +- Étudier et appliquer des techniques d'agrégation appropriées pour anonymiser les données personnelles qui ne peuvent pas être enlevées des fichiers. |
53 | 53 |
|
54 | 54 | _Projet_ :
|
55 | 55 |
|
56 | 56 | Utiliser un échantillon de fichier de données fabriqué contenant des informations personnelles et expurger ces données pour éviter la désanonymisation.
|
57 | 57 |
|
58 | 58 | ## Projet : Préparation des données COVID-19 en vue de leur publication
|
59 | 59 |
|
60 |
| -Comme sujet d'actualité, une discussion générale sur les sources de données probables pour la diffusion, et les querelles. Nous pourrions avoir besoin de dossiers de patients fabriqués pour l'agrégation, les querelles et la diffusion. |
| 60 | +Comme sujet d'actualité, une discussion générale sur les sources de données probables pour la diffusion, et les préparations. Nous pourrions avoir besoin de dossiers de patients fabriqués pour l'agrégation, les préparations et la diffusion. |
61 | 61 |
|
62 | 62 | ---
|
63 | 63 |
|
64 |
| -## Whois |
| 64 | +## Le Formateur |
65 | 65 |
|
66 |
| -Je m'appelle [Gavin Chait](https://gavinchait.com), et je suis un scientifique indépendant spécialisé dans le développement économique et la conservation des données. J'ai passé plus de dix ans dans des initiatives de développement économique et de développement en Afrique du Sud. J'ai été le responsable commercial de projets de données ouvertes à l'Open Knowledge Foundation, dirigeant l'équipe de développement de l'open source CKAN, et j'ai dirigé la mise en œuvre de nombreux projets techniques et de recherche de données ouvertes dans le monde entier. Récemment, j'ai développé [Sqwyre.com](https://sqwyre.com), une initiative pour développer un moteur de recherche complet d'intelligence économique pour les entrepreneurs. Les données sont basées sur des données ouvertes et des demandes de liberté d'information. |
| 66 | +Je m'appelle [Gavin Chait](https://gavinchait.com), et je suis un scientifique indépendant spécialisé dans le développement économique et la conservation des données. J'ai passé plus de dix ans dans des initiatives de développement économique et de développement en Afrique du Sud. J'ai été le responsable commercial de projets de données ouvertes à l'Open Knowledge Foundation, dirigeant l'équipe de développement du logiciel open source CKAN, et j'ai dirigé la mise en œuvre de nombreux projets techniques et de recherche de données ouvertes dans le monde entier. Récemment, j'ai développé [Sqwyre.com](https://sqwyre.com), une initiative pour développer un moteur de recherche complet d'intelligence économique pour les entrepreneurs. Les données sont basées sur des données ouvertes et des demandes de liberté d'information. |
67 | 67 |
|
68 | 68 | J'ai une grande expérience dans la direction de projets de recherche, la mise en œuvre d'initiatives de logiciels libres, et l'élaboration et l'animation de séminaires et d'ateliers. J'ai enseigné pendant 25 ans, notamment pour les étudiants de premier cycle, la formation des adultes et l'enseignement technique et analytique à tous les niveaux.
|
69 | 69 |
|
| 70 | +Je travaille depuis 2016 avec [SBC4D](http://www.sbc4d.com) sur de nombreux projets de formations ou de déploiements de portail open data dans divers pays comme le Ghana, le Maroc, la Tunisie, l'Ile Maurice ou la Tanzanie. |
| 71 | + |
70 | 72 | ## Licences et diffusion
|
71 | 73 |
|
72 | 74 | Le contenu, le matériel et l'approche du cours sont protégés par les droits d'auteur de Gavin Chait et sont publiés sous les licences [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/) et [MIT](https://opensource.org/licenses/MIT).
|
|
0 commit comments