Skip to content

Commit 2c70ec8

Browse files
committed
Updated READMEs
1 parent e3b3243 commit 2c70ec8

File tree

2 files changed

+26
-22
lines changed

2 files changed

+26
-22
lines changed

README.fr.md

Lines changed: 24 additions & 22 deletions
Original file line numberDiff line numberDiff line change
@@ -1,72 +1,74 @@
11
[🇬🇧 English](README.md)
22

3-
# Lutte contre les données et validation des données ouvertes
3+
# Préparation (data wrangling) et validation des données ouvertes
44

5-
L'expression "données ouvertes" s'entend généralement des données qui sont mises à la disposition du public gratuitement, sans enregistrement ni licence restrictive, à quelque fin que ce soit (y compris à des fins commerciales), dans des formats électroniques lisibles par machine qui garantissent que les données sont faciles à trouver, à télécharger et à utiliser.
5+
L'expression "données ouvertes" s'entend généralement des données qui sont mises à la disposition du public gratuitement, accesible sans authentification ni licence restrictive, à quelque fin que ce soit (y compris à des fins commerciales), dans des formats électroniques exploitables par des machines (machine-readable) qui garantissent que les données sont faciles à trouver, à télécharger et à utiliser.
66

7-
Les initiatives en matière de données ouvertes prises par les institutions publiques, telles que les gouvernements et les organisations intergouvernementales, reconnaissent que ces données sont produites avec des fonds publics et doivent donc, à quelques exceptions près, être traitées comme des biens publics.
7+
Les initiatives en matière de données ouvertes prises par les institutions publiques ou privés, telles que les gouvernements et les organisations intergouvernementales reconnaissent que ces données sont produites avec des fonds publics et doivent donc, à quelques exceptions près, être traitées comme des biens publics.
88

9-
La réutilisation des données, tant par les experts en données que par le grand public, est essentielle pour créer de nouvelles opportunités et de nouveaux avantages à partir des données gouvernementales. La réutilisation ouverte des données requiert deux critères de base :
9+
La réutilisation des données, tant par les experts en données que par le grand public, est essentielle pour créer de nouvelles opportunités et de nouvelles connaissances à partir des données gouvernementales. La réutilisation ouverte des données requiert deux critères de base :
1010

1111
1. Les données doivent être légalement ouvertes, ce qui signifie qu'elles sont placées dans le domaine public ou dans des conditions d'utilisation libérales avec un minimum de restrictions. Cela garantit que les politiques gouvernementales ne créent pas de barrières ou d'ambiguïtés quant à la manière dont les données peuvent être utilisées.
12-
2. Les données doivent être techniquement ouvertes, ce qui signifie qu'elles sont publiées dans des formats électroniques lisibles par machine et non propriétaires. Cela garantit que les citoyens ordinaires peuvent accéder aux données et les utiliser à peu de frais, voire gratuitement, en utilisant des outils logiciels courants.
12+
2. Les données doivent être techniquement ouvertes, ce qui signifie qu'elles sont publiées dans des formats électroniques exploitables par des machines et non propriétaires. Cela garantit que les citoyens ordinaires peuvent accéder aux données et les utiliser à peu de frais, voire gratuitement, en utilisant des outils logiciels courants.
1313

14-
L'objectif de ce programme d'études dans _Querelle et validation des données pour les données ouvertes_ est de guider les apprenants vers la confiance dans la fourniture de données techniquement ouvertes : des données bien structurées, lisibles par machine, validées selon un schéma de métadonnées défini et standard.
14+
L'objectif de ce programme d'études dans _Préparation et validation de données ouvertes_ est de guider les participants vers la confiance dans la fourniture de données techniquement ouvertes : des données bien structurées, exploitable par des machines, validées selon un schéma de métadonnées défini et standard.
1515

16-
## Leçon 1 : Querelle de données - données désordonnées
16+
## Leçon 1 : Préparation de données - données désordonnées
1717

18-
_Résultats de l'apprentissage_ :
18+
_Objectifs d'apprentissage_ :
1919

20-
- Comprendre et avoir une expérience pratique de la structure et de la conception des fichiers de données lisibles par machine.
21-
- Utiliser Excel pour étudier et manipuler les données sources afin d'apprendre leurs métadonnées, leur forme et leur robustesse, et utiliser ces méthodes pour développer un schéma de métadonnées structurelles.
22-
- Apprenez et appliquez un ensemble de méthodes de base pour restructurer des données source désordonnées en fichiers CSV lisibles par machine à l'aide de Microsoft Excel.
20+
- Comprendre et avoir une expérience pratique de la structure et de la conception des fichiers de données exploitables par les machines.
21+
- Utiliser Excel pour étudier et manipuler les données sources afin de connaitre leurs métadonnées, leur forme et leur robustesse, et utiliser ces méthodes pour développer un schéma de métadonnées structurelles.
22+
- Apprendre et appliquer un ensemble de méthodes de base pour restructurer des données source désordonnées en fichiers CSV exploitables par une machine à l'aide de Microsoft Excel.
2323
- Apprendre, et avoir une expérience pratique de l'écriture, la syntaxe de base et l'approche du codage en Python.
2424
- Intégrer et appliquer les méthodes des bibliothèques d'analyse de données de base de Numpy, Pandas et Matplotlib pour étudier et manipuler les données sources.
25-
- Effectuer des techniques d'analyse et de codage, en utilisant le paquet de disputes de données Whyqd, pour créer une méthode structurée, au format JSON, pour restructurer les données dans un schéma standard.
25+
- Effectuer des techniques d'analyse et de codage, en utilisant le package de préparation de données Whyqd, pour créer une méthode structurée, au format JSON, pour restructurer les données dans un schéma standard.
2626

2727
_Projet_ :
2828

2929
Chaque participant se verra attribuer une feuille de calcul de [données de formation](https://drive.google.com/open?id=0B8eZRkdFGaEHfnlwU25vdVRUOFNOdnNfWnMwb3IwYXJ3QU9BeTU0ZmlTNlpaRmZFZE5iM28) et devra la restructurer à la fois dans Excel et en utilisant Python/Whyqd.
3030

3131
## Leçon 2 : Validation des données restructurées par rapport à un schéma
3232

33-
_Résultats de l'apprentissage_ :
33+
_Objectifs d'apprentissage_ :
3434

3535
- Comprendre et utiliser des définitions standard pour écrire un schéma JSON pour la validation des données.
3636
- Effectuer la validation des données à l'aide de Microsoft Excel.
37-
- Apprendre à valider des données lisibles par machine dans des applications en ligne par rapport à un schéma défini.
37+
- Apprendre à valider des données exploitables par les machines dans des applications en ligne par rapport à un schéma défini.
3838
- Écrire et utiliser des fonctions modulaires pour valider automatiquement des fichiers de données en utilisant Python.
3939
- Appliquer des techniques de publication de données ouvertes pour préparer les données, les schémas et les résultats de validation en vue de leur publication.
4040

4141
_Projet_ :
4242

43-
En utilisant la feuille de calcul lisible par machine créée dans la leçon 1, développer un schéma JSON, et valider les données en utilisant ce schéma sur [CSV Lint](https://csvlint.io/). Ensuite, importez [Frictionless Data](https://github.com/frictionlessdata/tableschema-py) et effectuez la même tâche en Python.
43+
En utilisant la feuille de calcul créée dans la leçon 1, développer un schéma JSON, et valider les données en utilisant ce schéma sur [CSV Lint](https://csvlint.io/). Ensuite, importez [Frictionless Data](https://github.com/frictionlessdata/tableschema-py) et effectuez la même tâche en Python.
4444

4545
## Leçon 3 : Anonymisation des données personnelles avant la publication
4646

47-
_Résultats de l'apprentissage_ :
47+
_Objectifs d'apprentissage_ :
4848

4949
- Reconnaître les problèmes de respect de la vie privée et de la confidentialité lors du stockage des données et de la sécurité des données personnelles.
50-
- Reconnaître les responsabilités et les mécanismes de sécurisation des données au repos et des données en mouvement.
51-
- Utiliser des méthodes d'anonymisation des données, y compris la gigue géospatiale, la suppression des adresses et des noms, et l'obscurcissement des champs.
52-
- Étudier et appliquer des techniques d'agrégation appropriées pour anonymiser les données personnelles qui sont autrement à l'abri des méthodes d'effacement sur le terrain.
50+
- Reconnaître les responsabilités et les mécanismes de sécurisation des données stockées (ata-at-rest) ou en transit (date-in-motion).
51+
- Utiliser des méthodes d'anonymisation des données, y compris le floutage géospatiale, la suppression des adresses et des noms, et l'obscurcissement des champs.
52+
- Étudier et appliquer des techniques d'agrégation appropriées pour anonymiser les données personnelles qui ne peuvent pas être enlevées des fichiers.
5353

5454
_Projet_ :
5555

5656
Utiliser un échantillon de fichier de données fabriqué contenant des informations personnelles et expurger ces données pour éviter la désanonymisation.
5757

5858
## Projet : Préparation des données COVID-19 en vue de leur publication
5959

60-
Comme sujet d'actualité, une discussion générale sur les sources de données probables pour la diffusion, et les querelles. Nous pourrions avoir besoin de dossiers de patients fabriqués pour l'agrégation, les querelles et la diffusion.
60+
Comme sujet d'actualité, une discussion générale sur les sources de données probables pour la diffusion, et les préparations. Nous pourrions avoir besoin de dossiers de patients fabriqués pour l'agrégation, les préparations et la diffusion.
6161

6262
---
6363

64-
## Whois
64+
## Le Formateur
6565

66-
Je m'appelle [Gavin Chait](https://gavinchait.com), et je suis un scientifique indépendant spécialisé dans le développement économique et la conservation des données. J'ai passé plus de dix ans dans des initiatives de développement économique et de développement en Afrique du Sud. J'ai été le responsable commercial de projets de données ouvertes à l'Open Knowledge Foundation, dirigeant l'équipe de développement de l'open source CKAN, et j'ai dirigé la mise en œuvre de nombreux projets techniques et de recherche de données ouvertes dans le monde entier. Récemment, j'ai développé [Sqwyre.com](https://sqwyre.com), une initiative pour développer un moteur de recherche complet d'intelligence économique pour les entrepreneurs. Les données sont basées sur des données ouvertes et des demandes de liberté d'information.
66+
Je m'appelle [Gavin Chait](https://gavinchait.com), et je suis un scientifique indépendant spécialisé dans le développement économique et la conservation des données. J'ai passé plus de dix ans dans des initiatives de développement économique et de développement en Afrique du Sud. J'ai été le responsable commercial de projets de données ouvertes à l'Open Knowledge Foundation, dirigeant l'équipe de développement du logiciel open source CKAN, et j'ai dirigé la mise en œuvre de nombreux projets techniques et de recherche de données ouvertes dans le monde entier. Récemment, j'ai développé [Sqwyre.com](https://sqwyre.com), une initiative pour développer un moteur de recherche complet d'intelligence économique pour les entrepreneurs. Les données sont basées sur des données ouvertes et des demandes de liberté d'information.
6767

6868
J'ai une grande expérience dans la direction de projets de recherche, la mise en œuvre d'initiatives de logiciels libres, et l'élaboration et l'animation de séminaires et d'ateliers. J'ai enseigné pendant 25 ans, notamment pour les étudiants de premier cycle, la formation des adultes et l'enseignement technique et analytique à tous les niveaux.
6969

70+
Je travaille depuis 2016 avec [SBC4D](http://www.sbc4d.com) sur de nombreux projets de formations ou de déploiements de portail open data dans divers pays comme le Ghana, le Maroc, la Tunisie, l'Ile Maurice ou la Tanzanie.
71+
7072
## Licences et diffusion
7173

7274
Le contenu, le matériel et l'approche du cours sont protégés par les droits d'auteur de Gavin Chait et sont publiés sous les licences [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/) et [MIT](https://opensource.org/licenses/MIT).

README.md

Lines changed: 2 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -65,6 +65,8 @@ As a topical subject, a general discussion of likely data sources for release, a
6565

6666
My name is [Gavin Chait](https://gavinchait.com), and I am an independent data scientist specialising in economic development and data curation. I spent more than a decade in economic and development initiatives in South Africa. I was the commercial lead of open data projects at the Open Knowledge Foundation, leading the open source CKAN development team, and led the implementation of numerous open data technical and research projects around the world. Recently, I have developed [Sqwyre.com](https://sqwyre.com), an initiative to develop a comprehensive business intelligence search engine for entrepreneurs. Data are based on open data and Freedom of Information requests.
6767

68+
I've worked with [SBC4D](http://www.sbc4d.com) since 2016 on a range of projects spanning from Ghana to Morocco, Tunisia and Ethiopia, to Tanzania and Mauritius.
69+
6870
I have extensive experience in leading research projects, implementing open source software initiatives, and developing and leading seminars and workshops. I have taught for 25 years, including for undergraduates, adult education, and technical and analytical teaching at all levels.
6971

7072
## Licensing and release

0 commit comments

Comments
 (0)