Pipeline ETL avec Talend, PostgreSQL et Metabase
Les entreprises multi-sites (banques, commerces, logistique) cherchent à mieux maîtriser leur consommation électrique.
Cependant, elles disposent rarement de systèmes centralisés permettant de suivre et exploiter ces données efficacement.
Comment regrouper, nettoyer et structurer des données de consommation électrique provenant de sites distants, afin de :
- Identifier les bâtiments les plus énergivores
- Comparer les performances entre agences
- Mettre en place des indicateurs de suivi fiables
Mettre en place un pipeline ETL complet permettant de :
- Extraire des données open source sur la consommation électrique d’entreprises
- Filtrer et transformer les données pour simuler un parc d’agences
- Charger les données dans PostgreSQL
- Construire un tableau de bord avec Metabase
- Source : Enedis Open Data
- Dataset : Consommation annuelle des entreprises par adresse
- Lien : https://data.enedis.fr/explore/dataset/consommation-annuelle-entreprise-par-adresse/
- Contenu : adresse, année, consommation annuelle, secteur (tertiaire, industriel, etc.)
- Talend Open Studio : ETL graphique
- PostgreSQL : base de données relationnelle
- Metabase : visualisation des indicateurs
- Python (optionnel) : pré-traitement ou enrichissement
- Ingestion du fichier CSV
- Nettoyage et filtrage par secteur et région
- Enrichissement (surface, type de site simulé)
- Chargement en base PostgreSQL
- Restitution via tableau de bord
Ce projet est à but pédagogique.
Il utilise des données publiques anonymisées, et simule un cas métier entreprise dans un cadre d’apprentissage.