Proyek ini bertujuan untuk memetakan daerah rawan kemiskinan di Sumatera dengan pendekatan berbasis Big Data. Dengan memanfaatkan ekosistem Hadoop, tim mengimplementasikan arsitektur pipeline yang mampu menangani data kependudukan dalam skala besar, mulai dari ingestion hingga visualisasi analitik interaktif.
Teknologi yang digunakan mencakup HDFS, Apache Spark, Hive, PostgreSQL, Superset, dan Airflow, yang semuanya diorkestrasi melalui Docker.
Pipeline ini dibangun dalam tiga lapisan utama sesuai pendekatan Medallion Architecture:
- Bronze Layer: Menyimpan data mentah dari file CSV (20.000+ record)
- Silver Layer: Data dibersihkan, tervalidasi, dan distandardisasi menggunakan Apache Spark
- Gold Layer: Data teragregasi dan siap dianalisis dengan Hive dan PostgreSQL
Visualisasi dilakukan menggunakan Superset Dashboard dengan analisis lanjutan di Jupyter Notebooks.
- Containerization: Docker, Docker Compose
- Big Data Processing: Apache Hadoop (HDFS), Apache Spark
- Data Warehouse: Apache Hive, PostgreSQL
- Workflow Management: Apache Airflow
- Visualisasi & BI: Apache Superset, Jupyter Notebooks, PySpark
- Docker containerization
- Jaringan internal (
bigdata-network
) - Volume persistence
- Penyimpanan: HDFS
- Metadata dan hasil: PostgreSQL
- Dataset mentah: Profil_Kemiskinan_Sumatera.csv
- Spark cluster (2 workers)
- Airflow DAG:
poverty_mapping_dag_etl_final
- Hive untuk query analitik
- Dashboard Superset interaktif
- Analisis statistik dan eksplorasi data di Jupyter
extract_csv_data
validate_and_clean
spark_transform_daa
load_to_postgres_hive
create_analysis_view
- Peta interaktif kemiskinan
- Korelasi indikator ekonomi
- Distribusi penduduk miskin
- KPI Cards, Pie Chart, Gauge Chart
- Tabel perbandingan dan statistik antar provinsi
Komponen | Port Lokal |
---|---|
Superset Dashboard | localhost:8089 |
Airflow UI | localhost:8090 |
Spark Master UI | localhost:8080 |
Jupyter Notebook | localhost:8888 |
Hive Server2 | localhost:10000 |
PostgreSQL | localhost:5432 |
├── airflow/dags/ # ETL workflows (DAGs)
├── data/ # Dataset CSV
├── notebooks/ # Jupyter analysis
├── docker-compose.yml # Docker stack definition
├── Arsitektur Pipeline.png # Gambar arsitektur
├── Laporan Akhir Tugas ABD_Kelompok 18 RB.pdf # Dokumentasi proyek
└── README.md # Dokumentasi proyek
- Tingkat kemiskinan rerata: 17.5%
- Sumatera Barat menunjukkan kedalaman kemiskinan tertinggi
- Tiga provinsi memiliki jumlah penduduk miskin yang relatif setara
- Distribusi risiko kemiskinan menunjukkan urgensi intervensi sosial terintegrasi
- Dataset utama dari Badan Pusat Statistik (2018–2022)
- Teknologi Big Data dan arsitektur pipeline mengacu pada praktik industri modern
Untuk detail lengkap mengenai implementasi dan hasil analisis, silakan baca laporan tugas akhir berikut:
📥 Unduh / Lihat Laporan Tugas Akhir (PDF)
- Try Yani Rizki Nur Rohmah
- Nabiilah Putri Karnaia
- Priska Silvia Ferantiana
- Naufal Fakhri
Proyek ini merupakan tugas akhir mata kuliah Analisis Big Data, Program Studi Sains Data, Institut Teknologi Sumatera.