Skip to content

sains-data/Prediksi-Hasil-Panen-Berdasarkan-Faktor-Cuaca-dan-Lahan-di-Sumatera

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

39 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Prediksi Hasil Panen Berdasarkan Faktor Cuaca dan Lahan di Sumatera Melalui Sistem Data Lakehouse dengan Arsitektur Medallion

🔍 Proyek Sistem Prediktif Menggunakan Hadoop, Spark, dan Hive

📘 Deskripsi Proyek

Proyek ini membangun sistem data lakehouse berbasis Hadoop dan Spark untuk memprediksi hasil panen padi di wilayah Sumatera.

Data diperoleh dari dua sumber utama:

  • Data cuaca/iklim dari BMKG
  • Data hasil panen dan luas lahan dari BPS

Data dari berbagai sumber masih terpisah dan berada di dalam folder:

📂 ./dataset/bronze/

Seluruh data diproses melalui arsitektur Medallion (Bronze → Silver → Gold), lalu digunakan untuk melatih model regresi dengan Apache Spark MLlib.


🧱 Arsitektur Sistem (Medallion Architecture)

Medallion Data Pipeline 1

🟫 Bronze Layer (Raw Zone - HDFS)

  • Menyimpan data mentah dari CSV
  • Tidak dilakukan pembersihan
  • Format: CSV
  • Disimpan di: hdfs:///bronze/bmkg/ & hdfs:///bronze/bps/

🪙 Silver Layer (Clean Zone - HDFS)

  • Data dibersihkan dengan Spark SQL (drop null & duplicates)
  • Format: Parquet atau ORC
  • Disimpan di: hdfs:///silver/hasil_panen/

🏅 Gold Layer (Curated Zone - HDFS)

  • Hasil feature engineering:
    • Rata-rata suhu tahunan
    • Total curah hujan
    • Rata-rata kelembapan
    • Luas panen
  • Format: Parquet
  • Disimpan di: hdfs:///gold/features/

⚙️ Tools dan Teknologi

Tools Fungsi
Hadoop (HDFS) Penyimpanan distributed
Apache Spark ETL dan pelatihan model
Docker Compose Containerisasi seluruh sistem
PySpark MLlib Model prediktif (regresi)
Visual Studio Code Lingkungan pengembangan

📁 Struktur Proyek

Prediksi-Hasil-Panen-Berdasarkan-Faktor-Cuaca-dan-Lahan-di-Sumatera/
├── docker/
│   ├── docker-compose.yml
│   ├── Dockerfile.datanode
│   └── Dockerfile.namenode
├── dataset/
│   ├── bronze/
│   │   ├── bmkg/
│   │   └── bps/
│   ├── silver/
│   └── gold/
├── scripts/
│   ├── 1_data_ingestion/
│   │   ├── ingest_data.py
│   │   └── README.md   
│   ├── 2_data_processing/
│   │   ├── bronze_to_silver.py
│   │   └── README.md
│   ├── 3_feature_engineering/
│   │   ├── silver_to_gold_features.py
│   │   └── README.md
│   ├── 4_model_training/
│   │   ├── train_predict_model.py
│   │   └── README.md
│   ├── 5_evaluation/
│   │   ├── evaluate_model.py
│   │   └── README.md
│   └── 6_visualization/
│       ├── visualization_model.py
│       └── README.md
└── README.md

👯Team Kelompok 25

Hizkia Christovita Siahaan - 122140110

Raid Muhammad Naufal - 122450027

Izza Lutfia - 122450090

Dinda Nababan - 122450120

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •  

Languages