Prediksi Hasil Panen Berdasarkan Faktor Cuaca dan Lahan di Sumatera Melalui Sistem Data Lakehouse dengan Arsitektur Medallion

🔍 Proyek Sistem Prediktif Menggunakan Hadoop, Spark, dan Hive

📘 Deskripsi Proyek

Proyek ini membangun sistem data lakehouse berbasis Hadoop dan Spark untuk memprediksi hasil panen padi di wilayah Sumatera.

Data diperoleh dari dua sumber utama:

Data cuaca/iklim dari BMKG
Data hasil panen dan luas lahan dari BPS

Data dari berbagai sumber masih terpisah dan berada di dalam folder:

📂 ./dataset/bronze/

Seluruh data diproses melalui arsitektur Medallion (Bronze → Silver → Gold), lalu digunakan untuk melatih model regresi dengan Apache Spark MLlib.

🧱 Arsitektur Sistem (Medallion Architecture)

🟫 Bronze Layer (Raw Zone - HDFS)

Menyimpan data mentah dari CSV
Tidak dilakukan pembersihan
Format: CSV
Disimpan di: hdfs:///bronze/bmkg/ & hdfs:///bronze/bps/

🪙 Silver Layer (Clean Zone - HDFS)

Data dibersihkan dengan Spark SQL (drop null & duplicates)
Format: Parquet atau ORC
Disimpan di: hdfs:///silver/hasil_panen/

🏅 Gold Layer (Curated Zone - HDFS)

Hasil feature engineering:
- Rata-rata suhu tahunan
- Total curah hujan
- Rata-rata kelembapan
- Luas panen
Format: Parquet
Disimpan di: hdfs:///gold/features/

⚙️ Tools dan Teknologi

Tools	Fungsi
Hadoop (HDFS)	Penyimpanan distributed
Apache Spark	ETL dan pelatihan model
Docker Compose	Containerisasi seluruh sistem
PySpark MLlib	Model prediktif (regresi)
Visual Studio Code	Lingkungan pengembangan

📁 Struktur Proyek

Prediksi-Hasil-Panen-Berdasarkan-Faktor-Cuaca-dan-Lahan-di-Sumatera/
├── docker/
│   ├── docker-compose.yml
│   ├── Dockerfile.datanode
│   └── Dockerfile.namenode
├── dataset/
│   ├── bronze/
│   │   ├── bmkg/
│   │   └── bps/
│   ├── silver/
│   └── gold/
├── scripts/
│   ├── 1_data_ingestion/
│   │   ├── ingest_data.py
│   │   └── README.md   
│   ├── 2_data_processing/
│   │   ├── bronze_to_silver.py
│   │   └── README.md
│   ├── 3_feature_engineering/
│   │   ├── silver_to_gold_features.py
│   │   └── README.md
│   ├── 4_model_training/
│   │   ├── train_predict_model.py
│   │   └── README.md
│   ├── 5_evaluation/
│   │   ├── evaluate_model.py
│   │   └── README.md
│   └── 6_visualization/
│       ├── visualization_model.py
│       └── README.md
└── README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Prediksi Hasil Panen Berdasarkan Faktor Cuaca dan Lahan di Sumatera Melalui Sistem Data Lakehouse dengan Arsitektur Medallion

📘 Deskripsi Proyek

🧱 Arsitektur Sistem (Medallion Architecture)

🟫 Bronze Layer (Raw Zone - HDFS)

🪙 Silver Layer (Clean Zone - HDFS)

🏅 Gold Layer (Curated Zone - HDFS)

⚙️ Tools dan Teknologi

📁 Struktur Proyek

👯Team Kelompok 25

Hizkia Christovita Siahaan - 122140110

Raid Muhammad Naufal - 122450027

Izza Lutfia - 122450090

Dinda Nababan - 122450120

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 3

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
dataset		dataset
docker		docker
scripts		scripts
README.md		README.md

sains-data/Prediksi-Hasil-Panen-Berdasarkan-Faktor-Cuaca-dan-Lahan-di-Sumatera

Folders and files

Latest commit

History

Repository files navigation

Prediksi Hasil Panen Berdasarkan Faktor Cuaca dan Lahan di Sumatera Melalui Sistem Data Lakehouse dengan Arsitektur Medallion

📘 Deskripsi Proyek

🧱 Arsitektur Sistem (Medallion Architecture)

🟫 Bronze Layer (Raw Zone - HDFS)

🪙 Silver Layer (Clean Zone - HDFS)

🏅 Gold Layer (Curated Zone - HDFS)

⚙️ Tools dan Teknologi

📁 Struktur Proyek

👯Team Kelompok 25

Hizkia Christovita Siahaan - 122140110

Raid Muhammad Naufal - 122450027

Izza Lutfia - 122450090

Dinda Nababan - 122450120

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 3

Uh oh!

Languages

Packages