Skip to content

This repository contains the final project (skripsi) for sentiment classification on Indonesian Twitter data using the hashtag #KaburAjaDulu. It explores the performance comparison between a fine-tuned IndoBERT model and traditional machine learning models (such as SVM with IndoBERT embeddings). Built with πŸ€— Hugging Face Transformers.

License

Notifications You must be signed in to change notification settings

EricoAstama/IndoBERTvsSVM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

7 Commits
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

IndoBERT vs SVM

IndoBERT Fine-Tuning for Sentiment Classification on #KaburAjaDulu Tweets πŸš€

IndoBERT Embeddings + SVM for Sentiment Classification on #KaburAjaDulu Tweets πŸš€

GitHub license Hugging Face Model

Proyek ini berfokus pada fine-tuning model [IndoBERT] dan [IndoBERT] Embeddings sebagai feature exctration dengan [SVM] (https://huggingface.co/indobenchmark/indobert-base-p2) untuk tugas klasifikasi sentimen terhadap tweet berbahasa Indonesia yang menggunakan tagar #KaburAjaDulu.

πŸ” Latar Belakang

"#KaburAjaDulu" menjadi tagar yang cukup viral di media sosial Indonesia, mencerminkan opini publik terhadap isu-isu sosial, politik, atau lingkungan. Penelitian ini mencoba mengklasifikasikan sentimen dari tweet-tweet tersebut ke dalam 3 kelas:

  • 0: Positif
  • 1: Netral
  • 2: Negatif

πŸ“Š Dataset

Dataset yang digunakan adalah hasil crawling dari Twitter menggunakan tagar #KaburAjaDulu. Dataset ini terdiri dari 20.968 tweet yang telah dilabeli secara pseudo-labeling ke dalam 3 kelas sentimen.

🧠 Model

Model yang digunakan untuk pseudo-labeling adalah [IndoBERT] (https://huggingface.co/ayameRushia/bert-base-indonesian-1.5G-sentiment-analysis-smsa) yang merupakan model BERT yang telah dilatih pada korpus bahasa Indonesia. Model ini diambil dari Hugging Face Model Hub dan digunakan untuk menghasilkan representasi teks yang lebih baik untuk klasifikasi sentimen. Model yang digunakan untuk fine-tuning dan embeddings extraction adalah indobenchmark/indobert-base-p2, dilatih menggunakan Hugging Face Trainer dengan parameter fine-tuning sebagai berikut:

learning_rate = 2e-5
batch_size = 16
epochs = 5
weight_decay = 0.01

πŸ›  Teknologi & Tools

Hugging Face Transformers πŸ€—

PyTorch

Scikit-learn

Evaluate (accuracy, F1-score)

Matplotlib (visualisasi loss & akurasi)

🀝 Kontribusi

Kontribusi terbuka! Jangan ragu untuk membuat issue atau pull request jika ingin meningkatkan proyek ini.

πŸ“œ Lisensi

License Β© 2025 Erico Astama

About

This repository contains the final project (skripsi) for sentiment classification on Indonesian Twitter data using the hashtag #KaburAjaDulu. It explores the performance comparison between a fine-tuned IndoBERT model and traditional machine learning models (such as SVM with IndoBERT embeddings). Built with πŸ€— Hugging Face Transformers.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published