Skip to content

MuratKomurcu1/NLP-portfolio

Repository files navigation

🧠 Doğal Dil İşleme (NLP) Eğitim Serisi - Kapsamlı Özet

🚀 Giriş: NLP Dünyasına Yolculuk

Bu eğitim serisi, doğal dil işlemenin temel kavramlarından en güncel transformer teknolojilerine kadar geniş bir spektrumu kapsamaktadır. Pratik uygulamalar ve kod örnekleri ile desteklenen bu içerik, NLP alanında sağlam bir temel oluşturmayı hedeflemektedir.


🤖 Conversational AI ve Chatbot Geliştirme

Temel Chatbot Mimarisi

Modern chatbot'ların nasıl çalıştığını anlatan bu bölümde, OpenAI API'si kullanılarak interaktif bir sohbet sistemi geliştirilmiştir. Konuşma geçmişinin yönetimi, kullanıcı girdi doğrulama ve güvenli çıkış mekanizmaları gibi temel chatbot bileşenleri ele alınmıştır.

Öne Çıkan Özellikler:

  • Sürekli konuşma akışı yönetimi
  • Türkçe dil desteği
  • API rate limiting ve error handling

📊 Duygu Analizi: Geleneksel ve Modern Yaklaşımlar

1. Makine Öğrenmesi Tabanlı Duygu Analizi

Pozitif ve negatif ürün yorumları üzerinde çoklu model karşılaştırması yapılmıştır. CountVectorizer ve TF-IDF vektörleştirme yöntemleri kullanılarak Logistic Regression, Naive Bayes ve SVM modelleri test edilmiştir.

Kritik Bulgular:

  • Basit sentiment'lerde tüm modeller mükemmel performans
  • Karışık sentiment'lı cümlelerde model davranış farklılıkları
  • Naive Bayes'in pozitif bias eğilimi gözlemlendi

2. VADER Sentiment Analyzer

Özellikle sosyal medya metinleri için optimize edilmiş VADER algoritması kullanılarak geleneksel yaklaşım incelenmiştir.

VADER'ın Avantajları:

  • Preprocessing gerektirmez
  • Compound score ile normalize edilmiş sonuçlar
  • Emoji ve slang desteği

3. Transformer Tabanlı Sentiment Analysis

Hugging Face pipeline'ı kullanılarak modern derin öğrenme yaklaşımı test edilmiştir.

Modern Yaklaşımın Üstünlükleri:

  • Daha sofistike context anlayışı
  • Pre-trained modellerin gücü
  • Yüksek doğruluk oranları

🎯 Soru-Cevaplama Sistemleri

BERT ile Extractive QA

SQuAD dataset'i üzerinde eğitilmiş BERT modeli kullanılarak, metin içinden doğrudan cevap çıkarma işlemi gerçekleştirilmiştir.

Teknik Detaylar:

  • Token-level start/end skorlaması
  • Attention mechanism kullanımı
  • 512 token maksimum input sınırı

T5 ile Generative QA

Text-to-text unified framework yaklaşımı ile daha esnek soru-cevaplama sistemi geliştirilmiştir.

T5'in Avantajları:

  • Unified format: "question: ... context: ..."
  • Generative approach
  • Daha uzun ve açıklayıcı cevaplar

📝 Metin Özetleme Teknikleri

Extractive Summarization

Sumy kütüphanesi ve LexRank algoritması kullanılarak mevcut cümlelerden en önemli olanları seçen yöntem uygulanmıştır.

Extractive Yöntemin Karakteristikleri:

  • Orijinal cümleleri korur
  • Hızlı ve güvenilir
  • Sınırlı yaratıcılık

Abstractive Summarization

Facebook BART modeli ile yeni cümleler üreten gelişmiş özetleme tekniği incelenmiştir.

Abstractive Yöntemin Avantajları:

  • Orijinal içeriği yeniden formüle eder
  • Daha akıcı ve doğal özetler
  • Yaratıcı dil kullanımı

🔤 Word Embeddings: FastText Deep Dive

Subword Representation Innovation

FastText'in Word2Vec'ten temel farkı olan karakter n-gram yaklaşımı detaylı olarak incelenmiştir.

FastText'in Teknik Üstünlükleri:

  • Out-of-vocabulary (OOV) kelime desteği
  • Morfolojik zenginlik yakalama
  • Türkçe gibi eklemeli dillerde üstün performans

Practical Implementation

Türkçe örnek cümleler ile model eğitimi gerçekleştirilerek kelime benzerlik hesaplamaları yapılmıştır. PCA ve t-SNE görselleştirmeleri ile word embedding'lerin semantik uzaydaki dağılımı analiz edilmiştir.


🏷️ Metin Sınıflandırma: FastText vs Klasik ML

FastText Supervised Learning

E-ticaret ürün kategorileri dataset'i üzerinde FastText'in sınıflandırma kabiliyeti test edilmiştir.

FastText Sınıflandırma Avantajları:

  • Hızlı eğitim ve inference
  • Büyük dataset'lerde verimlilik
  • Built-in text preprocessing

Traditional ML Pipeline

Kapsamlı bir makine öğrenmesi pipeline'ı ile alternatif yaklaşım geliştirilmiştir:

Pipeline Bileşenleri:

  • Comprehensive text preprocessing
  • TF-IDF vectorization
  • Multiple classifier comparison
  • Ridge Classifier'ın optimal performansı

Model Karşılaştırması: 9 farklı ML algoritması test edilerek Ridge Classifier'ın en yüksek validation accuracy'si elde ettiği gözlemlenmiştir.


🔧 Text Preprocessing Best Practices

Tüm projeler boyunca tutarlı text preprocessing yaklaşımı benimsenmiştir:

Core Preprocessing Steps:

  • Tokenization: Metni anlamlı birimlere ayırma
  • Lowercasing: Büyük-küçük harf normalizasyonu
  • Punctuation Removal: Noktalama işaretlerini temizleme
  • Stopwords Filtering: Anlamsız kelimeleri çıkarma
  • Lemmatization: Kelimeleri kök formlarına dönüştürme

Advanced Techniques:

  • Regular expression based cleaning
  • Whitespace normalization
  • Special character handling
  • N-gram feature extraction

📈 Performance Evaluation & Metrics

Classification Metrics

  • Accuracy: Genel doğruluk oranı
  • Precision: Pozitif tahminlerin doğruluğu
  • Recall: Gerçek pozitifleri yakalama oranı
  • Confusion Matrix: Detaylı hata analizi

Model Comparison Framework

Tutarlı değerlendirme kriterleri ile farklı yaklaşımların objektif karşılaştırılması sağlanmıştır.


🎓 Key Learnings ve Best Practices

1. Model Selection Strategy

  • Basit görevler için geleneksel ML yeterli
  • Karmaşık semantik anlama için transformer modelleri
  • Hız/performans trade-off'u dikkate alınmalı

2. Data Quality Impact

  • Clean ve balanced dataset'lerin kritik önemi
  • Preprocessing kalitesinin final performansa doğrudan etkisi
  • Out-of-vocabulary problem'inin subword approach ile çözümü

3. Practical Implementation Insights

  • Pipeline modülerliğinin sürdürülebilirlik açısından önemi
  • Cross-validation'ın güvenilir sonuçlar için gerekliliği
  • Hyperparameter tuning'in performance gain'e katkısı

🚀 Future Directions

Bu eğitim serisi, NLP alanındaki temel kavramları kapsamlı bir şekilde ele almıştır. İleri seviye konular için:

  • Large Language Models (LLMs) fine-tuning teknikleri
  • Retrieval Augmented Generation (RAG) sistemleri
  • Multimodal AI uygulamaları
  • Production deployment stratejileri

konularının derinlemesine incelenmesi önerilmektedir.


About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published