🧠 Doğal Dil İşleme (NLP) Eğitim Serisi - Kapsamlı Özet

🚀 Giriş: NLP Dünyasına Yolculuk

Bu eğitim serisi, doğal dil işlemenin temel kavramlarından en güncel transformer teknolojilerine kadar geniş bir spektrumu kapsamaktadır. Pratik uygulamalar ve kod örnekleri ile desteklenen bu içerik, NLP alanında sağlam bir temel oluşturmayı hedeflemektedir.

🤖 Conversational AI ve Chatbot Geliştirme

Temel Chatbot Mimarisi

Modern chatbot'ların nasıl çalıştığını anlatan bu bölümde, OpenAI API'si kullanılarak interaktif bir sohbet sistemi geliştirilmiştir. Konuşma geçmişinin yönetimi, kullanıcı girdi doğrulama ve güvenli çıkış mekanizmaları gibi temel chatbot bileşenleri ele alınmıştır.

Öne Çıkan Özellikler:

Sürekli konuşma akışı yönetimi
Türkçe dil desteği
API rate limiting ve error handling

📊 Duygu Analizi: Geleneksel ve Modern Yaklaşımlar

1. Makine Öğrenmesi Tabanlı Duygu Analizi

Pozitif ve negatif ürün yorumları üzerinde çoklu model karşılaştırması yapılmıştır. CountVectorizer ve TF-IDF vektörleştirme yöntemleri kullanılarak Logistic Regression, Naive Bayes ve SVM modelleri test edilmiştir.

Kritik Bulgular:

Basit sentiment'lerde tüm modeller mükemmel performans
Karışık sentiment'lı cümlelerde model davranış farklılıkları
Naive Bayes'in pozitif bias eğilimi gözlemlendi

2. VADER Sentiment Analyzer

Özellikle sosyal medya metinleri için optimize edilmiş VADER algoritması kullanılarak geleneksel yaklaşım incelenmiştir.

VADER'ın Avantajları:

Preprocessing gerektirmez
Compound score ile normalize edilmiş sonuçlar
Emoji ve slang desteği

3. Transformer Tabanlı Sentiment Analysis

Hugging Face pipeline'ı kullanılarak modern derin öğrenme yaklaşımı test edilmiştir.

Modern Yaklaşımın Üstünlükleri:

Daha sofistike context anlayışı
Pre-trained modellerin gücü
Yüksek doğruluk oranları

🎯 Soru-Cevaplama Sistemleri

BERT ile Extractive QA

SQuAD dataset'i üzerinde eğitilmiş BERT modeli kullanılarak, metin içinden doğrudan cevap çıkarma işlemi gerçekleştirilmiştir.

Teknik Detaylar:

Token-level start/end skorlaması
Attention mechanism kullanımı
512 token maksimum input sınırı

T5 ile Generative QA

Text-to-text unified framework yaklaşımı ile daha esnek soru-cevaplama sistemi geliştirilmiştir.

T5'in Avantajları:

Unified format: "question: ... context: ..."
Generative approach
Daha uzun ve açıklayıcı cevaplar

📝 Metin Özetleme Teknikleri

Extractive Summarization

Sumy kütüphanesi ve LexRank algoritması kullanılarak mevcut cümlelerden en önemli olanları seçen yöntem uygulanmıştır.

Extractive Yöntemin Karakteristikleri:

Orijinal cümleleri korur
Hızlı ve güvenilir
Sınırlı yaratıcılık

Abstractive Summarization

Facebook BART modeli ile yeni cümleler üreten gelişmiş özetleme tekniği incelenmiştir.

Abstractive Yöntemin Avantajları:

Orijinal içeriği yeniden formüle eder
Daha akıcı ve doğal özetler
Yaratıcı dil kullanımı

🔤 Word Embeddings: FastText Deep Dive

Subword Representation Innovation

FastText'in Word2Vec'ten temel farkı olan karakter n-gram yaklaşımı detaylı olarak incelenmiştir.

FastText'in Teknik Üstünlükleri:

Out-of-vocabulary (OOV) kelime desteği
Morfolojik zenginlik yakalama
Türkçe gibi eklemeli dillerde üstün performans

Practical Implementation

Türkçe örnek cümleler ile model eğitimi gerçekleştirilerek kelime benzerlik hesaplamaları yapılmıştır. PCA ve t-SNE görselleştirmeleri ile word embedding'lerin semantik uzaydaki dağılımı analiz edilmiştir.

🏷️ Metin Sınıflandırma: FastText vs Klasik ML

FastText Supervised Learning

E-ticaret ürün kategorileri dataset'i üzerinde FastText'in sınıflandırma kabiliyeti test edilmiştir.

FastText Sınıflandırma Avantajları:

Hızlı eğitim ve inference
Büyük dataset'lerde verimlilik
Built-in text preprocessing

Traditional ML Pipeline

Kapsamlı bir makine öğrenmesi pipeline'ı ile alternatif yaklaşım geliştirilmiştir:

Pipeline Bileşenleri:

Comprehensive text preprocessing
TF-IDF vectorization
Multiple classifier comparison
Ridge Classifier'ın optimal performansı

Model Karşılaştırması: 9 farklı ML algoritması test edilerek Ridge Classifier'ın en yüksek validation accuracy'si elde ettiği gözlemlenmiştir.

🔧 Text Preprocessing Best Practices

Tüm projeler boyunca tutarlı text preprocessing yaklaşımı benimsenmiştir:

Core Preprocessing Steps:

Tokenization: Metni anlamlı birimlere ayırma
Lowercasing: Büyük-küçük harf normalizasyonu
Punctuation Removal: Noktalama işaretlerini temizleme
Stopwords Filtering: Anlamsız kelimeleri çıkarma
Lemmatization: Kelimeleri kök formlarına dönüştürme

Advanced Techniques:

Regular expression based cleaning
Whitespace normalization
Special character handling
N-gram feature extraction

📈 Performance Evaluation & Metrics

Classification Metrics

Accuracy: Genel doğruluk oranı
Precision: Pozitif tahminlerin doğruluğu
Recall: Gerçek pozitifleri yakalama oranı
Confusion Matrix: Detaylı hata analizi

Model Comparison Framework

Tutarlı değerlendirme kriterleri ile farklı yaklaşımların objektif karşılaştırılması sağlanmıştır.

🎓 Key Learnings ve Best Practices

1. Model Selection Strategy

Basit görevler için geleneksel ML yeterli
Karmaşık semantik anlama için transformer modelleri
Hız/performans trade-off'u dikkate alınmalı

2. Data Quality Impact

Clean ve balanced dataset'lerin kritik önemi
Preprocessing kalitesinin final performansa doğrudan etkisi
Out-of-vocabulary problem'inin subword approach ile çözümü

3. Practical Implementation Insights

Pipeline modülerliğinin sürdürülebilirlik açısından önemi
Cross-validation'ın güvenilir sonuçlar için gerekliliği
Hyperparameter tuning'in performance gain'e katkısı

🚀 Future Directions

Bu eğitim serisi, NLP alanındaki temel kavramları kapsamlı bir şekilde ele almıştır. İleri seviye konular için:

Large Language Models (LLMs) fine-tuning teknikleri
Retrieval Augmented Generation (RAG) sistemleri
Multimodal AI uygulamaları
Production deployment stratejileri

konularının derinlemesine incelenmesi önerilmektedir.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
01-NLP.ipynb		01-NLP.ipynb
02-NLP.py		02-NLP.py
03-NLP.ipynb		03-NLP.ipynb
04-NLP.ipynb		04-NLP.ipynb
05-NLP.ipynb		05-NLP.ipynb
06-NLP.ipynb		06-NLP.ipynb
Chatbot.ipynb		Chatbot.ipynb
LICENSE		LICENSE
README.md		README.md

License

MuratKomurcu1/NLP-portfolio

Folders and files

Latest commit

History

Repository files navigation