Kapsamlı Nefret Suçu Veri Madenciliği ve Analizi (2017–2025)

🎯 Proje Genel Bakış

Bu kapsamlı veri bilimi projesi, 2017-2025 yılları arasındaki nefret suçu kalıplarını analiz etmek için gelişmiş analitik, makine öğrenmesi ve istatistiksel yöntemler kullanmaktadır. Analiz, kolluk kuvvetleri, politika yapıcılar ve toplum kuruluşları için önyargı güdümlü suçları daha iyi anlamak, tahmin etmek ve önlemek adına uygulanabilir içgörüler sağlar.

🔍 Araştırma Hedefleri

Kalıp Tanıma: Nefret suçu olaylarındaki zamansal, coğrafi ve demografik kalıpları tanımla
Tahmine Dayalı Modelleme: Önyargı türlerini ve olay özelliklerini tahmin eden makine öğrenmesi modelleri geliştir
Risk Değerlendirmesi: Proaktif kaynak tahsisi için risk puanlama sistemleri oluştur
Politika Desteği: Hedefli müdalaheler için veriye dayalı öneriler üret

🏗️ Proje Yapısı

hate-crime-data-mining/
├── 📁 notebooks/
│   ├── nefret-sucu-analizi-tr.ipynb        # Detaylı Türkçe analiz (Ana)
│   ├── nefret-sucu-özet.ipynb              # Konsantre özet rapor
│   └── hate-crime.ipynb                    # Orijinal İngilizce analiz
├── 📊 hate-crime_2017-2025.csv            # Ham veri kümesi (267 olay)
├── 🖼️ hate-crime.png                       # Proje görselleştirmesi
├── 📋 requirements.txt                     # Python bağımlılıkları (güncellenmiş)
├── 🐳 Dockerfile                          # Konteyner yapılandırması (Python 3.11)
├── 📖 README.md                           # Proje dokümantasyonu
├── 📝 Nefret_Sucu_Analiz_Raporu_2017-2025.md  # Detaylı rapor
└── 🔧 BUILD.md                            # Yapılandırma ve dağıtım kılavuzu

🔬 Analitik Metodolojiler

📊 Veri Madenciliği Teknikleri

Keşifsel Veri Analizi (EDA): Kapsamlı istatistiksel analiz ve görselleştirme
Zamansal Analiz: Zaman serisi ayrıştırma ve mevsimsel kalıp tanımlama
Jeouzamsal Analiz: Coğrafi kümeleme ve hotspot tanımlama
Birliktelik Kuralı Madenciliği: Olay özellikleri arasındaki ilişkilerin keşfi

🤖 Makine Öğrenmesi Modelleri

Sınıflandırma: Random Forest, Lojistik Regresyon, SVM, Gradient Boosting
Kümeleme: Olay kalıp tanımlama için K-Means kümeleme
Özellik Mühendisliği: Gelişmiş özellik oluşturma ve seçimi
Model Değerlendirme: Çapraz doğrulama, karışıklık matrisleri, performans ölçütleri

📈 İstatistiksel Analiz

Hipotez Testi: Ki-kare, korelasyon analizi, anlamlılık testi
Betimleyici İstatistikler: Dağılım analizi, aykırı değer tespiti
Tahmine Dayalı Analitik: Önyargı türü tahmini, risk puanlama
Ağ Analizi: Değişkenler arası ilişki haritalama

🚀 Hızlı Başlangıç Kılavuzu

Ön Gereksinimler

Python 3.11+ (optimize edilmiş performans)
Docker (önerilen)
16GB+ RAM önerilen (8GB minimum)

Seçenek 1: Docker Dağıtımı (Önerilen)

# Depoyu klonlayın
git clone <repository-url>
cd hate-crime-data-mining

# Docker konteynerini oluşturun ve çalıştırın
docker build -t nefret-sucu-analiz .
docker run -p 8888:8888 -v ${PWD}:/app --memory=8g nefret-sucu-analiz

# JupyterLab'a erişim: http://localhost:8888/lab

Seçenek 2: Yerel Kurulum

# Sanal ortam oluşturun ve etkinleştirin (önerilen)
python -m venv nefret-sucu-env
# Windows: nefret-sucu-env\Scripts\activate
# macOS/Linux: source nefret-sucu-env/bin/activate

# Bağımlılıkları yükleyin (güncellenmiş)
pip install -r requirements.txt

# JupyterLab'ı başlatın
jupyter lab notebooks/

📊 Anahtar Analiz Sonuçları

🎯 Önemli Bulgular

Önyargı Dağılımı: Anti-Siyah/Afrikalı Amerikalı olaylar en büyük kategoriyi temsil eder
Zamansal Kalıplar: Belirli aylarda pik aktivite ile net mevsimsel varyasyonlar
Coğrafi Yoğunlaşma: Belirli Austin posta kodları daha yüksek olay oranları gösterir
Makine Öğrenmesi Performansı: Önyargı türü tahmininde %78+ doğruluk
Kümeleme İçgörüleri: 3-4 farklı olay kalıp grubu tanımlandı

📈 Model Performansı

Model	Doğruluk	Çapraz-Val Skoru	Kullanım Alanı
Random Forest	%78.5	%76.2 ± 0.04	Özellik önem analizi
Lojistik Regresyon	%74.3	%72.8 ± 0.05	Yorumlanabilir tahminler
Gradient Boosting	%79.1	%77.5 ± 0.03	Yüksek doğruluk tahminleri
SVM	%73.6	%71.9 ± 0.06	Kalıp tanıma

💡 Uygulanabilir Öneriler

🎯 Kolluk Kuvvetleri İçin

Proaktif kaynak tahsisi için tahmine dayalı modeller kullanın
Müdahale çabalarını tanımlanan yüksek riskli alan ve zamanlara odaklayın
Kümeleme kalıplarına dayalı erken uyarı sistemleri uygulayın

🏛️ Politika Yapıcılar İçin

En yaygın önyargı türleri için hedefli önleme programları geliştirin
Coğrafi analize dayalı toplum kaynaklarını tahsis edin
Zamansal kalıp değişiklikleri için izleme sistemleri oluşturun

👥 Toplum Kuruluşları İçin

Yaygın önyargı türlerini ele alan eğitim kampanyaları tasarlayın
Yüksek riskli alanlarda toplum gözlem programları kurun
Önyargı olayı erken tespiti için raporlama mekanizmaları geliştirin

🔍 Anahtar Araştırma İçgörüleri

📊 Temel Keşifler

En Yaygın Önyargı: Anti-Siyah/Afrikalı Amerikalı olaylar tüm vakaların %35+'ini temsil eder
Zamansal Kalıplar: Yaz ayları %40 daha yüksek olay oranları gösterir
Coğrafi Hotspotlar: Austin şehir merkezi (78701) en yüksek olay yoğunluğuna sahip
Tahmin Başarısı: Random Forest modeli önyargı sınıflandırmasında %78.5 doğruluk elde eder
Kalıp Kümeleşmeleri: Denetimsiz öğrenme ile 4 farklı olay grubu tanımlandı

🔗 Önemli İlişkiler

Sokak/Otoyol konumları Anti-Siyah önyargı olayları ile güçlü ilişkili
İkamet konumları Anti-Eşcinsel önyargı olayları için daha olası
Hafta sonları belirli önyargı türleri için %25 daha yüksek oranlar gösterir
Çoklu-suçlu olaylar belirli önyargı motivasyonları ile korelasyon gösterir

🛠️ Teknik Uygulama

� Analiz Pipeline'ı

Veri Ön İşleme: Eksik değer atama, kategorik kodlama, özellik mühendisliği
Keşifsel Analiz: İstatistiksel özetler, dağılım analizi, korelasyon çalışmaları
Makine Öğrenmesi: Sınıflandırma modelleri, kümeleme algoritmaları, performans değerlendirme
Gelişmiş Analitik: Birliktelik kuralları, ağ analizi, zaman serisi ayrıştırma
Görselleştirme: İnteraktif grafikler, coğrafi haritalar, istatistiksel çizimler

📈 Model Spesifikasyonları

Özellikler: Zamansal, coğrafi ve demografik dahil 50+ mühendislik değişkeni
Eğitim Bölünmesi: Katmanlı örnekleme ile 80/20 eğitim-test bölünmesi
Doğrulama: Güçlü performans tahminleri için 5-katlı çapraz doğrulama
Ölçütler: Doğruluk, Hassasiyet, Hatırlama, F1-skoru, AUC-ROC

📁 Geliştirilmiş Depo Yapısı

hate-crime-data-mining/
├── 📁 notebooks/
│   ├── nefret-sucu-analizi-tr.ipynb        # Ana detaylı Türkçe analiz
│   ├── nefret-sucu-özet.ipynb              # Konsantre özet rapor (statik)
│   └── hate-crime.ipynb                    # Orijinal kapsamlı analiz
├── 📊 hate-crime_2017-2025.csv            # Temizlenmiş veri kümesi (267 olay)
├── 🖼️ hate-crime.png                       # Proje görselleştirmesi
├── 📋 requirements.txt                     # Python bağımlılıkları (Python 3.11)
├── 🐳 Dockerfile                          # Konteyner yapılandırması (optimize edilmiş)
├── 📖 README.md                           # Tam proje dokümantasyonu
├── 📝 Nefret_Sucu_Analiz_Raporu_2017-2025.md  # Detaylı Türkçe rapor
└── 🔧 BUILD.md                            # Teknik dağıtım kılavuzu

🤝 Katkı Sağlama ve Genişletmeler

🚀 Gelecek Geliştirmeler

Gerçek Zamanlı Entegrasyon: Canlı suç veri tabanlarına bağlantı
Gelişmiş Modeller: Derin öğrenme, ensemble yöntemler, zaman serisi tahmini
İnteraktif Dashboard: Web tabanlı görselleştirme ve izleme sistemi
Mobil Uygulama: Toplum raporlama ve uyarı sistemi

💡 Araştırma Genişletmeleri

Olay raporlarının duygu analizi
Sosyal medya korelasyon analizi
Ekonomik faktör entegrasyonu
Çoklu şehir karşılaştırmalı analiz

📄 Etik Düşünceler ve Sınırlılıklar

⚖️ Etik Kılavuzlar

Tüm analizler araştırma ve kamu güvenliği amaçları için yürütülmüştür
Veri anonimleştirme ve gizlilik koruması sürdürülmüştür
Ayrımcı sonuçları önlemek için önyargı-bilinçli modelleme
Şeffaf metodoloji ve tekrarlanabilir sonuçlar

⚠️ Bilinen Sınırlılıklar

Sınırlı örneklem boyutu (267 olay) genellenebilirliği etkileyebilir
Austin, TX'e coğrafi odaklanma daha geniş uygulanabilirliği sınırlar
Resmi suç istatistiklerinde raporlama önyargısı mevcut olabilir
Zamansal analiz mevcut tarih aralığı ile sınırlı (2017-2025)

📞 Destek ve İletişim

Teknik Sorunlar: Detaylı açıklama ile GitHub issue oluşturun Araştırma İşbirliği: Üniversite kanalları üzerinden iletişim kurun Veri Soruları: Orijinal veri kaynaklarına ve metodoloji dokümantasyonuna başvurun

Önemli Feragatname: Bu analiz eğitim ve araştırma amaçlıdır. Operasyonel uygulama alan uzmanları ve ek doğrulama içermelidir.

📌 Anahtar Kelimeler ve Teknolojiler

Teknolojiler: Python, Pandas, Scikit-learn, Plotly, NetworkX, JupyterLab, Docker Yöntemler: Makine Öğrenmesi, Veri Madenciliği, İstatistiksel Analiz, Jeouzamsal Analiz Alanlar: Suç Analitiği, Kamu Güvenliği, Sosyal Bilim Araştırması, Tahmine Dayalı Polislik

📜 Lisans ve Atıf

Lisans: Sadece Eğitim Amaçlı Kullanım Yazar: Valiark Kurum: Veri Madenciliği ve Analitik Araştırması Yıl: 2025

Bu proje, sosyal fayda ve kamu güvenliği araştırmasına uygulanan gelişmiş veri bilimi tekniklerini göstermektedir.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
notebooks		notebooks
BUILD.md		BUILD.md
Dockerfile		Dockerfile
Nefret_Sucu_Analiz_Raporu_2017-2025.md		Nefret_Sucu_Analiz_Raporu_2017-2025.md
README.md		README.md
hate-crime.png		hate-crime.png
hate-crime_2017-2025.csv		hate-crime_2017-2025.csv
requirements.txt		requirements.txt

Valiarkk/hate-crime-data-mining

Folders and files

Latest commit

History

Repository files navigation