Bu proje, mock_rep
ve sars_cov_rep
örnek grupları arasında diferansiyel gen ekspresyonu analizi gerçekleştirmek amacıyla hazırlanmıştır. Aşağıda analiz süreci detaylı adımlarla açıklanmıştır.
Bu görselde veri hazırlığından KEGG analizine kadar tüm analiz adımları özetlenmektedir.
Aşağıdaki PCA grafiği, örnekler arasındaki varyansı ve grupların ayrımını göstermektedir:
R ortamında analiz için kullanılan temel kütüphaneler şunlardır: tidyverse
, DESeq2
, gprofiler2
, ggplot2
.
assesment_dataset.tsv
dosyası yüklenir.- Gen ID'leri (
converted_alias
) alınır ve tekrar edenler filtrelenir. - Sayımlar tam sayıya yuvarlanır.
- Toplam ifadesi sıfır olan genler filtrelenir.
DESeqDataSetFromMatrix
ile DESeq2 nesnesi oluşturulur.- Varyans stabilizasyon dönüşümü (VST) uygulanır.
- PCA ile örneklerin dağılımı görselleştirilir.
DESeq()
fonksiyonu ile analiz gerçekleştirilir.lfcShrink()
ile log2 fold değişimleri stabilize edilir.
- p-adj değeri 0.05'ten küçük olan genler filtrelenir.
- Bu anlamlı genlerin Ensembl ID listesi çıkarılır.
gProfiler aracı ile aşağıdaki terim grupları için zenginleştirme analizi yapılır:
- GO:BP (Biyolojik Süreçler)
- GO:MF (Moleküler Fonksiyonlar)
- KEGG
- REAC (Reactome)
Her terim için terim adı, p-değeri ve katkıda bulunan gen sayısı raporlanır.
Not: Analiz, Homo sapiens (insan) türü için yapılmıştır ve
g_SCS
düzeltme yöntemi kullanılmıştır.
converter.tsv
dosyası kullanılarak Ensembl ID’ler Entrez ID’ye dönüştürülür.left_join()
fonksiyonu ile eşleştirme yapılır.
- Yalnızca KEGG kaynaklı terimler filtrelenir.
- Bu terimler p-değerine göre sıralanır.
- İlk 5 KEGG yoluna otomatik olarak bağlantılar oluşturulur: