CCB-SB
diff --git a/‎workflow/Snakefile
Lines changed: 7 additions & 1 deletion b/‎workflow/Snakefile
Lines changed: 7 additions & 1 deletion
diff --git a/‎workflow/envs/cgview_build.yaml
Lines changed: 3 additions & 1 deletion b/‎workflow/envs/cgview_build.yaml
Lines changed: 3 additions & 1 deletion
diff --git a/‎workflow/envs/py_env.yaml
Lines changed: 1 addition & 0 deletions b/‎workflow/envs/py_env.yaml
Lines changed: 1 addition & 0 deletions
diff --git a/‎workflow/envs/r_env.yml
Lines changed: 2 additions & 0 deletions b/‎workflow/envs/r_env.yml
Lines changed: 2 additions & 0 deletions
diff --git a/‎workflow/rules/features.smk
Lines changed: 83 additions & 46 deletions b/‎workflow/rules/features.smk
Lines changed: 83 additions & 46 deletions
diff --git a/‎workflow/rules/mashdb.smk
Lines changed: 22 additions & 2 deletions b/‎workflow/rules/mashdb.smk
Lines changed: 22 additions & 2 deletions
diff --git a/‎workflow/rules/module_downstream.smk
Lines changed: 50 additions & 64 deletions b/‎workflow/rules/module_downstream.smk
Lines changed: 50 additions & 64 deletions
@@ -31,12 +31,16 @@ include: "rules/deduplication.smk"
 # Filtering
 include: "rules/chromosomal.smk"
 
+# Embedding
+include: "rules/mashdb.smk"
+
 # Sequence annotation
 include: "rules/viral.smk"
 include: "rules/bgc.smk"
 include: "rules/amr.smk"
 include: "rules/features.smk"
-# include: "rules/typing.smk"
+include: "rules/proteins.smk"
+include: "rules/typing.smk"
 
 # Metadata annotation
 include: "rules/ecosystem.smk"
@@ -85,6 +89,8 @@ rule all:
         ### Features
         # rules.features_gbk.output,
         # rules.features_json.output,
+        rules.ipg_join.output,
+        # rules.eggnog_join.output,
         ### Typing
         # rules.mob_typer.output,
         # rules.pmlst_join.output,
 
@@ -3,4 +3,6 @@ channels:
   - defaults
 dependencies:
   - conda-forge::rb-bio==2.0.1
-  - pip
+  - pip
+  - pip:
+    - git+https://meta:glpat-YwMVAVL3bf5vVbFpXeN5@ccb-gitlab.cs.uni-saarland.de/metagenomics/pipelines/utils.git
@@ -6,6 +6,7 @@ channels:
     - defaults
 dependencies:
     - conda-forge::biopython==1.83
+    - conda-forge:umap-learn
     - pip
     - pip:
         - git+https://meta:glpat-YwMVAVL3bf5vVbFpXeN5@ccb-gitlab.cs.uni-saarland.de/metagenomics/pipelines/utils.git
@@ -20,3 +20,5 @@ dependencies:
   - conda-forge::r-janitor==2.2.0
   - conda-forge::r-svglite
   - conda-forge::r-upsetr
+  - conda-forge::r-testit
+  - conda-forge::r-argparse
@@ -64,55 +64,92 @@ rule genbank_join:
         cat {input.gbk} > {output[0]}
         """
 
-##################################################
-# NCBI + AMR + ANTISMASH
-##################################################
+###############################################################################
+# Prokaryotic Genome Annotation Pipeline
+###############################################################################
+rule pgap:
+    input: "/local/plsdb/plsdb_2024/workflow/AB011549.2.fasta"
+    output: directory(join(OUTDIR, "pgap", "test"))
+    container: "docker://ncbi/pgap-utils:2024-07-18.build7555"
+    shell:
+        """
+        ./pgap.py -r -o {output[0]} -g {input[0]} -s 'Escherichia coli'
+        """
 
-rule features_gbk:
-    input:
-        fasta = filtered_fasta,
-        nucc = filtered_pls,
-        bgc = rules.antismash_join.output.tsv,
-        genbank = rules.genbank_join.output[0],
-        amr = rules.hamronize_dedup.output[0]
+###############################################################################
+# IDENTICAL PROTEIN GROUP
+###############################################################################
+rule ipg_queries:
+    input: join(OUTDIR, "final/proteins.csv")
+    params:
+        api_file = config["api_key_file"],
+        ncbi_api = config["eutils"]["api_key"],
+        database = 'ipg',
+        batch_size = 8000, # Maximum
+        eget_cmd = "| esummary -mode json",
+        xtract_cmd = ""
+    output:
+        DIR = directory(join(OUTDIR, "data_collection/ipg", 
+                f"queries_{config['timestamp']}")),
+        batches = expand(
+            join(OUTDIR, "data_collection/ipg", 
+                f"queries_{config['timestamp']}", "batch_{batches}.pickle"),
+                batches = range(0, config['ipg']['batches']))
+    threads: 1
+    log:
+       join(OUTDIR, "data_collection/ipg",
+            f"queries_{config['timestamp']}/ipg_queries.log")
+    wrapper:
+        "file:///local/plsdb/master/wrappers/ncbi/ipg/queries"
+
+rule ipg_api:
+    input: 
+        pickle = join(rules.ipg_queries.output.DIR, "batch_{batch}.pickle")
+    params:
+        ncbi_api = config["eutils"]["api_key"],
+        api_file = config["api_key_file"],
+        batch_size = 5000
     output:
-        amr_tab = join(OUTDIR, "final", "amr.tsv"),
-        gc_tab = join(OUTDIR, "filtering/metadata/nucc_gc.csv"),
-        proteins_tab = join(OUTDIR, "final/proteins.csv"),
-        proteins = join(OUTDIR, "final/proteins.fasta"),
-        DIR = directory(join(OUTDIR, "final/features/gbk/"))
-    conda: "../envs/py_env.yaml"
-    script:
-        "../scripts/features.py"
+        pickle = join(OUTDIR, "data_collection/ipg",
+            f"api_{config['timestamp']}", "batch_{batch}.pickle")
+    threads: 10 # NOTE: max 10 to prevent too many requests
+    benchmark: 
+        join(OUTDIR, "data_collection/ipg",
+            f"api_{config['timestamp']}", "batch_{batch}.bench")
+    log:
+       join(OUTDIR, "data_collection/ipg",
+            f"api_{config['timestamp']}", "batch_{batch}.log")
+    wrapper:
+        "file:///local/plsdb/master/wrappers/ncbi/ipg/api"
 
-rule features_json:
+rule ipg_extraction:
     input: 
-        DIR = rules.features_gbk.output.DIR,
-        config = "../src/cgview_config.yaml"
+        pickle = lambda wildcards: expand(rules.ipg_api.output.pickle, batch=wildcards.batch)
     output:
-        DIR = directory(join(OUTDIR, "final/features/json")),
-        DIR_repo = directory("../scripts/cgview-builder/")
-    conda: "../envs/cgview_build.yaml"
-    shell:
-        """
-        mkdir -p {output.DIR}
-        git clone https://github.com/stothard-group/cgview-builder.git -b master {output.DIR_repo}
-        DIR="{input.DIR}/*"
-        for file in $DIR; do
-            prefix=$(basename -- "$file" .gbk)
-            ruby {output.DIR_repo}/cgview_builder_cli.rb --sequence $file \
-                --outfile {output.DIR}/$prefix.json \
-                --config {input.config}
-        done
-        """
+        csv = join(OUTDIR, "data_collection/ipg",
+                f"extraction_{config['timestamp']}", "batch_{batch}.csv")
+    log:
+       join(OUTDIR, "data_collection/ipg",
+            f"extraction_{config['timestamp']}", "batch_{batch}.log")
+    benchmark:
+       join(OUTDIR, "data_collection/ipg",
+            f"extraction_{config['timestamp']}", "batch_{batch}.bench")
+    threads: 1
+    wrapper:
+        "file:///local/plsdb/master/wrappers/ncbi/ipg/extraction"
+
+rule ipg_join:
+    input: 
+        files = expand(rules.ipg_extraction.output.csv, 
+            batch = range(0, config['ipg']['batches']))
+    output: 
+        csv = join(OUTDIR, "data_collection/ipg/",
+            f"extraction_{config['timestamp']}", f"ipg_records.csv")
+    threads: 1
+    run:
+        import pickle
+        import pandas as pd
 
-# rule cluster_proteins:
-#     input:
-#         rules.features_gbk.proteins
-#     output:
-#         join(OUTDIR, "proteins/diamond_clust.tsv")
-#     shell:
-#         """
-#         diamond cluster -d {input[0]} -o {output[0]} \
-#             --header --approx-id 
-#         """
+        ipg_df = pd.concat([pd.read_csv(str(f)) for f in input.files ], ignore_index=True)
+        ipg_df.drop_duplicates(inplace=True)
+        ipg_df.to_csv(output.csv, index=False)
@@ -1,6 +1,6 @@
 rule mashdb_sketch:
     input: 
-        fasta = "../../results/filtering/deduplication/pls_dedup.fasta", # rules.deduplication.output.fasta
+        fasta = filtered_fasta
     output:
         join(OUTDIR, "mashdb","plsdb_sketch.msh")
     params:
@@ -70,4 +70,24 @@ rule mashdb_dist:
         join(OUTDIR, "mashdb","db/mash_dist.bench")
     threads: workflow.cores
     wrapper:
-        "file:///local/plsdb/master/wrappers/mash"
+        "file:///local/plsdb/master/wrappers/mash"
+
+# UMAP
+#################################################
+
+# Embedding using UMAP on Mash distances
+rule mashdb_umap:
+    input:
+        rules.mashdb_dist.output
+    output:
+        join(OUTDIR, "mashdb", "umap_mash_dist.umap")
+    params:
+        neighbors=config['umap']['neighbors'],
+        components=config['umap']['components'],
+        min_dist=config['umap']['min_dist']
+    log:
+        join(OUTDIR, "mashdb", "process_umap.log")
+    conda: "../envs/py_env.yaml"
+    script:
+        "../scripts/process/process_umap.py"
+
@@ -69,28 +69,57 @@ rule nucc_table:
         nucc = filtered_pls,
         gc = rules.features_gbk.output.gc_tab,
         viral = rules.viral_curation.output.pls,
-        pmlst = join(OUTDIR, "typing/pmlst/summary/results.tsv") # rules.pmlst_join.output[0],
+        umap = rules.mashdb_umap.output[0]
     output:
-        join(OUTDIR, "final", "nuccore.csv")
+        #join(OUTDIR, "final", "nuccore.csv")
+        temp(join(OUTDIR, "final", "tmp_nuccore.csv"))
     run:
         import pandas as pd
 
         nucc = pd.read_csv(input.nucc)
         nucc.drop(columns=['NUCCORE_Topology'], inplace=True)
         gc = pd.read_csv(input.gc).drop_duplicates()
         viral = pd.read_csv(input.viral)
-        pmlst = pd.read_table(input.pmlst)
+        umap = pd.read_csv(input.umap, sep='\t', header=0, dtype=str)
 
         print(nucc.columns)
         df1 = pd.merge(nucc, gc, how='left', on="NUCCORE_ACC", validate="1:1")
         print(df1.columns)
         df2 = pd.merge(df1, viral, how='left', on="NUCCORE_ACC", validate="1:1")
         print(df2.columns)
-        final = pd.merge(df2, pmlst, how='left', on="NUCCORE_ACC", validate="1:1")
+        final = pd.merge(df2, umap, how='left', on="NUCCORE_ACC", validate="1:1")
         print(final.columns)
 
         final.to_csv(output[0], index=False)
 
+rule inspect_outliers:
+    input:
+        nucc = rules.nucc_table.output[0],
+        typing = rules.typing_table.output[0],
+        amr = rules.features_gbk.output.amr_tab,
+        proteins = rules.features_gbk.output.proteins_tab
+    output:
+        csv=join(OUTDIR_filtering, "suppressed_outliers.csv")
+    conda: "../envs/r_env.yml"
+    script:
+        "../scripts/filtering/inspect_outliers.R"
+
+rule final_nucc_table:
+    input:
+        nucc = rules.nucc_table.output[0],
+        status = rules.inspect_outliers.output[0]
+    output:
+        join(OUTDIR, "final", "nuccore.csv")
+    run:
+        import pandas as pd
+
+        nucc = pd.read_csv(input.nucc)
+        status = pd.read_csv(input.status)
+
+        df = pd.merge(nucc, status, how='left', on="NUCCORE_ACC", validate="1:1")
+        df.to_csv(output[0], index=False)
+
+
 rule final_fasta:
     input: filtered_fasta
     output: join(OUTDIR, "final/sequences.fasta")
@@ -129,72 +158,29 @@ rule createmash:
 #         width=10,
 #         height=6
 #     conda:
-#         "../envs/requirements.yml"
+#         "../envs/r_env.yml"
 #     shell:
 #         """
 #         Rscript scripts/dstream_summary.R --tab {input} \
 #         --pdf {output.pdf} --width {params.width} \
 #         --height {params.height} | tee {output.txt}
 #         """
 
-
 # # Compare to older version
 # ##################################################
-# rule dstream_compare:
-#     input:
-#         new = rules.process_infotable.output,
-#         old = config['previous_table'],
-#         new_nonfiltered = rules.retrieve_plasmid_taxid.output[1]
-#     conda:
-#         "../envs/requirements.yml"
-#     output:
-#         txt = join(OUTDIR_dstream, "changes.tsv"),
-#         log = join(OUTDIR_dstream, "changes.tsv.log")
-#     shell:
-#         """
-#         Rscript scripts/dstream_compare_tabs.R  -n {input.new} \
-#         -o {input.old} -f {input.new_nonfiltered} \
-#         -t {output.txt} -l {output.log}
-#         """
-
-# # Server data
-# ##################################################
-# rule dstream_server_data:
-#     input:
-#         abr = rules.process_join_abricate.output.tsv,
-#         changes = rules.dstream_compare.output.txt,
-#         changes_log = rules.dstream_compare.output.log,
-#         html = rules.dstream_krona_html.output,
-#         msh = rules.process_mash_sketch.output,
-#         sim = rules.dstream_sim_records.output,
-#         infotab = rules.process_infotable.output,
-#         fasta = rules.filter_artifacts.output.fasta
-#     output:
-#         dir = directory("../src/server_data"),
-#         fasta = "../src/server_data/plsdb.fna"
-#     conda: 
-#         "../envs/py_env.yml"
-#     shell:
-#         """
-#         mkdir -p {output.dir} && \
-#             cp {input.abr} {output.dir}/plsdb.abr &&\
-#             cp {input.changes} {output.dir}/plsdb_changes.tsv &&\
-#             cp {input.html} {output.dir}/plsdb.html &&\
-#             cp {input.msh} {output.dir}/plsdb.msh &&\
-#             cp {input.sim} {output.dir}/plsdb.sim &&\
-#             cp {input.infotab} {output.dir}/plsdb.tsv && \
-#             cp {input.fasta} {output.dir}/plsdb.fna && \
-#             bzip2 -zk {input.fasta} --stdout > {output.dir}/plsdb.fna.bz2
-#         """
-
-# # BLAST DBs
-# ##################################################
-# use rule process_make_rmlst_blastdb as dstream_blastndb with:
-#     input:
-#         fasta=rules.dstream_server_data.output.fasta,
-#     output:
-#         dbs = expand(["{file}.{ext}"],
-#             file = join("../src/server_data/", f"plsdb.fna"),
-#             ext=['nin', 'nhr', 'nsq', 'ndb', 'njs', 'not', 'ntf', 'nto'])
-#     params:
-#         title = 'plsdb'
+rule dstream_compare:
+    input:
+        new = rules.final_nucc_table.output[0],
+        old = f"../src/plsdb_{config['previous_version']}.csv",
+        new_nonfiltered = rules.join_NABT.output.nucc
+    conda:
+        "../envs/r_env.yml"
+    output:
+        txt = join(OUTDIR, "final" "changes.tsv"),
+        log = join(OUTDIR, "final", "changes.tsv.log")
+    shell:
+        """
+        Rscript scripts/dstream/dstream_compare_tabs.R  -n {input.new} \
+        -o {input.old} -f {input.new_nonfiltered} \
+        -t {output.txt} -l {output.log}
+        """