Merge pull request #66 from torres-alexis/SW_AmpIllumina-B-optional-vis

asaravia-butler · web-flow · commit 8d82d8163ca7 · 2024-03-15T12:17:38.000-07:00
SW-AmpIllumina-B optional visualizations updates
Moved the visualization script from workflow_code/scripts/ to new folder workflow_code/visualizations/
Visualizations are now optional with the default being off.
R-visualizations.log is now checked for and then copied to the outputs along with the other logs
Visualizations can be enabled by either:
run_workflow.py launch: using the ‘--visualizations TRUE’ argument.
Direct snakemake launch: setting config[“enable_visualizations”] to “TRUE”
Reformatted Snakefile rule all inputs (final outputs) to make addition of conditional outputs easier
diff --git a/Amplicon/Illumina/Workflow_Documentation/README.md b/Amplicon/Illumina/Workflow_Documentation/README.md
@@ -6,7 +6,7 @@
 
 |Pipeline Version|Current Workflow Version (for respective pipeline version)|
 |:---------------|:---------------------------------------------------------|
-|*[GL-DPPD-7104-B.md](../Pipeline_GL-DPPD-7104_Versions/GL-DPPD-7104-B.md)|[1.2.1](SW_AmpIllumina-B)|
+|*[GL-DPPD-7104-B.md](../Pipeline_GL-DPPD-7104_Versions/GL-DPPD-7104-B.md)|[1.2.2](SW_AmpIllumina-B)|
 |*[GL-DPPD-7104-A.md](../Pipeline_GL-DPPD-7104_Versions/GL-DPPD-7104-A.md)|[1.1.1](SW_AmpIllumina-A)|
 
 *Current GeneLab Pipeline/Workflow Implementation
diff --git a/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/CHANGELOG.md b/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/CHANGELOG.md
@@ -1,5 +1,11 @@
 # Workflow change log
 
+## [1.2.2](https://github.com/nasa/GeneLab_Data_Processing/tree/SW_AmpIllumina-B_1.2.2/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B)
+- Visualizations are now optional with the default being off.
+  - Enable with optional `run_workflow.py` argument `--visualizations TRUE` or setting `config.yaml` `enable_visualizations` to "TRUE"
+- Moved the visualization script from `workflow_code/scripts/` to new folder `workflow_code/visualizations/`
+- Refactored Snakefile outputs
+
 ## [1.2.1](https://github.com/nasa/GeneLab_Data_Processing/tree/SW_AmpIllumina-B_1.2.1/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B)
 - Moved SW_AmpIllumina-A_1.2.1 to SW_AmpIllumina-B_1.2.1
 - Workflow runs the [GL-DPPD-7104-B version](../../Pipeline_GL-DPPD-7104_Versions/GL-DPPD-7104-B.md) of the GeneLab standard pipeline, which includes data visualization outputs
diff --git a/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/README.md b/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/README.md
@@ -52,15 +52,15 @@ ___
 <!-- All files required for utilizing the GeneLab workflow for processing Illumina amplicon sequencing data are in the [workflow_code](workflow_code) directory. To get a copy of latest SW_AmpIllumina-B version on to your system, the code can be downloaded as a zip file from the release page then unzipped after downloading by running the following commands:
 
 ```bash
-wget https://github.com/nasa/GeneLab_Data_Processing/releases/download/SW_AmpIllumina-B_1.2.1/SW_AmpIllumina-B_1.2.1.zip
+wget https://github.com/nasa/GeneLab_Data_Processing/releases/download/SW_AmpIllumina-B_1.2.2/SW_AmpIllumina-B_1.2.2.zip
 
-unzip SW_AmpIllumina-B_1.2.1.zip
+unzip SW_AmpIllumina-B_1.2.2.zip
 ```
 
-This downloaded the workflow into a directory called `SW_AmpIllumina-B_1.2.1`. To run the workflow, you will need to move into that directory by running the following command:
+This downloaded the workflow into a directory called `SW_AmpIllumina-B_1.2.2`. To run the workflow, you will need to move into that directory by running the following command:
 
 ```bash
-cd SW_AmpIllumina-B_1.2.1
+cd SW_AmpIllumina-B_1.2.2
 ``` -->
 
 All files required for utilizing the GeneLab workflow for processing Illumina amplicon sequencing data are in the [workflow_code](workflow_code) directory. To get a copy of the latest SW_AmpIllumina-B version on to your system, run the following command:
@@ -132,7 +132,7 @@ ___
 * `--run` - specifies the command used to execute the snakemake workflow; snakemake-specific parameters are defined below
 
 * `--outputDir` - specifies the output directory for the output files generated by the workflow 
-   > *This is an optional command that can be added outside the quotation marks in either approach to specify the output directory. If this option is not used, the output files will be printed to the current working directory, i.e. in the `SW_AmpIllumina-B_1.2.1` directory that was downloaded in [step 2](#2-download-the-workflow-template-files).*
+   > *This is an optional command that can be added outside the quotation marks in either approach to specify the output directory. If this option is not used, the output files will be printed to the current working directory, i.e. in the `SW_AmpIllumina-B_1.2.2` directory that was downloaded in [step 2](#2-download-the-workflow-template-files).*
 
 * `--trim-primers TRUE/FALSE` - specifies to trim primers (TRUE) or not (FALSE). Default: TRUE
    > *Note: Primers should virtually always be trimmed from amplicon datasets. This option is here for cases where they have already been removed.*
@@ -167,6 +167,8 @@ ___
 * `--specify-runsheet` - specifies the runsheet to use when multiple runsheets are generated
    > *Optional parameter used in Approach 1 for datasets that have multiple assays for the same amplicon target (e.g. [OSD-249](https://osdr.nasa.gov/bio/repo/data/studies/OSD-249)).*
 
+* `--visualizations TRUE/FALSE` - if set to TRUE, the [visualizations script](workflow_code/visualizations/Illumina-R-visualizations.R) will be run. Default: FALSE
+
 <br>
 
 **Parameter Definitions for `snakemake`**
diff --git a/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/Snakefile b/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/Snakefile
@@ -9,6 +9,7 @@ import os
 
 configfile: "config.yaml"
 
+enable_visualizations = config["enable_visualizations"]
 
 ########################################
 ############# General Info #############
@@ -54,17 +55,85 @@ if len(set(sample_ID_list)) != len(sample_ID_list):
 ######## Setting up directories ########
 ########################################
 
+# Initialize the list of needed directories without plots_dir
 if config["trim_primers"] == "TRUE":
-    needed_dirs = [config["info_out_dir"], config["fastqc_out_dir"], config["trimmed_reads_dir"], config["filtered_reads_dir"], config["final_outputs_dir"], config["plots_dir"], "benchmarks"]
+    needed_dirs = [
+        config["info_out_dir"],
+        config["fastqc_out_dir"],
+        config["trimmed_reads_dir"],
+        config["filtered_reads_dir"],
+        config["final_outputs_dir"],
+        "benchmarks"
+    ]
 else:
-    needed_dirs = [config["info_out_dir"], config["fastqc_out_dir"], config["filtered_reads_dir"], config["final_outputs_dir"], config["plots_dir"], "benchmarks"]
-
+    needed_dirs = [
+        config["info_out_dir"],
+        config["fastqc_out_dir"],
+        config["filtered_reads_dir"],
+        config["final_outputs_dir"],
+        "benchmarks"
+    ]
+
+# Conditionally add plots_dir if enable_visualizations is True
+if enable_visualizations  == "TRUE":
+    needed_dirs.append(config["plots_dir"])
+
+# Try to create the directories
 for dir in needed_dirs:
     try:
-        os.mkdir(dir)
-    except:
-        pass
+        os.makedirs(dir, exist_ok=True)
+    except Exception as e:
+        print(f"Could not create directory {dir}: {e}")
 
+########################################
+########## Setting up outputs ##########
+########################################
+        
+# Base rule all inputs (final outs) for PE, with or without trimming
+base_PE_inputs = [
+    expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R1_suffix"], ID = sample_ID_list),
+    expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R2_suffix"], ID = sample_ID_list),
+    config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy_{assay_suffix}.tsv",
+    config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.biom.zip",
+    config["final_outputs_dir"] + config["output_prefix"] + f"ASVs_{assay_suffix}.fasta",
+    config["final_outputs_dir"] + config["output_prefix"] + f"read-count-tracking_{assay_suffix}.tsv",
+    config["final_outputs_dir"] + config["output_prefix"] + f"counts_{assay_suffix}.tsv",
+    config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.tsv",
+    config["fastqc_out_dir"] + config["output_prefix"] + f"raw_multiqc_{assay_suffix}_report.zip",
+    config["fastqc_out_dir"] + config["output_prefix"] + f"filtered_multiqc_{assay_suffix}_report.zip"
+]
+
+# Base rule all inputs (final outs) for SE, with or without trimming
+base_SE_inputs = [
+    expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R1_suffix"], ID = sample_ID_list),
+    config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy_{assay_suffix}.tsv",
+    config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.biom.zip",
+    config["final_outputs_dir"] + config["output_prefix"] + f"ASVs_{assay_suffix}.fasta",
+    config["final_outputs_dir"] + config["output_prefix"] + f"read-count-tracking_{assay_suffix}.tsv",
+    config["final_outputs_dir"] + config["output_prefix"] + f"counts_{assay_suffix}.tsv",
+    config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.tsv",
+    config["fastqc_out_dir"] + config["output_prefix"] + f"raw_multiqc_{assay_suffix}_report.zip",
+    config["fastqc_out_dir"] + config["output_prefix"] + f"filtered_multiqc_{assay_suffix}_report.zip"
+]
+
+# Add additional inputs for trimming
+if config["trim_primers"] == "TRUE":
+    if config["data_type"] == "PE":
+        base_PE_inputs += [
+            expand(config["trimmed_reads_dir"] + "{ID}" + config["primer_trimmed_R1_suffix"], ID = sample_ID_list),
+            expand(config["trimmed_reads_dir"] + "{ID}" + config["primer_trimmed_R2_suffix"], ID = sample_ID_list),
+            config["trimmed_reads_dir"] + config["output_prefix"] + f"cutadapt_{assay_suffix}.log",
+            config["trimmed_reads_dir"] + config["output_prefix"] + f"trimmed-read-counts_{assay_suffix}.tsv",
+        ]
+    else: # SE with primer trimming
+        base_SE_inputs += [
+            expand(config["trimmed_reads_dir"] + "{ID}" + config["primer_trimmed_R1_suffix"], ID = sample_ID_list),
+            config["trimmed_reads_dir"] + config["output_prefix"] + f"cutadapt_{assay_suffix}.log",
+            config["trimmed_reads_dir"] + config["output_prefix"] + f"trimmed-read-counts_{assay_suffix}.tsv",
+        ]
+
+# Conditional addition of visualization outputs (color legend only to keep it simple)
+visualization_outputs = [config["plots_dir"] + config["output_prefix"] + f"color_legend_{assay_suffix}.png"] if enable_visualizations == "TRUE" else []
 
 ########################################
 ############# Rules start ##############
@@ -73,53 +142,13 @@ for dir in needed_dirs:
 #### rules if paired-end data ####
 if config["data_type"] == "PE":
 
-    # "all" starting rule for paired-end data
-    if config["trim_primers"] == "TRUE":
-
-        rule all:
-            input:
-                expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R1_suffix"], ID = sample_ID_list),
-                expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R2_suffix"], ID = sample_ID_list),
-                expand(config["trimmed_reads_dir"] + "{ID}" + config["primer_trimmed_R1_suffix"], ID = sample_ID_list),
-                expand(config["trimmed_reads_dir"] + "{ID}" + config["primer_trimmed_R2_suffix"], ID = sample_ID_list),
-                config["trimmed_reads_dir"] + config["output_prefix"] + f"cutadapt_{assay_suffix}.log",
-                config["trimmed_reads_dir"] + config["output_prefix"] + f"trimmed-read-counts_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.biom.zip",
-                config["final_outputs_dir"] + config["output_prefix"] + f"ASVs_{assay_suffix}.fasta",
-                config["final_outputs_dir"] + config["output_prefix"] + f"read-count-tracking_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"counts_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.tsv",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"raw_multiqc_{assay_suffix}_report.zip",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"filtered_multiqc_{assay_suffix}_report.zip",
-                config["plots_dir"] + config["output_prefix"] + f"color_legend_{assay_suffix}.png"
-            shell:
-                """
-                bash scripts/combine-benchmarks.sh
-                python scripts/copy_info.py 
-                """
-
-    # if we are not trimming the primers
-    else:
-
-        rule all:
-            input:
-                expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R1_suffix"], ID = sample_ID_list),
-                expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R2_suffix"], ID = sample_ID_list),
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.biom.zip",
-                config["final_outputs_dir"] + config["output_prefix"] + f"ASVs_{assay_suffix}.fasta",
-                config["final_outputs_dir"] + config["output_prefix"] + f"read-count-tracking_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"counts_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.tsv",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"raw_multiqc_{assay_suffix}_report.zip",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"filtered_multiqc_{assay_suffix}_report.zip",
-                config["plots_dir"] + config["output_prefix"] + f"color_legend_{assay_suffix}.png"
-            shell:
-                """
-                bash scripts/combine-benchmarks.sh
-                python scripts/copy_info.py 
-                """
+    rule all:
+        input: base_PE_inputs + visualization_outputs
+        shell:
+            """
+            bash scripts/combine-benchmarks.sh
+            python scripts/copy_info.py 
+            """
 
 
     # R processing rule for paired-end data
@@ -371,50 +400,14 @@ if config["data_type"] == "PE":
 ##################################
 if config["data_type"] == "SE":
 
-    # "all" starting rule for single-end data
-    if config["trim_primers"] == "TRUE":
-
-        rule all:
-            input:
-                expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R1_suffix"], ID = sample_ID_list),
-                expand(config["trimmed_reads_dir"] + "{ID}" + config["primer_trimmed_R1_suffix"], ID = sample_ID_list),
-                config["trimmed_reads_dir"] + config["output_prefix"] + f"cutadapt_{assay_suffix}.log",
-                config["trimmed_reads_dir"] + config["output_prefix"] + f"trimmed-read-counts_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.biom.zip",
-                config["final_outputs_dir"] + config["output_prefix"] + f"ASVs_{assay_suffix}.fasta",
-                config["final_outputs_dir"] + config["output_prefix"] + f"read-count-tracking_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"counts_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.tsv",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"raw_multiqc_{assay_suffix}_report.zip",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"filtered_multiqc_{assay_suffix}_report.zip",
-                config["plots_dir"] + config["output_prefix"] + f"color_legend_{assay_suffix}.png"
-            shell:
-                """
-                bash scripts/combine-benchmarks.sh
-                python scripts/copy_info.py 
-                """
-
-    # if we are not trimming the primers
-    else:
+    rule all:
+        input: base_SE_inputs + visualization_outputs
+        shell:
+            """
+            bash scripts/combine-benchmarks.sh
+            python scripts/copy_info.py 
+            """
 
-        rule all:
-            input:
-                expand(config["filtered_reads_dir"] + "{ID}" + config["filtered_R1_suffix"], ID = sample_ID_list),
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.biom.zip",
-                config["final_outputs_dir"] + config["output_prefix"] + f"ASVs_{assay_suffix}.fasta",
-                config["final_outputs_dir"] + config["output_prefix"] + f"read-count-tracking_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"counts_{assay_suffix}.tsv",
-                config["final_outputs_dir"] + config["output_prefix"] + f"taxonomy-and-counts_{assay_suffix}.tsv",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"raw_multiqc_{assay_suffix}_report.zip",
-                config["fastqc_out_dir"] + config["output_prefix"] + f"filtered_multiqc_{assay_suffix}_report.zip",
-                config["plots_dir"] + config["output_prefix"] + f"color_legend_{assay_suffix}.png"
-            shell:
-                """
-                bash scripts/combine-benchmarks.sh
-                python scripts/copy_info.py 
-                """
 
 
     # R processing rule for single-end data
@@ -664,7 +657,7 @@ rule r_visualizations:
         "benchmarks/r-visualizations-benchmarks.tsv"
     shell:
         """
-        Rscript scripts/Illumina-R-visualizations.R "{input.runsheet}" "{input.sample_info}" "{input.counts}" "{input.taxonomy}" "{params.assay_suffix}" "{params.plots_dir}" "{params.output_prefix}"  > {log} 2>&1
+        Rscript visualizations/Illumina-R-visualizations.R "{input.runsheet}" "{input.sample_info}" "{input.counts}" "{input.taxonomy}" "{params.assay_suffix}" "{params.plots_dir}" "{params.output_prefix}"  > {log} 2>&1
         """
 
 
@@ -701,4 +694,4 @@ rule combine_cutadapt_logs_and_summarize:
 
 rule clean_all:
     shell:
-        "rm -rf {needed_dirs}"
+        "rm -rf {needed_dirs}"
diff --git a/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/scripts/copy_info.py b/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/scripts/copy_info.py
@@ -26,11 +26,15 @@ def main(config, sample_IDs_file):
         (sample_IDs_file, os.path.join(info_out_dir, os.path.basename(sample_IDs_file))),
         (config["runsheet"], os.path.join(info_out_dir, os.path.basename(config["runsheet"]))),
         ("R-processing.log", os.path.join(info_out_dir, "R-processing.log")),
-        ("R-visualizations.log", os.path.join(info_out_dir, "R-visualizations.log")),
         ("all-benchmarks.tsv", os.path.join(info_out_dir,"all-benchmarks.tsv")),
         ("Snakefile", os.path.join(info_out_dir, "Snakefile"))
     ]
 
+    # Check and add "R-visualizations.log" if it exists (visualizations are optional)
+    r_visualizations_log_path = "R-visualizations.log"
+    if os.path.isfile(r_visualizations_log_path):
+        files_to_copy.append((r_visualizations_log_path, os.path.join(info_out_dir, "R-visualizations.log")))
+
     # Optional ISA archive
     if config.get("isa_archive") and os.path.isfile(config["isa_archive"]):
         files_to_copy.append((config["isa_archive"], os.path.join(info_out_dir, os.path.basename(config["isa_archive"]))))
diff --git a/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/scripts/run_workflow.py b/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/scripts/run_workflow.py
diff --git a/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/visualizations/Illumina-R-visualizations.R b/Amplicon/Illumina/Workflow_Documentation/SW_AmpIllumina-B/workflow_code/visualizations/Illumina-R-visualizations.R