add compatibility for second ncbi table

jpalmer37 · jpalmer37 · commit 6f85247f4462 · 2025-04-30T22:34:25.000-07:00
diff --git a/main.nf b/main.nf
@@ -17,14 +17,19 @@ println "Current date and time: $formattedDateTime"
 
 nextflow.enable.dsl = 2
 
-include { hash_seqs }                 from './modules/hash_seqs.nf'
-include { seq_qc }                    from './modules/blast.nf'
-include { blastn }                    from './modules/blast.nf'
-include { filter_by_regex }           from './modules/blast.nf'
-include { filter_best_bitscore }      from './modules/blast.nf'
-include { build_report }              from './modules/blast.nf'
-include { collect_provenance }        from './modules/provenance.nf'
-include { pipeline_provenance }       from './modules/provenance.nf'
+include { hash_seqs }                                           from './modules/hash_seqs.nf'
+include { seq_qc }                                              from './modules/blast.nf'
+include { blastn }                                              from './modules/blast.nf'
+include { blastn_ncbi }                                         from './modules/blast.nf'
+include { taxonkit_annotation as taxonkit_annotation_local }    from './modules/blast.nf'
+include { taxonkit_annotation as taxonkit_annotation_ncbi }     from './modules/blast.nf'
+include { filter_by_regex as filter_by_regex_local }            from './modules/blast.nf'
+include { filter_by_regex as filter_by_regex_ncbi }             from './modules/blast.nf'
+include { filter_best_bitscore as filter_best_bitscore_local }  from './modules/blast.nf'
+include { filter_best_bitscore as filter_best_bitscore_ncbi }   from './modules/blast.nf'
+include { build_report }                                        from './modules/blast.nf'
+include { collect_provenance }                                  from './modules/provenance.nf'
+include { pipeline_provenance }                                 from './modules/provenance.nf'
 
 
 workflow {
@@ -49,6 +54,8 @@ workflow {
     ch_db = Channel.of()
   }
 
+  ch_ncbi_db = Channel.fromPath(params.ncbi_db)
+
   ch_seqs = ch_fasta.splitFasta(record: [id: true, seqString: true])
 
   main:
@@ -58,20 +65,31 @@ workflow {
 
     seq_qc(ch_seqs)
     ch_blast = blastn(ch_seqs.combine(ch_db)).blast_report
-    ch_blast_prov = blastn.out.provenance.map{}
+    ch_blast = taxonkit_annotation_local(ch_blast).blast_report
+
+    ch_blast_ncbi = blastn_ncbi(ch_seqs.combine(ch_ncbi_db)).blast_report
+    ch_blast_ncbi = taxonkit_annotation_ncbi(ch_blast_ncbi).blast_report
 
     if (params.filter_regexes != 'NO_FILE') {
       ch_regexes = Channel.fromPath(params.filter_regexes)
-      ch_blast = filter_by_regex(ch_blast.combine(ch_regexes)).blast_filtered
+      ch_blast = filter_by_regex_local(ch_blast.combine(ch_regexes)).blast_filtered
+      ch_blast_ncbi = filter_by_regex_ncbi(ch_blast_ncbi.combine(ch_regexes)).blast_filtered
     }
 
     ch_blast_collect = ch_blast.collectFile(it -> it[2], name: "collected_blast.csv", storeDir: params.outdir, keepHeader: true, skip: 1)
+    
+    ch_blast_ncbi_collect = ch_blast_ncbi.collectFile(it -> it[2], name: "collected_blast_ncbi.csv", storeDir: params.outdir, keepHeader: true, skip: 1)
 
-    filter_best_bitscore(ch_blast)
+    filter_best_bitscore_local(ch_blast)
+
+    filter_best_bitscore_ncbi(ch_blast_ncbi)
     
-    filter_best_bitscore.out.blast_best_bitscore_csv.collectFile(it -> it[1], name: "collected_blast_best_bitscore.csv", storeDir: params.outdir, keepHeader: true, skip: 1)
+    filter_best_bitscore_local.out.blast_best_bitscore_csv.collectFile(it -> it[1], name: "collected_blast_best_bitscore.csv", storeDir: params.outdir, keepHeader: true, skip: 1)
+
+    filter_best_bitscore_ncbi.out.blast_best_bitscore_csv.collectFile(it -> it[1], name: "collected_blast_ncbi_best_bitscore.csv", storeDir: params.outdir, keepHeader: true, skip: 1)
+
 
-    build_report(ch_blast_collect, Channel.fromPath(params.databases))
+    build_report(ch_blast_collect, ch_blast_ncbi_collect, Channel.fromPath(params.databases))
 
     // Build pipeline provenance 
     ch_pipeline_provenance = pipeline_provenance(ch_pipeline_metadata, build_report.out.provenance)
@@ -80,6 +98,7 @@ workflow {
     ch_provenance = hash_seqs.out.provenance
     ch_provenance = ch_provenance.join(seq_qc.out.provenance).map{ it -> [it[0], [it[1]] << it[2]] }
     ch_provenance = ch_provenance.join(blastn.out.provenance.groupTuple()).map{ it -> [it[0], (it[1] + it[2]).flatten() ] } 
+    ch_provenance = ch_provenance.join(blastn_ncbi.out.provenance.groupTuple()).map{ it -> [it[0], (it[1] + it[2]).flatten() ] } 
     //ch_provenance = ch_provenance.join(filter_best_bitscore.out.provenance.groupTuple()).map{ it -> [it[0], (it[1] + it[2]).flatten()] }
     ch_provenance = ch_provenance.join(seq_qc.out.provenance.map{it -> it[0]}.combine(ch_pipeline_provenance)).map{ it -> [it[0], it[1] << it[2]] }
     collect_provenance(ch_provenance)
diff --git a/modules/blast.nf b/modules/blast.nf
@@ -41,8 +41,6 @@ process blastn {
 
     output:
     tuple val(sample_id), val(db_id), path("${sample_id}_${db_id}_blast.csv"),       emit: blast_report, optional:true
-    tuple val(sample_id), val(db_id), path("${sample_id}_${db_id}_seq_description"), emit: seq_description, optional:true
-    tuple val(sample_id), val(db_id), path("${sample_id}_${db_id}_lineages.tsv"),    emit: lineage, optional:true
     tuple val(sample_id), path("${sample_id}_${db_id}_blastn_provenance.yml"),                emit: provenance
     
     script:
@@ -52,7 +50,6 @@ process blastn {
     echo "${seq.seqString}" >> ${sample_id}.fa
 
     export BLASTDB="${db_dir}"
-    export TAXONKIT_DB="${params.taxonkit_db}"
 
     echo "query_seq_id,subject_accession,subject_strand,query_length,query_start,query_end,subject_length,subject_start,subject_end,alignment_length,percent_identity,percent_coverage,num_mismatch,num_gaps,e_value,bitscore,subject_taxids,subject_names" > ${sample_id}_${db_id}_blast.csv
 
@@ -65,11 +62,6 @@ process blastn {
       -outfmt "6 qseqid saccver sstrand qlen qstart qend slen sstart send length pident qcovhsp mismatch gaps evalue bitscore staxids sscinames" \
     | tr \$"\\t" "," >> ${sample_id}_${db_id}_blast.csv
 
-    get_taxids.py --input ${sample_id}_${db_id}_blast.csv > ${sample_id}_${db_id}_taxids.csv
-    printf 'query_taxid\\tlineage\\tlineage_taxids\\tquery_taxon_name\\tlineage_ranks\\n' > ${sample_id}_${db_id}_lineages.tsv
-    taxonkit lineage -R -n -t ${sample_id}_${db_id}_taxids.csv >> ${sample_id}_${db_id}_lineages.tsv
-    mv ${sample_id}_${db_id}_blast.csv ${sample_id}_${db_id}_blast_tmp.csv
-    bind_taxonkit.py -f ${sample_id}_${db_id}_lineages.tsv -b ${sample_id}_${db_id}_blast_tmp.csv > ${sample_id}_${db_id}_blast.csv
 
     if [ "${params.no_db_metadata}" == "false" ]; then
         mv ${sample_id}_${db_id}_blast.csv ${sample_id}_${db_id}_blast_tmp.csv
@@ -86,15 +78,130 @@ process blastn {
           value: ${params.minid}
         - parameter: "qcov_hsp_perc"
           value: ${params.mincov}
+      databases:
+      - database_name: ${db_name}
+        database_version: \$(grep "version" ${db_dir}/metadata.json  | cut -d" " -f4 | sed 's/"//g;s/,//g')
+        files: 
+    \$(sha256sum \$(readlink -f ${db_dir})/${db_name}* | awk '{ printf("    - filename: \\"%s\\"\\n      sha256: \\"%s\\"\\n", \$2, \$1) }')
+    EOL_VERSIONS
+
+    """
+}
+
+process blastn_ncbi {
+
+    tag { sample_id + ' / nt' }
+
+    cpus params.remote_ncbi ? 1 : 32
+
+    memory params.remote_ncbi  ? "2 GB" : "128 GB"
+
+    publishDir "${params.outdir}/${sample_id}", mode: 'copy', pattern: "${sample_id}*blast*"
+
+    input:
+    tuple val(seq), path(db_path)
+
+    output:
+    tuple val(sample_id), val("nt"), path("${sample_id}_nt_blast.csv") ,         emit: blast_report,  optional: true
+    tuple val(sample_id), path("${sample_id}_blastn_nt_provenance.yml"),   emit: provenance
+    
+    script:
+    sample_id = seq.id
+    remote = params.remote_ncbi ? "-remote" :  ""
+    threads = params.remote_ncbi ? "" :  "-num_threads ${task.cpus}"
+
+    """
+    echo ">${sample_id}" > ${sample_id}.fa
+    echo "${seq.seqString}" >> ${sample_id}.fa
+
+    echo "query_seq_id,subject_accession,subject_strand,query_length,query_start,query_end,subject_length,subject_start,subject_end,alignment_length,percent_identity,percent_coverage,num_mismatch,num_gaps,e_value,bitscore,subject_taxids,subject_names" > ${sample_id}_nt_blast.csv
+
+    export BLASTDB=${db_path}
+
+    blastn \
+      ${remote} \
+      ${threads} \
+      -db core_nt \
+      -perc_identity ${params.minid} \
+      -qcov_hsp_perc ${params.mincov} \
+      -query ${sample_id}.fa \
+      -outfmt "6 qseqid saccver sstrand qlen qstart qend slen sstart send length pident qcovhsp mismatch gaps evalue bitscore staxids sscinames" \
+    | tr \$"\\t" "," >> ${sample_id}_nt_blast.csv
+
+    
+    if [ "${params.no_db_metadata}" == "false" ]; then
+      mv ${sample_id}_nt_blast.csv ${sample_id}_blast_tmp.csv
+      add_db_metadata.py -m ${db_path}/core_nt-nucl-metadata.json -b ${sample_id}_blast_tmp.csv -d "core_nt" > ${sample_id}_nt_blast.csv
+    fi
+
+
+    cat <<-EOL_PROVENANCE > ${sample_id}_blastn_nt_provenance.yml
+    - process_name: "${task.process}"
+      tools:
+      - tool_name: blastn
+        tool_version: \$(blastn -version | head -n1 | sed 's/blastn: //g')
+        parameters:
+        - parameter: "perc_identity"
+          value: ${params.minid}
+        - parameter: "qcov_hsp_perc"
+          value: ${params.mincov}
+      databases:
+    EOL_PROVENANCE
+
+    if [ ${params.remote_ncbi} ] ; then 
+      cat <<-EOL_PROVENANCE >> ${sample_id}_blastn_nt_provenance.yml
+        - database_name: core_nt
+          database_version: N/A
+    EOL_PROVENANCE
+    else 
+      cat <<-EOL_PROVENANCE >> ${sample_id}_blastn_nt_provenance.yml
+        - database_name: ${db_path}
+          database_version: \$(grep "version" ${db_path}/metadata.json  | cut -d" " -f4 | sed 's/"//g;s/,//g')
+          files:
+    \$(sha256sum \$(readlink -f ${db_path})/* | awk '{ printf("    - filename: \\"%s\\"\\n      sha256: \\"%s\\"\\n", \$2, \$1) }')
+    EOL_PROVENANCE
+    fi 
+
+    """
+}
+
+process taxonkit_annotation {
+
+    tag { sample_id + ' / ' + db_id }
+
+    publishDir "${params.outdir}/${sample_id}", mode: 'copy', pattern: "${sample_id}_${db_id}*"
+
+    input:
+    tuple val(sample_id), val(db_id), path(blast_results)
+
+    output:
+    tuple val(sample_id), val(db_id), path("${sample_id}_${db_id}_blast_anno.csv"),       emit: blast_report, optional:true
+    tuple val(sample_id), val(db_id), path("${sample_id}_${db_id}_seq_description"), emit: seq_description, optional:true
+    tuple val(sample_id), val(db_id), path("${sample_id}_${db_id}_lineages.tsv"),    emit: lineage, optional:true
+    tuple val(sample_id), path("${sample_id}_${db_id}_taxonkit_provenance.yml"),                emit: provenance
+    
+    script: 
+
+    """
+    export TAXONKIT_DB="${params.taxonkit_db}"
+
+    get_taxids.py --input ${blast_results} > ${sample_id}_${db_id}_taxids.csv
+    printf 'query_taxid\\tlineage\\tlineage_taxids\\tquery_taxon_name\\tlineage_ranks\\n' > ${sample_id}_${db_id}_lineages.tsv
+    taxonkit lineage -R -n -t ${sample_id}_${db_id}_taxids.csv >> ${sample_id}_${db_id}_lineages.tsv
+    bind_taxonkit.py -f ${sample_id}_${db_id}_lineages.tsv -b ${sample_id}_${db_id}_blast.csv > ${sample_id}_${db_id}_blast_anno.csv
+
+    cat <<-EOL_VERSIONS > ${sample_id}_${db_id}_taxonkit_provenance.yml
+    - process_name: "${task.process}"
+      tools:
       - tool_name: taxonkit
         tool_version: \$(taxonkit version | cut -d' ' -f2)
       - tool_name: python
         tool_version: \$(python3 --version | cut -d' ' -f2)
       databases:
-      - database_name: ${db_name}
-        database_version: \$(grep "version" ${db_dir}/metadata.json  | cut -d" " -f4 | sed 's/"//g;s/,//g')
+      - database_name: taxonkit
+        database_version: \$(grep "version" \${TAXONKIT_DB}/metadata.json  | cut -d" " -f4 | sed 's/"//g;s/,//g')
         files: 
-    \$(sha256sum \$(readlink -f ${db_dir})/${db_name}* | awk '{ printf("    - filename: \\"%s\\"\\n      sha256: \\"%s\\"\\n", \$2, \$1) }')
+    \$(sha256sum \$(readlink -f \${TAXONKIT_DB})/*.dmp | awk '{ printf("    - filename: \\"%s\\"\\n      sha256: \\"%s\\"\\n", \$2, \$1) }')
     EOL_VERSIONS
 
     """
@@ -120,15 +227,6 @@ process filter_by_regex {
     """
     filter_by_regex.py -i ${full_blast_report} -r ${filter_regexes} > ${sample_id}_${db_id}_blast_filtered.csv
 
-    # cat <<-EOL_VERSIONS > ${sample_id}_${db_id}_filter_regex_provenance.yml
-    # - process_name: "${task.process}"
-    #   tools:
-    #   - tool_name: python
-    #     tool_version: \$(python3 --version | cut -d' ' -f2)
-    #     parameters:
-    #     - parameter: filter_regexes
-    #       value: ${filter_regexes}
-    # EOL_VERSIONS
     """
 }
 
@@ -166,6 +264,7 @@ process build_report {
 
     input:
     path(collected_blast)
+    path(collected_blast_ncbi)
     path(database_csv)
 
     output:
@@ -174,7 +273,7 @@ process build_report {
 
     script:
     """
-    report.py --blast ${collected_blast} --db ${database_csv} --output ${params.run_name}_report.html
+    report.py --blast ${collected_blast} --ncbi ${collected_blast_ncbi} --db ${database_csv} --output ${params.run_name}_report.html
 
     cat <<-EOL_VERSIONS > report_provenance.yml
     - process_name: "${task.process}"
diff --git a/nextflow.config b/nextflow.config
@@ -20,6 +20,8 @@ params {
   no_db_metadata = false
   taxonkit_db = ''
   filter_regexes = 'NO_FILE'
+  remote_ncbi = false
+  ncbi_db = 'NO_FILE'
   minid = 95.0
   mincov = 95.0
   pipeline_short_name = parsePipelineName(manifest.toMap().get('name'))