Skip to content

QC config

Daniel Pérez edited this page Mar 24, 2025 · 3 revisions

Configuración del flujo de trabajo de Análisis de Calidad de archivos FASTQ

  1. Verifica si tienes las siguientes herramientas informáticas:

    • NextFlow (versión mayor o gual a 22.10.7)

    • Docker (versión mayor o gual a 23.0.5)

    • Imagen de docker pipelinesinmegen/pipelines_inmegen:public, la puedes descargar con el comando:

      docker pull pipelinesinmegen/pipelines_inmegen:public
      
  2. Asegurarse de contar con los siguientes archivos, necesarios para el pipeline:

    • Referencias de Fastq Screen

Para mayor información consulta el manual de Fastq Screen.

Ejecutar el flujo de trabajo

Para correr este flujo de trabajo sigue las siguientes instrucciones:

  1. Completar el archivo sample_info.tsv con la información que se describe en la sección Formato del archivo sample_info

  2. Editar el archivo de nextflow.config con la siguiente información:

    • Ruta del directorio de salida de nextflow (params.outdir)
    • Ruta del archivo sample_info.tsv (params.sample_info)
    • Nombre del proyecto (params.project_name)
    • Ruta absoluta de la ubicación de las referencias de Fastq Screen (params.refdir)
    • Número de núcleos que utilizarán los procesos multi-threading (params.ncrs)
    • En los parámetros para docker, se puede modificar el apartado runOptions la opción --cpus = Número máximo de núcleos por proceso.
    • En los parámetros de Nextflow (executor) solo se puede cambiar la opción queueSize = Número máximo de procesos que se ejecutarán de forma simultánea

NOTA: El número máximo de procesadores que utilizará tu corrida es: cpus * queueSize. Esto aplica en el caso de los procesos que permitan multi-threading.

NOTA: Si ncrsr es mayor que cpus, los procesos multi-threading utilizarán un número máximo de núcleos igual a cpus.

NOTA: Los archivos sample_info.tsv y nextflow.config deben encontrarse en el mismo directorio que el archivo main.nf

Para opciones de configuración específicas para tu servidor o cluster puedes consultar la siguiente liga

  1. Ejecutar el comando:

    bash run_nextflow.sh

Formato del archivo sample_info

El archivo sample_info.tsv ubicado en la carpeta Fastq-QC es indispensable y debe incluir la siguiente información por columna.

  • Sample = Nombre de la muestra secuenciada. Se recomienda el formato [identificador_numeroDeMuestra]
  • R1 = Ruta absoluta del archivo fastq R1 (forward)
  • R2 = Ruta absoluta del archivo fastq R2 (reverse)

Recuerda:

  • Utilizar letras de la A a la Z (mayúsculas y minúsculas sin acentos)
  • No utilizar la letra "ñ"
  • Si es absolutamente necesario, puedes emplear los siguientes caracteres especiales (guión -, guión bajo _, punto .)
  • No están permitidos los espacios

A continuación, se muestran algunos ejemplos de cómo se rellenar el contenido del archivo sample_info.tsv.

Ejemplo 1. Si cuentas con muestras con multiples carriles (lanes), debes de incorporar el número de lane al nombre de la muestra:

Sample	R1	R2
ID_S1_L002	Path/to/fastq_S001_L001_R1.fq	Path/to/fastq_S001_L001_R2.fq
ID_S1_L002	Path/to/fastq_S001_L002_R1.fq	Path/to/fastq_S001_L002_R2.fq

Ejemplo 2. Si cientas con muestras con un sólo lane.

Sample	R1	R2
ID_S1	Path/to/fastq_R1.fq.gz	Path/to/fastq_R2.fq.gz
ID_S2	Path/to/fastq_R1.fq.gz	Path/to/fastq_R2.fq.gz

Como se observa no es necesario que el Sample_name coincida con el nombre del archivo que se encuentra en los campos R1 y R2.

NOTA IMPORTANTE: Recuerda cada columna del archivo sample_info DEBE estar separada por tabulador (\t) y el encabezado debe de conservarse exactamente igual al archivo muestra sample_info.tsv.