Skip to content

u-genoma/BioinfinvRepro

Repository files navigation

Introducción a la bioinformática e investigación reproducible para análisis genómicos

Mediante una colaboración entre el Posgrado en Ciencias Biológicas de la Universidad Nacional Autónoma de México, CONABIO y la U. de Chile, ofreceremos un curso intensivo de bioinformática, orientado a entregar las herramientas básicas para análisis de datos genómicos en el contexto de genética, especialmente la genética de poblaciones.

INSTRUCTORES ENCARGADOS: Dra. Alicia Mastretta Yanes, PhD. (México) Catedrática CONACYT-CONABIO, www.mastrettayanes-lab.org

Dr. Ricardo Verdugo Salgado, PhD (Chile) Profesor Asistente, Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile http://genomed.med.uchile.cl

INSTRUCTURES PARTICIPANTES:

Karen Oróstica Tapia, PhD. Investigadora Docente, Insitituto de Ciencia de Datos, Universidad del Desarrollo https://ingenieria.udd.cl/persona/karen-orostica

Constanza de la Fuente, PhD. Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile https://orcid.org/0000-0002-2857-3615

INSTRUCTORES de versiones pasadas:

Dra. Camille Truong, PhD. Investigadora Instituto de Biología, UNAM camilletruong.wixsite.com

Dr. Matthieu J. Miossec, PhD Bioinformatics Analyst, Wellcome Centre for Human Genetics de la Universidad de Oxford https://www.researchgate.net/profile/Matthieu-Miossec

Dr. Luis Castañeda, PhD Profesor Asistente, Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile https://sites.google.com/site/lecastane/

Dr. Pablo Saenz Agudelo Profesor Asociado, Instituto de Ciencias Ambientales y Evolutivas, Facultad de Ciencias, Universidad Austral de Chile http://icaev.cl/academicos/pablo-saenz-agudelo/

Los materiales aquí presentados son de acceso libre. La transmisión online y videos de clases se pueden encontrar en este canal de Youtube

Objetivos

El objetivo general es brindar a los y las alumnas las herramientas computacionales de software libre, mejores prácticas y metodologías de reproducibilidad de la ciencia para efectuar, documentar y publicar proyectos bioinformáticos de análisis genómicos.

Los objetivos particulares son:

  1. Formar a los y las alumnas en los principios de investigación reproducible y metodologías para organizar proyectos bioinformáticos
  2. Introducir a los alumnos a bash, R y git
  3. Presentar a los alumnos los tipos de datos genéticos producidos por la secuenciación de siguiente generación
  4. Introducir a los y las alumnas al análisis e datos genómicos y genomas reducidos
  5. Revisar a nivel teórico y práctico los métodos bioinformáticos clásicos de análisis secuencias genómicas
  6. Asesorar a los alumnos en la realización de sus propios proyectos bioinformáticos

Que sí es este curso

  • Una introducción a los métodos y mejores prácticas de la biología computacional, los análisis bioinformáticos y la ciencia reproducible.
  • Un resumen general de los tipos de datos utilizados en genómica y las herramientas computacionales para analizarlos.
  • Una introducción para saber utilizar la línea de comandos y R de forma fluida a través de mucha práctica. Muchos cursos enfocados en análisis de datos genómicos asumen que ya sabes esto, o dan una introducción flash y luego saltan al otro tema, lo que hace muy difícil realmente aprovechar el otro tema o te deja con malas prácticas difíciles de borrar.
  • El lenguaje para aprender a entender los manuales de cualquier software bioinformático para poder utilizarlo a fondo por cuenta propia.
  • Un curso con mucha práctica de R enfocado en ciencia reproducible, limpieza y gráfica de datos biológicos y genéticos.
  • El piso básico para poder tomar un curso más avanzado o adentrarse por uno mismo en algún análisis concreto (ensamblado de genomas, análisis transcriptómicos, filogenética con métodos bayesianos, etc).

Que NO es este curso

  • La respuesta a lo que tienes que hacer en tu proyecto de tesis.
  • Una discusión profunda de los diferentes programas para analizar datos GBS, RAD, genomas, transcriptomas, metabarcoding, etc.

En otras palabras, en este curso no te vamos a decir qué programa utilizar ni discutir a profundidad métodos de ensamblado, etc. Para eso hay cursos especializados intensivos de un par de días que asumen ya saben usar la terminal.

Algunos ejemplos:

Dinámica del curso

¿Cómo serán las clases?

  • Exposición + ejercicos y ejemplos en clase

  • Todos los materiales de la clase los iremos subiendo/actualizando a GitHub conforme avance el semestre

  • Dejaremos lecturas a casa antes o después de algunos temas. Es una muy buena idea sí leerlas.

  • Ocuparemos Google Classroom para enviar tareas y hacer anuncios del curso. Debes recibir una invitación a tu correo.

  • ¿Necesito una computadora?

El curso es teórico-práctico, por lo que se requiere traigan su laptop con Mac o GNU/Linux (no Windows, sorry, lo intenté 2 años y es una pesadilla para todxs) y:

  • Docker instalado y FUNCIONANDO (ocuparemos Docker dentro de un mes)
  • ¿Necesito instalar algo más? Sí

    1. Un editor de texto decente. Listo para la 2da clase. Recomendaciones:
      • Mac o Linux: Atom
      • Linux: Gedit u otro que te guste.
    2. Un editor de Markdown
    3. R y RStudio.

    Si van a tomar notas, que sean ahí o en un editor de Markdown, nooooo en Word, de veritas de veritas.

Este repositorio

El repositorio está dividido en un folder por Unidad. Dentro de cada folder subiremos los apuntes y código utilizado en cada clase conforme los vayamos viendo en el semestre, así como los enlaces a las tareas.

Las notas de este repositorio están escritas en formato Markdown y, como notarás, el repositorio se encuentra hospedado en GitHub.

Cubriremos ambas herramientas en el curso, pero en resumen:

  • Markdown es un procesador texto-a-HTML que de forma sencilla permite formatear texto así. Esto es útil para resaltar los los comandos y los resultados de la terminal del resto del texto en los documentos de clase (y en foros de ayuda).

  • GitHub es un repositorio web especializado en software (pero se puede subir cualquier texto, como este). La parte de arriba enlista los archivos y carpetas dentro del repositorio. La nota de texto a su derecha es el comentario que yo realicé al subir o modificar (commit) el archivo de mi computadora a GitHub. En la parte de abajo puedes leer el contenido de dichos archivos en formato html. Y si los bajas los verás en formato Markdown.

En este mismo repositorio de github están las versiones de cursos que hemos dado los años pasados. Cada curso está en una "rama" de del repositorio (más adelante veremos qué es esto). Si estás siguiendo este curso en youtube en un año diferente al del curso, quizá sea necesario que cambies la rama para que los videos correspondan con los apuntes.

En la unidad 2 aprenderemos a utilizar github desde la línea de comando, pero por lo pronto, para hacer los ejercicios de la unidad 1: baja el respositorio y guárdalo en tu escritorio. Para bajarlo da click en el botón verde del lado derecho que dice "Clone or Download" y selecciona "Download zip".

Mecanismo de calificación

El curso se dividirá en tres secciones que se calificarán por separado. Se asiganarán tareas al final de cada sesión. El resultados de la tareas debe ser enviado para evaluación cada viernes hasta las 23:00 hrs. Cada tarea será evaluada con una nota del 1-7. La nota de la unidad será calculada como:

  • 80% promedio aritmético entre las notas de las tareas de la unidad
  • 20% Proyecto de la unidad, el cual se califica con:
    • 15% Organización del repositorio
    • 15% README (debe ser en inglés)
    • 20% Análisis
    • 20% Resumen y discusión en formato Markdown
    • 15% Gráfica(s) en R
    • 15% Scripts deben estar comentados en inglés

El "Proyecto" de la unidad consiste una carpeta dentro de un repositorio personal en Github donde el estudiante debe depositar sus tareas. Veremos cómo hacerlo en la sesión 2 de la Unidad 1.

Todas las unidades son obligatorias.

Copiar o plagiar (tareas, exámenes, trabajo final, lo que sea) es motivo suficiente para reprobarte sin lugar a discusión.

Temario

Unidad 1 Introducción a la programación

VIDEO: Sesión 1

  • Código en computación
  • Cómo buscar ayuda (permanentemente)
  • Introducción a la consola y línea de comando de bash
  • Funciones básicas de navegación y manejo de archivos con bash
  • Introducción a los scripts

Trabajo individual:

  • Funciones básicas de exploración de archivos con bash
  • Regular expressions y búsqueda de patrones (grep)
  • Redirección con bash
  • Loops con bash

VIDEO: Sesión 2

  • Documentación de scripts y del proyecto
  • Markdown
  • git
  • Github

Trabajo individual:

  • Manejo de proyectos e issues en Github
  • Creación de pipelines

VIDEO: Sesión 3

  • R y RStudio
  • Funciones básicas de R más importantes para bioinformática
  • Rmarkdown y R Notebook

Sesión 4: Programación y análisis de datos en R

  • Funciones propias: crear funciones y utilizarlas con source
  • Manipulación y limpieza de datos en R

Trabajo individual:

  • Graficar en R
  • Bioconductor

Unidad 2 Genética de poblaciones con software especializado

Sesión 1: Datos genéticos

  • Formatos VCF-tools y plink
  • Paquetes de R y otros software para genética de poblaciones

Sesión 2: Análisis genético de poblaciones

  • PCA exploratorios
  • Análisis de estructura poblacional
  • Análisis de mestizaje

Sesión 3: Análisis de ADN antiguo

  • Particularidades de los datos aDNA
  • Limpieza de datos
  • Llamado de variantes
  • Algunos análisis poblaciones con aDNA

Unidad 3 Generación y alineamiento de datos NGS

Sesión 1 Generación y QC de datos NGS

  • Técnicas de secuenciación
  • Errores de secuenciación
  • Limpieza de datos crudos

Trabajo individual:

  • Formatos fastq, bam, vcf

Sesión 2: Introducción a las bases de datos

  • Datos de secuencias
  • Bases de datos biológicas

Sesión 3: Análisis de secuencias

  • Alineamiento contra un genoma de referencia
  • Llamado de variantes

Trabajo individual:

  • Predicción funcional de variantes
  • Interpretación y anotación de variantes

Sesión 4: Genómica del cáncer

  • Llamado de mutaciones somáticas
  • Aplicaciones para la precisión del diagnóstico

Unidad 4 Análisis de transcriptomas

Sesión 1 Expresión diferencial

  • Microarreglos
  • Diseño experimental
  • Análisis de expresión diferencial

Sesión 2 Análisis funcional

  • Clustering
  • Enriquecimiento funcional

Sesión 3 RNA-seq

  • Generación de datos RNAseq
  • Modelamiento de datos
  • Software

About

Curso de introducción a la bioinformática e investigación reproducible

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 43

Languages