Introducción a la bioinformática e investigación reproducible para análisis genómicos

Mediante una colaboración entre el Posgrado en Ciencias Biológicas de la Universidad Nacional Autónoma de México, CONABIO y la U. de Chile, ofreceremos un curso intensivo de bioinformática, orientado a entregar las herramientas básicas para análisis de datos genómicos en el contexto de genética, especialmente la genética de poblaciones.

INSTRUCTORES ENCARGADOS: Dra. Alicia Mastretta Yanes, PhD. (México) Catedrática CONACYT-CONABIO, www.mastrettayanes-lab.org

Dr. Ricardo Verdugo Salgado, PhD (Chile) Profesor Asistente, Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile http://genomed.med.uchile.cl

INSTRUCTURES PARTICIPANTES:

Karen Oróstica Tapia, PhD. Investigadora Docente, Insitituto de Ciencia de Datos, Universidad del Desarrollo https://ingenieria.udd.cl/persona/karen-orostica

Constanza de la Fuente, PhD. Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile https://orcid.org/0000-0002-2857-3615

INSTRUCTORES de versiones pasadas:

Dra. Camille Truong, PhD. Investigadora Instituto de Biología, UNAM camilletruong.wixsite.com

Dr. Matthieu J. Miossec, PhD Bioinformatics Analyst, Wellcome Centre for Human Genetics de la Universidad de Oxford https://www.researchgate.net/profile/Matthieu-Miossec

Dr. Luis Castañeda, PhD Profesor Asistente, Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile https://sites.google.com/site/lecastane/

Dr. Pablo Saenz Agudelo Profesor Asociado, Instituto de Ciencias Ambientales y Evolutivas, Facultad de Ciencias, Universidad Austral de Chile http://icaev.cl/academicos/pablo-saenz-agudelo/

Los materiales aquí presentados son de acceso libre. La transmisión online y videos de clases se pueden encontrar en este canal de Youtube

Objetivos

El objetivo general es brindar a los y las alumnas las herramientas computacionales de software libre, mejores prácticas y metodologías de reproducibilidad de la ciencia para efectuar, documentar y publicar proyectos bioinformáticos de análisis genómicos.

Los objetivos particulares son:

Formar a los y las alumnas en los principios de investigación reproducible y metodologías para organizar proyectos bioinformáticos
Introducir a los alumnos a bash, R y git
Presentar a los alumnos los tipos de datos genéticos producidos por la secuenciación de siguiente generación
Introducir a los y las alumnas al análisis e datos genómicos y genomas reducidos
Revisar a nivel teórico y práctico los métodos bioinformáticos clásicos de análisis secuencias genómicas
Asesorar a los alumnos en la realización de sus propios proyectos bioinformáticos

Que sí es este curso

Una introducción a los métodos y mejores prácticas de la biología computacional, los análisis bioinformáticos y la ciencia reproducible.
Un resumen general de los tipos de datos utilizados en genómica y las herramientas computacionales para analizarlos.
Una introducción para saber utilizar la línea de comandos y R de forma fluida a través de mucha práctica. Muchos cursos enfocados en análisis de datos genómicos asumen que ya sabes esto, o dan una introducción flash y luego saltan al otro tema, lo que hace muy difícil realmente aprovechar el otro tema o te deja con malas prácticas difíciles de borrar.
El lenguaje para aprender a entender los manuales de cualquier software bioinformático para poder utilizarlo a fondo por cuenta propia.
Un curso con mucha práctica de R enfocado en ciencia reproducible, limpieza y gráfica de datos biológicos y genéticos.
El piso básico para poder tomar un curso más avanzado o adentrarse por uno mismo en algún análisis concreto (ensamblado de genomas, análisis transcriptómicos, filogenética con métodos bayesianos, etc).

Que NO es este curso

La respuesta a lo que tienes que hacer en tu proyecto de tesis.
Una discusión profunda de los diferentes programas para analizar datos GBS, RAD, genomas, transcriptomas, metabarcoding, etc.

En otras palabras, en este curso no te vamos a decir qué programa utilizar ni discutir a profundidad métodos de ensamblado, etc. Para eso hay cursos especializados intensivos de un par de días que asumen ya saben usar la terminal.

Algunos ejemplos:

Dinámica del curso

¿Cómo serán las clases?

Exposición + ejercicos y ejemplos en clase
Todos los materiales de la clase los iremos subiendo/actualizando a GitHub conforme avance el semestre
Dejaremos lecturas a casa antes o después de algunos temas. Es una muy buena idea sí leerlas.
Ocuparemos Google Classroom para enviar tareas y hacer anuncios del curso. Debes recibir una invitación a tu correo.
¿Necesito una computadora?

El curso es teórico-práctico, por lo que se requiere traigan su laptop con Mac o GNU/Linux (no Windows, sorry, lo intenté 2 años y es una pesadilla para todxs) y:

Docker instalado y FUNCIONANDO (ocuparemos Docker dentro de un mes)

¿Necesito instalar algo más? Sí
1. Un editor de texto decente. Listo para la 2da clase. Recomendaciones:
  - Mac o Linux: Atom
  - Linux: Gedit u otro que te guste.
2. Un editor de Markdown
  - Mac: MacDown
  - Mac o Linux: Haroopad o Typora
3. R y RStudio.
Si van a tomar notas, que sean ahí o en un editor de Markdown, nooooo en Word, de veritas de veritas.

Este repositorio

El repositorio está dividido en un folder por Unidad. Dentro de cada folder subiremos los apuntes y código utilizado en cada clase conforme los vayamos viendo en el semestre, así como los enlaces a las tareas.

Las notas de este repositorio están escritas en formato Markdown y, como notarás, el repositorio se encuentra hospedado en GitHub.

Cubriremos ambas herramientas en el curso, pero en resumen:

Markdown es un procesador texto-a-HTML que de forma sencilla permite formatear texto así. Esto es útil para resaltar los los comandos y los resultados de la terminal del resto del texto en los documentos de clase (y en foros de ayuda).
GitHub es un repositorio web especializado en software (pero se puede subir cualquier texto, como este). La parte de arriba enlista los archivos y carpetas dentro del repositorio. La nota de texto a su derecha es el comentario que yo realicé al subir o modificar (commit) el archivo de mi computadora a GitHub. En la parte de abajo puedes leer el contenido de dichos archivos en formato html. Y si los bajas los verás en formato Markdown.

En este mismo repositorio de github están las versiones de cursos que hemos dado los años pasados. Cada curso está en una "rama" de del repositorio (más adelante veremos qué es esto). Si estás siguiendo este curso en youtube en un año diferente al del curso, quizá sea necesario que cambies la rama para que los videos correspondan con los apuntes.

En la unidad 2 aprenderemos a utilizar github desde la línea de comando, pero por lo pronto, para hacer los ejercicios de la unidad 1: baja el respositorio y guárdalo en tu escritorio. Para bajarlo da click en el botón verde del lado derecho que dice "Clone or Download" y selecciona "Download zip".

Mecanismo de calificación

El curso se dividirá en tres secciones que se calificarán por separado. Se asiganarán tareas al final de cada sesión. El resultados de la tareas debe ser enviado para evaluación cada viernes hasta las 23:00 hrs. Cada tarea será evaluada con una nota del 1-7. La nota de la unidad será calculada como:

80% promedio aritmético entre las notas de las tareas de la unidad
20% Proyecto de la unidad, el cual se califica con:
- 15% Organización del repositorio
- 15% README (debe ser en inglés)
- 20% Análisis
- 20% Resumen y discusión en formato Markdown
- 15% Gráfica(s) en R
- 15% Scripts deben estar comentados en inglés

El "Proyecto" de la unidad consiste una carpeta dentro de un repositorio personal en Github donde el estudiante debe depositar sus tareas. Veremos cómo hacerlo en la sesión 2 de la Unidad 1.

Todas las unidades son obligatorias.

Copiar o plagiar (tareas, exámenes, trabajo final, lo que sea) es motivo suficiente para reprobarte sin lugar a discusión.

Temario

VIDEO: Bienvenida al curso

Unidad 1 Introducción a la programación

Sesión 1: Mis primeros comandos

VIDEO: Sesión 1

Código en computación
Cómo buscar ayuda (permanentemente)
Introducción a la consola y línea de comando de bash
Funciones básicas de navegación y manejo de archivos con bash
Introducción a los scripts

Trabajo individual:

Funciones básicas de exploración de archivos con bash
Regular expressions y búsqueda de patrones (grep)
Redirección con bash
Loops con bash

Sesión 2: Organización de un proyecto bioinformático

VIDEO: Sesión 2

Documentación de scripts y del proyecto
Markdown
git
Github

Trabajo individual:

Manejo de proyectos e issues en Github
Creación de pipelines

Sesión 3: Introducción a R con un enfoque bioinformático

VIDEO: Sesión 3

R y RStudio
Funciones básicas de R más importantes para bioinformática
Rmarkdown y R Notebook

Sesión 4: Programación y análisis de datos en R

Funciones propias: crear funciones y utilizarlas con source
Manipulación y limpieza de datos en R

Trabajo individual:

Graficar en R
Bioconductor

Unidad 2 Genética de poblaciones con software especializado

Sesión 1: Datos genéticos

Formatos VCF-tools y plink
Paquetes de R y otros software para genética de poblaciones

Sesión 2: Análisis genético de poblaciones

PCA exploratorios
Análisis de estructura poblacional
Análisis de mestizaje

Sesión 3: Análisis de ADN antiguo

Particularidades de los datos aDNA
Limpieza de datos
Llamado de variantes
Algunos análisis poblaciones con aDNA

Unidad 3 Generación y alineamiento de datos NGS

Sesión 1 Generación y QC de datos NGS

Técnicas de secuenciación
Errores de secuenciación
Limpieza de datos crudos

Trabajo individual:

Formatos fastq, bam, vcf

Sesión 2: Introducción a las bases de datos

Datos de secuencias
Bases de datos biológicas

Sesión 3: Análisis de secuencias

Alineamiento contra un genoma de referencia
Llamado de variantes

Trabajo individual:

Predicción funcional de variantes
Interpretación y anotación de variantes

Sesión 4: Genómica del cáncer

Llamado de mutaciones somáticas
Aplicaciones para la precisión del diagnóstico

Unidad 4 Análisis de transcriptomas

Sesión 1 Expresión diferencial

Microarreglos
Diseño experimental
Análisis de expresión diferencial

Sesión 2 Análisis funcional

Clustering
Enriquecimiento funcional

Sesión 3 RNA-seq

Generación de datos RNAseq
Modelamiento de datos
Software

Name		Name	Last commit message	Last commit date
Latest commit History 692 Commits
Unidad1		Unidad1
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
_config.yml		_config.yml
github-branches.png		github-branches.png
github_download.png		github_download.png
truestory.png		truestory.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Introducción a la bioinformática e investigación reproducible para análisis genómicos

Objetivos

Que sí es este curso

Que NO es este curso

Dinámica del curso

¿Cómo serán las clases?

Este repositorio

Mecanismo de calificación

Temario

VIDEO: Bienvenida al curso

Unidad 1 Introducción a la programación

Sesión 1: Mis primeros comandos

Sesión 2: Organización de un proyecto bioinformático

Sesión 3: Introducción a R con un enfoque bioinformático

Sesión 4: Programación y análisis de datos en R

Unidad 2 Genética de poblaciones con software especializado

Sesión 1: Datos genéticos

Sesión 2: Análisis genético de poblaciones

Sesión 3: Análisis de ADN antiguo

Unidad 3 Generación y alineamiento de datos NGS

Sesión 1 Generación y QC de datos NGS

Sesión 2: Introducción a las bases de datos

Sesión 3: Análisis de secuencias

Sesión 4: Genómica del cáncer

Unidad 4 Análisis de transcriptomas

Sesión 1 Expresión diferencial

Sesión 2 Análisis funcional

Sesión 3 RNA-seq

About

Uh oh!

Releases

Packages

Contributors 43

Uh oh!

Languages

License

u-genoma/BioinfinvRepro

Folders and files

Latest commit

History

Repository files navigation

Introducción a la bioinformática e investigación reproducible para análisis genómicos

Objetivos

Que sí es este curso

Que NO es este curso

Dinámica del curso

¿Cómo serán las clases?

Este repositorio

Mecanismo de calificación

Temario

VIDEO: Bienvenida al curso

Unidad 1 Introducción a la programación

Sesión 1: Mis primeros comandos

Sesión 2: Organización de un proyecto bioinformático

Sesión 3: Introducción a R con un enfoque bioinformático

Sesión 4: Programación y análisis de datos en R

Unidad 2 Genética de poblaciones con software especializado

Sesión 1: Datos genéticos

Sesión 2: Análisis genético de poblaciones

Sesión 3: Análisis de ADN antiguo

Unidad 3 Generación y alineamiento de datos NGS

Sesión 1 Generación y QC de datos NGS

Sesión 2: Introducción a las bases de datos

Sesión 3: Análisis de secuencias

Sesión 4: Genómica del cáncer

Unidad 4 Análisis de transcriptomas

Sesión 1 Expresión diferencial

Sesión 2 Análisis funcional

Sesión 3 RNA-seq

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 43

Uh oh!

Languages

Packages