Skip to content

FIUBA-Posgrado-Inteligencia-Artificial/CEIA-ViT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

56 Commits
 
 
 
 
 
 

Repository files navigation

CEIA-ViT


Programa de la materia

  1. Arquitectura de Transformers e imágenes como secuencias.
  2. Arquitecturas de ViT y el mecanismo de Attention.
  3. Ecosistema actual: Hugging Face y modelos preentrenados.
  4. GPT en NLP e ImageGPT.
  5. Modelos multimodales: combinación de visión y lenguaje (CLIP, DALL-E, ..)
  6. Segmentación con SAM y herramientas de auto etiquetado multimodales.
  7. OCR y detección con modelos multimodales.
  8. Presentación de los proyectos.

Forma de Evaluación

1. Entrega de Trabajos Prácticos (Obligatoria - Individual)

La entrega de los trabajos prácticos es obligatoria y debe ser realizada de manera individual. Los plazos de entrega son los siguientes:

  • Ejercicio 1: Debe ser entregado antes de la Clase 3.
  • Ejercicio 2: Debe ser entregado antes de la Clase 4.
  • Ejercicio 3: Opcional.
  • Ejercicio 4: Opcional.

2. Entrega del Proyecto (Obligatoria - Grupal)

El proyecto debe ser entregado por grupos e incluir los siguientes elementos:

  • Proyecto estructurado en git que contenga:

    • Código funcional y estructurado (nivel-preproducción).
    • Informe técnico: Debe contener:
      • Los pasos seguidos en el desarrollo del proyecto.
      • Decisiones de diseño del modelo.
      • Análisis detallado de los resultados.
      • Visualizaciones generadas.
    • README orientativo.
  • Presentación final: Duración de 15 minutos, enfocada en:

    • Análisis de los resultados más relevantes, con énfasis en las métricas utilizadas.
    • Visualizaciones del modelo.
    • Explicación de cómo el modelo puede aplicarse en un contexto real.

El código y el informe deben ser entregados a más tardar el viernes siguiente a la clase 7.


Evaluación del Proyecto

El proyecto será evaluado de acuerdo a los siguientes criterios:

Criterio Ponderación
Claridad técnica del informe 25%
Calidad del código 25%
Evaluación y análisis 25%
Presentación y visualización 25%

Cálculo de la Evaluación Global

La evaluación final se calculará mediante la siguiente fórmula:

Evaluación Global = 0.4 * Prácticas + 0.6 * Proyecto

Bibliografía

Rothman, D. (2024) "Transformers for Natural Language Processing and Computer Vision: Explore Generative AI and Large Language Models with Hugging Face, ChatGPT, GPT-4V, and DALL-E." Packt Publishing; 3rd edition.

Dosovitskiy, A., et al. (2020) "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." arXiv preprint arXiv:2010.11929. Link

Vaswani, A., et al. (2017) "Attention is All You Need." Advances in Neural Information Processing Systems (NeurIPS). Link

Haoran Z., et al. (2023) "Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective" Link

Touvron, H., et al. (2021) "Training data-efficient image transformers & distillation through attention." International Conference on Machine Learning (ICML). Link

Carion, N., et al. (2020) "End-to-End Object Detection with Transformers." European Conference on Computer Vision (ECCV). Link

Yuan, L., et al. (2021) "Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet." IEEE International Conference on Computer Vision (ICCV). Link


Wu, B., et al. (2021) "CvT: Introducing Convolutions to Vision Transformers." International Conference on Computer Vision (ICCV). Link

"Transformers and Visual Transformers, Part of the book series: Neuromethods" ((NM,volume 197)) Link

Ze Liu, Yutong Lin et.al (2021), "Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows", ICCV
Link-paper, Link-huggingface

Sachin Mehta y Mohammad Rastegari, "MOBILEVIT: Light-Weight, general-purpose, and mobile-friendly vision transformer” Link-paper, Link-huggingface

Wenhai Wang et.al. (2021), "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" Link-paper, Link-huggingface

Docentes a cargo:

Esp. Abraham Rodriguez (abraham.rodz17@gmail.com); Mg. Oksana Bokhonok (bokhonokok@gmail.com)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •