- Arquitectura de Transformers e imágenes como secuencias.
- Arquitecturas de ViT y el mecanismo de Attention.
- Ecosistema actual: Hugging Face y modelos preentrenados.
- GPT en NLP e ImageGPT.
- Modelos multimodales: combinación de visión y lenguaje (CLIP, DALL-E, ..)
- Segmentación con SAM y herramientas de auto etiquetado multimodales.
- OCR y detección con modelos multimodales.
- Presentación de los proyectos.
La entrega de los trabajos prácticos es obligatoria y debe ser realizada de manera individual. Los plazos de entrega son los siguientes:
- Ejercicio 1: Debe ser entregado antes de la Clase 3.
- Ejercicio 2: Debe ser entregado antes de la Clase 4.
- Ejercicio 3: Opcional.
- Ejercicio 4: Opcional.
El proyecto debe ser entregado por grupos e incluir los siguientes elementos:
-
Proyecto estructurado en git que contenga:
- Código funcional y estructurado (nivel-preproducción).
- Informe técnico: Debe contener:
- Los pasos seguidos en el desarrollo del proyecto.
- Decisiones de diseño del modelo.
- Análisis detallado de los resultados.
- Visualizaciones generadas.
- README orientativo.
-
Presentación final: Duración de 15 minutos, enfocada en:
- Análisis de los resultados más relevantes, con énfasis en las métricas utilizadas.
- Visualizaciones del modelo.
- Explicación de cómo el modelo puede aplicarse en un contexto real.
El código y el informe deben ser entregados a más tardar el viernes siguiente a la clase 7.
El proyecto será evaluado de acuerdo a los siguientes criterios:
Criterio | Ponderación |
---|---|
Claridad técnica del informe | 25% |
Calidad del código | 25% |
Evaluación y análisis | 25% |
Presentación y visualización | 25% |
La evaluación final se calculará mediante la siguiente fórmula:
Evaluación Global = 0.4 * Prácticas + 0.6 * Proyecto
Rothman, D. (2024) "Transformers for Natural Language Processing and Computer Vision: Explore Generative AI and Large Language Models with Hugging Face, ChatGPT, GPT-4V, and DALL-E." Packt Publishing; 3rd edition.
Dosovitskiy, A., et al. (2020) "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." arXiv preprint arXiv:2010.11929. Link
Vaswani, A., et al. (2017) "Attention is All You Need." Advances in Neural Information Processing Systems (NeurIPS). Link
Haoran Z., et al. (2023) "Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective" Link
Touvron, H., et al. (2021) "Training data-efficient image transformers & distillation through attention." International Conference on Machine Learning (ICML). Link
Carion, N., et al. (2020) "End-to-End Object Detection with Transformers." European Conference on Computer Vision (ECCV). Link
Yuan, L., et al. (2021) "Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet." IEEE International Conference on Computer Vision (ICCV). Link
Wu, B., et al. (2021) "CvT: Introducing Convolutions to Vision Transformers." International Conference on Computer Vision (ICCV). Link
"Transformers and Visual Transformers, Part of the book series: Neuromethods" ((NM,volume 197)) Link
Ze Liu, Yutong Lin et.al (2021), "Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows", ICCV
Link-paper, Link-huggingface
Sachin Mehta y Mohammad Rastegari, "MOBILEVIT: Light-Weight, general-purpose, and mobile-friendly vision transformer” Link-paper, Link-huggingface
Wenhai Wang et.al. (2021), "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" Link-paper, Link-huggingface
Esp. Abraham Rodriguez (abraham.rodz17@gmail.com); Mg. Oksana Bokhonok (bokhonokok@gmail.com)