Grupo 03
Integrantes:
- ARIAS, Rafaela Pilar. Padrón: 112272. rparias@fi.uba.ar
- BARCALA ROCA, Ramiro. Padrón: 112478. rbarcala@fi.uba.ar
- LEMA, Mora. Padrón: 111831. molema@fi.uba.ar
- IENCO, Lara Eliana. Padrón: 111921. lienco@fi.uba.ar
TP 1: Análisis Exploratorio de Datos - Modelos de Clasificación Binaria - Regresión - Agrupamiento (Clustering)
Cada ejercicio incluye análisis, preprocesamiento, modelado, evaluación y visualización de resultados. Se abordaron cuatro ejercicios principales:
-
Análisis exploratorio sobre datos de viajes en taxis Yellow Cab (EE.UU.), para comprender las características, detectar datos faltantes y valores atípicos, y generar nuevas variables.
-
Modelos de clasificación binaria para predecir lluvia al día siguiente a partir de datos meteorológicos de Australia, usando Árboles de Decisión, Random Forest y un Ensamble Híbrido (Voting).
-
Modelos de regresión para predecir el precio de alquiler en Airbnb en Río de Janeiro, entrenando Regresión Lineal, XGBoost y KNN.
-
Agrupamiento (clustering) de datos musicales de Spotify, utilizando K-Means para identificar grupos y caracterizarlos.
Proyecto de clasificación de sentimiento en críticas cinematográficas en español. El objetivo fue predecir si una crítica es positiva o negativa, utilizando técnicas de procesamiento de lenguaje natural y modelos de machine learning.
Se aplicaron métodos de preprocesamiento como "bag of words" y vectorización del texto, y se entrenaron los siguientes modelos:
- Naive Bayes
- Random Forest
- XGBoost
- Red Neuronal (PyTorch)
- Ensamble Híbrido (Stacking con Random Forest, Naive Bayes y Regresión Logística; meta-modelo: XGBoost)
Cada modelo fue optimizado mediante búsqueda de hiperparámetros y evaluado con la métrica F1 en un conjunto de prueba. Las predicciones se enviaron a Kaggle para competir en el leaderboard.