Este proyecto presenta un análisis de un conjunto de datos sobre hongos utilizando métodos de clustering y análisis de componentes principales (PCA). El proyecto incluye análisis exploratorio de datos, visualización y aplicación de varios métodos de aprendizaje automático.
El conjunto de datos contiene información sobre diversas características de los hongos, incluyendo:
- Forma del sombrero
- Superficie del sombrero
- Color del sombrero
- Presencia de moretones
- Olor
- Características de las láminas
- Características del tallo
- Y otros rasgos morfológicos
La variable objetivo es la toxicidad del hongo (clasificación binaria).
El proyecto utiliza las siguientes bibliotecas principales:
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn
- scipy
- kneed
- plotly
La lista completa de dependencias se puede encontrar en el archivo requirements.txt
.
- Clone el repositorio
- Cree un entorno virtual:
python -m venv .venv
- Active el entorno virtual:
# Windows
.venv\Scripts\activate
# Linux/Mac
source .venv/bin/activate
- Instale las dependencias:
pip install -r requirements.txt
workshop_clustering_pca_Version_final.ipynb
- archivo principal con el análisis de datosrequirements.txt
- archivo de dependencias del proyectoREADME.md
- documentación del proyecto
- Inicie Jupyter Notebook:
jupyter notebook
- Abra el archivo
workshop_clustering_pca_Version_final.ipynb
- Siga las instrucciones en el notebook para realizar el análisis
- Carga y preprocesamiento de datos
- Análisis exploratorio de datos
- Aplicación de métodos de clustering
- Análisis de componentes principales (PCA)
- Visualización de resultados