Análisis y predicción de cancelación de clientes (Churn) en una empresa de telecomunicaciones.
Este proyecto tiene como objetivo identificar patrones de comportamiento que lleven a la cancelación del servicio y construir modelos predictivos para anticipar este fenómeno.
Para ejecutar este proyecto localmente necesitas tener instalado lo siguiente:
- Python 3.8 o superior
- Jupyter Notebook o JupyterLab
- pip (gestor de paquetes de Python)
Además, las siguientes bibliotecas de Python deben estar instaladas:
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn
- Clona este repositorio en tu máquina local:
git clone https://github.com/PamelaOrmeno/TelecomX_parte2_Latam.git
cd TelecomX_parte2_Latam
- Crea un entorno virtual (opcional pero recomendado):
python -m venv venv
source venv/bin/activate # En Windows: venv\Scripts\activate
- Instala las dependencias necesarias:
pip install pandas numpy matplotlib seaborn scikit-learn
- Abre el notebook con Jupyter:
jupyter notebook TelecomX_parte2_Latam.ipynb
├── Data/
│ └── TelecomX_Data_Transformada.csv
├── README.md
├── TelecomX_parte2_Latam.ipynb
- Analizar el comportamiento de los clientes que cancelan el servicio.
- Preparar los datos para modelado predictivo.
- Explorar las relaciones entre variables y el churn.
- Construir y evaluar modelos de clasificación.
- Identificar las variables más influyentes.
- Proponer recomendaciones para reducir la cancelación.
- Python 3.x
- Pandas
- Numpy
- Seaborn
- Matplotlib
- Scikit-learn
- Carga del dataset.
- Vista de columnas y estructura.
- Revisión de valores nulos.
- Eliminación de columnas irrelevantes.
- Unificación de valores.
- Codificación de variables categóricas.
- Verificación del desbalance de clases.
- Escalado de variables con Min-Max Scaling (cuando corresponde).
- Matriz y mapa de correlación.
- Análisis dirigido con gráficos (
tenure
vschurn
, etc.).
- Separación del dataset en entrenamiento y prueba (70/30).
- Creación de modelos:
- Regresión Logística (requiere normalización).
- Árbol de Decisión (sin normalización).
- Evaluación:
- Accuracy, precisión, recall, F1-score.
- Matriz de confusión.
- Análisis crítico de los resultados.
- Análisis de importancia de las variables con Random Forest.
- Recomendaciones estratégicas basadas en los hallazgos.
- Las variables
tenure
,charges.monthly
ycontract_Mes a Mes
fueron las más influyentes en la cancelación. - Los clientes con contratos de corto plazo y bajo tiempo de permanencia tienen mayor probabilidad de churn.
- La regresión logística mostró mejor capacidad predictiva en este caso, aunque el Árbol de Decisión aportó mayor interpretabilidad.
- Ofrecer contratos de mayor duración con beneficios puede ayudar a reducir el churn.
- Monitorear clientes con tenure bajo y alto gasto mensual puede permitir intervenciones proactivas.
- Incluir modelos de machine learning en procesos de retención puede anticipar cancelaciones y mejorar la fidelización.
- 📘 Mentoría: TelecomX - Parte 2
- 🧠 Curso Alura Latam - Oracle Next Education
Pamela Ormeño
Desarrollado como parte del programa de formación Oracle Next Education (ONE) - Alura Latam.
📎 LinkedIn