Este repositorio contiene una comparativa detallada de rendimiento entre las principales librerías de procesamiento de datos en Python: Pandas, Polars y Data.table.
- Benchmarks detallados de operaciones comunes
- Casos de uso reales
- Comparativas de memoria y tiempo de ejecución
- Ejemplos de código optimizado para cada librería
- Python 3.8+
- pandas
- polars
- datatable
- numpy
- jupyter
- Clona el repositorio:
git clone https://github.com/jordanvt18/python-data-processing-benchmark.git
cd python-data-processing-benchmark
- Crea un entorno virtual:
python -m venv venv
source venv/bin/activate # En Windows: venv\Scripts\activate
- Instala las dependencias:
pip install -r requirements.txt
python-data-processing-benchmark/
├── notebooks/
│ ├── 01_basic_operations.ipynb
│ ├── 02_advanced_operations.ipynb
│ └── 03_memory_comparison.ipynb
├── src/
│ ├── __init__.py
│ ├── benchmarks.py
│ └── utils.py
├── data/
│ └── sample_data.csv
├── tests/
│ └── test_benchmarks.py
├── requirements.txt
├── setup.py
└── README.md
- Inicia Jupyter Notebook:
jupyter notebook
- Abre los notebooks en la carpeta
notebooks/
para ver las comparativas detalladas.
Los resultados detallados de los benchmarks se encuentran en los notebooks, pero aquí hay un resumen:
- Pandas: Mejor para prototipado rápido y datasets pequeños
- Polars: Rendimiento superior en operaciones complejas y grandes datasets
- Data.table: Excelente balance entre velocidad y facilidad de uso
Las contribuciones son bienvenidas! Por favor, lee las guías de contribución antes de enviar un Pull Request.
Este proyecto está bajo la Licencia MIT - ver el archivo LICENSE para más detalles.