Skip to content

Este repositorio contiene una comparativa detallada de rendimiento entre las principales librerías de procesamiento de datos en Python: Pandas, Polars y Data.table.

License

Notifications You must be signed in to change notification settings

jordanvt18/python-data-processing-benchmark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

31 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python Data Processing Libraries Benchmark

Python 3.8+ License: MIT

Este repositorio contiene una comparativa detallada de rendimiento entre las principales librerías de procesamiento de datos en Python: Pandas, Polars y Data.table.

🚀 Características

  • Benchmarks detallados de operaciones comunes
  • Casos de uso reales
  • Comparativas de memoria y tiempo de ejecución
  • Ejemplos de código optimizado para cada librería

📋 Requisitos

  • Python 3.8+
  • pandas
  • polars
  • datatable
  • numpy
  • jupyter

🔧 Instalación

  1. Clona el repositorio:
git clone https://github.com/jordanvt18/python-data-processing-benchmark.git
cd python-data-processing-benchmark
  1. Crea un entorno virtual:
python -m venv venv
source venv/bin/activate  # En Windows: venv\Scripts\activate
  1. Instala las dependencias:
pip install -r requirements.txt

📊 Estructura del Proyecto

python-data-processing-benchmark/
├── notebooks/
│   ├── 01_basic_operations.ipynb
│   ├── 02_advanced_operations.ipynb
│   └── 03_memory_comparison.ipynb
├── src/
│   ├── __init__.py
│   ├── benchmarks.py
│   └── utils.py
├── data/
│   └── sample_data.csv
├── tests/
│   └── test_benchmarks.py
├── requirements.txt
├── setup.py
└── README.md

💻 Uso

  1. Inicia Jupyter Notebook:
jupyter notebook
  1. Abre los notebooks en la carpeta notebooks/ para ver las comparativas detalladas.

📈 Resultados

Los resultados detallados de los benchmarks se encuentran en los notebooks, pero aquí hay un resumen:

  • Pandas: Mejor para prototipado rápido y datasets pequeños
  • Polars: Rendimiento superior en operaciones complejas y grandes datasets
  • Data.table: Excelente balance entre velocidad y facilidad de uso

🤝 Contribuir

Las contribuciones son bienvenidas! Por favor, lee las guías de contribución antes de enviar un Pull Request.

📝 Licencia

Este proyecto está bajo la Licencia MIT - ver el archivo LICENSE para más detalles.

About

Este repositorio contiene una comparativa detallada de rendimiento entre las principales librerías de procesamiento de datos en Python: Pandas, Polars y Data.table.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published