pelican-data-loader

Pelican-backed data loader prototype: demo

Quickstart

Install pelican-data-loader and pytorch from pypi
```
pip install pelican-data-loader torch
```

Consume data with datasets

from datasets import load_dataset
dataset = load_dataset("csv", data_files="pelican://uwdf-director.chtc.wisc.edu/wisc.edu/dsi/pytorch/bird_migration_data.csv")
torch_dataset = dataset.with_format("torch")

Features

Uses Croissant to store / validate metadata
Uses pelicanfs to locate/cache dataset
Uses datasets to convert to different ML data format (e.g., pytorch, tensorflow, jax, polars, pyarrow...)
Provided dataset storage via UW-Madison's S3

Future features (Pending)

doi minting via DataCite
better frontend for dataset discover and publishing
backup
data prefetching? (at pelican layer?)
private datasets
telemetry?

Backend

WISC-S3, storing
- Actual datasets
- Croissant JSONLD
Postgres, storing
- Various metadata
- Links to pelican data source
- Links to Croissant JSONLD

Dev notes

Licenses data: pull from SPDX with pelican_data_loader.data.pull_license.
minimal csv file croissant generator: pelican_data_loader.utils.parse_col.

Name		Name	Last commit message	Last commit date
Latest commit History 84 Commits
.github/instructions		.github/instructions
.vscode		.vscode
app		app
data		data
notebooks		notebooks
pelican_data_loader		pelican_data_loader
scripts		scripts
.dockerignore		.dockerignore
.gitignore		.gitignore
.python-version		.python-version
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

pelican-data-loader

Quickstart

Features

Future features (Pending)

Backend

Dev notes

About

Uh oh!

Releases

Packages

Languages

License

UW-Madison-DSI/pelican-data-loader

Folders and files

Latest commit

History

Repository files navigation

pelican-data-loader

Quickstart

Features

Future features (Pending)

Backend

Dev notes

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages