A tool designed for creating pre-training datasets for language models, supporting one-click batch processing of both text and image datasets.
-
📝 Text Dataset Creation
- Smart text processing using pydanticai agents
- Automatic text segmentation
- Batch text processing
- Standard instruction format output
-
🖼️ Image Dataset Creation
- Automatic image preprocessing
- Batch image description generation
- Custom prompt support
- OpenAI API integration
- Clone repository:
git clone https://github.com/adoresever/pretuning.git
cd pretuning
- Create and activate conda environment:
conda create -n pretuning python=3.10 -y
conda activate pretuning
- Install dependencies:
pip install -r requirements.txt
- Start application:
python main.py
- Access the web interface (typically http://localhost:7860)
Pretuning/
├── config/ # Configuration files
├── core/ # Core functionality modules
├── ui/ # Web interface
├── input/ # Example input files
├── image_dataset/ # Image dataset output
├── text_dataset/ # Text dataset output
└── temp_dataset/ # Temporary files
- Upload text files
- Set processing parameters in the UI
- Generate training data with one click
- Export in standard format
- Upload image files
- Configure API settings in the UI
- Generate batch descriptions
- Export dataset
- Python 3.8+
- Anaconda or Miniconda
- Sufficient disk space for dataset storage
一个专为语言模型预训练设计的数据集制作工具,支持文本和图像数据集的一键式批量处理。
-
📝 文本数据集制作
- 使用 PydanticAi agents 进行智能文本处理
- 自动文本分段
- 批量文本处理
- 标准指令格式输出
-
🖼️ 图像数据集制作
- 自动图像预处理
- 批量图像描述生成
- 支持自定义提示词
- OpenAI API 集成
- 克隆仓库:
git clone https://github.com/adoresever/pretuning.git
cd pretuning
- 创建并激活 conda 虚拟环境:
conda create -n pretuning python=3.10 -y
conda activate pretuning
- 安装依赖:
pip install -r requirements.txt
- 启动应用:
python main.py
- 访问Web界面(通常是 http://localhost:7860)
Pretuning/
├── config/ # 配置文件
├── core/ # 核心功能模块
├── ui/ # Web界面
├── input/ # 示例输入文件
├── image_dataset/ # 图像数据集输出
├── text_dataset/ # 文本数据集输出
└── temp_dataset/ # 临时文件
- 上传文本文件
- 在界面中设置处理参数
- 一键生成训练数据
- 导出标准格式
- 上传图片文件
- 在界面中配置 API 设置
- 批量生成描述
- 导出数据集
- Python 3.8+
- Anaconda 或 Miniconda
- 足够的磁盘空间用于数据集存储
- 王宇 (Wang Yu) - Wywelljob@gmail.com
本项目采用 MIT 协议 - 详见 LICENSE 文件