Pretuning

🌟 Pretuning

A tool designed for creating pre-training datasets for language models, supporting one-click batch processing of both text and image datasets.

📺 Preview

🚀 Features

📝 Text Dataset Creation
- Smart text processing using pydanticai agents
- Automatic text segmentation
- Batch text processing
- Standard instruction format output
🖼️ Image Dataset Creation
- Automatic image preprocessing
- Batch image description generation
- Custom prompt support
- OpenAI API integration

🔧 Quick Start

Clone repository:

git clone https://github.com/adoresever/pretuning.git
cd pretuning

Create and activate conda environment:

conda create -n pretuning python=3.10 -y
conda activate pretuning

Install dependencies:

pip install -r requirements.txt

Start application:

python main.py

Access the web interface (typically http://localhost:7860)

📦 Project Structure

Pretuning/
├── config/            # Configuration files
├── core/             # Core functionality modules
├── ui/               # Web interface
├── input/            # Example input files
├── image_dataset/    # Image dataset output
├── text_dataset/     # Text dataset output
└── temp_dataset/     # Temporary files

📝 Usage

For Text Dataset:

Upload text files
Set processing parameters in the UI
Generate training data with one click
Export in standard format

For Image Dataset:

Upload image files
Configure API settings in the UI
Generate batch descriptions
Export dataset

🛠️ Requirements

Python 3.8+
Anaconda or Miniconda
Sufficient disk space for dataset storage

🌟 预训练数据集制作工具

一个专为语言模型预训练设计的数据集制作工具，支持文本和图像数据集的一键式批量处理。

📺 预览

🚀 功能特点

📝 文本数据集制作
- 使用 PydanticAi agents 进行智能文本处理
- 自动文本分段
- 批量文本处理
- 标准指令格式输出
🖼️ 图像数据集制作
- 自动图像预处理
- 批量图像描述生成
- 支持自定义提示词
- OpenAI API 集成

🔧 快速开始

克隆仓库：

git clone https://github.com/adoresever/pretuning.git
cd pretuning

创建并激活 conda 虚拟环境：

conda create -n pretuning python=3.10 -y
conda activate pretuning

安装依赖：

pip install -r requirements.txt

启动应用：

python main.py

访问Web界面（通常是 http://localhost:7860）

📦 项目结构

Pretuning/
├── config/            # 配置文件
├── core/             # 核心功能模块
├── ui/               # Web界面
├── input/            # 示例输入文件
├── image_dataset/    # 图像数据集输出
├── text_dataset/     # 文本数据集输出
└── temp_dataset/     # 临时文件

📝 使用方法

文本数据集：

上传文本文件
在界面中设置处理参数
一键生成训练数据
导出标准格式

图像数据集：

上传图片文件
在界面中配置 API 设置
批量生成描述
导出数据集

🛠️ 环境要求

Python 3.8+
Anaconda 或 Miniconda
足够的磁盘空间用于数据集存储

👥 作者

王宇 (Wang Yu) - Wywelljob@gmail.com

📄 开源协议

本项目采用 MIT 协议 - 详见 LICENSE 文件

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
config		config
core		core
example		example
input		input
ui		ui
image_preview.png		image_preview.png
license.md		license.md
main.py		main.py
readme.md		readme.md
requirements.txt		requirements.txt
text_preview.png		text_preview.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Pretuning

🌟 Pretuning

📺 Preview

🚀 Features

🔧 Quick Start

📦 Project Structure

📝 Usage

For Text Dataset:

For Image Dataset:

🛠️ Requirements

🌟 预训练数据集制作工具

📺 预览

🚀 功能特点

🔧 快速开始

📦 项目结构

📝 使用方法

文本数据集：

图像数据集：

🛠️ 环境要求

👥 作者

📄 开源协议

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

adoresever/Pretuning

Folders and files

Latest commit

History

Repository files navigation

Pretuning

🌟 Pretuning

📺 Preview

🚀 Features

🔧 Quick Start

📦 Project Structure

📝 Usage

For Text Dataset:

For Image Dataset:

🛠️ Requirements

🌟 预训练数据集制作工具

📺 预览

🚀 功能特点

🔧 快速开始

📦 项目结构

📝 使用方法

文本数据集：

图像数据集：

🛠️ 环境要求

👥 作者

📄 开源协议

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages