大模型数据标注平台及AI数据飞轮工程系统

项目概述

本项目旨在构建一个高效、智能的大模型数据标注平台，通过自动化工具链和AI预标注技术，显著提升数据标注效率和质量。

核心功能

自动化标注工具链
- 多算法选优器
- 多人标注可靠性判别器(t≥3标注者置信区间筛选)
- 基于强化学习(Q-Learning)的动态阈值调整模块
- Kubernetes容器化编排 + Airflow DAG调度
- 动态资源调度算法(DRF策略)
PDF版面解析优化
- SAM智能拉框补全
- SORT算法优化长文本跟踪
- Re-ID特征融合多目标关联
AI预标注训练架构
- Few-shot Learning与增量学习融合
- GPT预标注→人工校准双重校验
- 闭环训练链路：GPT标注-人工校准-私有模型训练
两阶段分层训练框架
- 80%通参量预训练 + 20%领域LoRA微调
- 思维链标注(CoT)技术
- 动态Prompt分析历史错误案例
LLM双引擎质检体系
- 生成器(GPT-4 Turbo)与评估器(LLaMA3-70B)角色分离
- 多维度一致性评估(Dice/F1/Cosine)

技术指标

系统吞吐量：50万标注单元/天
数据流转效率提升：40%
PDF标注人工量降低：70%
预标注准确率：97%(+19pp)
标注一致性：92%
质检效率提升：30%

项目结构

├── README.md
├── data
│   ├── raw_data
│   ├── processed_data
│   └── models
├── notebooks
│   ├── data_preprocessing.ipynb
│   ├── model_training.ipynb
│   └── inference.ipynb
├── src
│   ├── data_processing.py
│   ├── model_training.py
│   ├── inference.py
│   └── utils.py
├── config
│   ├── config.yaml
│   └── model_config.yaml
├── requirements.txt
├── setup.py
├── tests
│   ├── test_data_processing.py
│   ├── test_model_training.py
│   └── test_inference.py
├── .gitignore
├── LICENSE
└── Dockerfile

技术实现细节

核心算法模块

Q-Learning阈值调整器：基于强化学习的动态阈值调整算法，通过ε-greedy策略平衡探索与利用
SAM智能标注：集成Segment Anything Model实现PDF智能拉框，减少70%人工标注量
DRF资源调度：Kubernetes集群采用Dominant Resource Fairness算法优化资源分配

部署架构

# 安装依赖
pip install -r requirements.txt

# 启动Kubernetes集群 (需要预先安装minikube)
minikube start --driver=docker --cpus=4 --memory=8192

# 部署应用
kubectl apply -f kubernetes/

运行项目

python main.py

测试项目

pytest

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

大模型数据标注平台及AI数据飞轮工程系统

项目概述

核心功能

技术指标

项目结构

技术实现细节

核心算法模块

部署架构

运行项目

测试项目

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
algorithms		algorithms
backend		backend
config		config
frontend/src		frontend/src
kubernetes		kubernetes
src		src
tests		tests
workflow		workflow
Dockerfile		Dockerfile
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

CristinaKepner/DataAgent

Folders and files

Latest commit

History

Repository files navigation

大模型数据标注平台及AI数据飞轮工程系统

项目概述

核心功能

技术指标

项目结构

技术实现细节

核心算法模块

部署架构

运行项目

测试项目

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages