Skip to content

moxin-org/moxin-asr

Repository files navigation

title license language pipeline_tag tags library_name
VoiceDialogue - 智能语音对话系统
mit
zh
en
text-to-speech
voice-dialogue
speech-recognition
text-to-speech
large-language-model
asr
tts
llm
chinese
english
real-time
transformers

VoiceDialogue - 智能语音对话系统

Python License Platform Version

一个集成了语音识别(ASR)、大语言模型(LLM)和文本转语音(TTS)的实时语音对话系统

快速开始文档导航贡献指南

🎯 项目简介

VoiceDialogue 是一个基于 Python 的完整语音对话系统,实现了端到端的语音交互体验。系统采用模块化设计,具备实时、高精度、多角色的特点。

  • 🎤 实时语音识别: 高精度中英文语音转录
  • 🤖 智能对话生成: 集成 Qwen2.5 等大语言模型
  • 🔊 高质量语音合成: 支持多角色、多风格的语音输出
  • 🌐 Web API 服务: 提供 HTTP 接口,方便集成
  • 低延迟处理: 优化的音频流处理管道

想要了解更多?请查看 功能特性详解

🚀 快速开始

1. 安装

# 克隆项目
git clone https://huggingface.co/MoYoYoTech/VoiceDialogue
cd VoiceDialogue

# 安装依赖 (推荐使用 uv)
pip install uv
uv venv
source .venv/bin/activate

WHISPER_COREML=1 CMAKE_ARGS="-DGGML_METAL=on" uv sync

# 安装额外的依赖
## 1. 安装 kokoro-onnx
uv pip install kokoro-onnx
## 2. 重新安装指定版本的 numpy
uv pip install numpy==1.26.4

📖 需要更详细的步骤?请查阅 安装指南,其中包含系统要求和常见问题。

2. 运行

命令行模式 (CLI)

# 启动语音对话 (默认中文)
python main.py

# 启动并指定语言和角色
python main.py --language en --speaker Heart

API 服务模式

# 启动 API 服务器
python main.py --mode api

详细使用方法请参考 配置指南API 服务指南

📚 文档导航

📄 许可证

本项目采用 MIT 许可证开源。

🙏 致谢

如果这个项目对您有帮助,请给我们一个 ⭐️!

About

No description, website, or topics provided.

Resources

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published