全功能异步接口 `v2/*` #187

zhzLuke96 · 2024-11-06T05:43:01Z

背景

现在很多内部功能其实还是没有完全释放出来，比如 voice clone 流程基本触发不到，并且用 tts api 单次克隆也很麻烦
还有比如任务队列的需求，也很有必要开发，所以准备开发 v2 api

基本方向：所有兼容接口 google openai xtts 这些均保留在 v1 spec 下面，v2 是一套完全独立的 api，基于 job queue 和文件流管理

/v2/tts post api，可以控制所有 tts pipeline context，并且可以接受克隆参数（即参考音频）
- /v2/tts 单元测试
/v2/file 文件api，输出文件流独立于生成接口
/v2/job/* 任务队列api
v2 api 文档

The text was updated successfully, but these errors were encountered:

zhzLuke96 · 2025-02-14T17:34:53Z

v2系列api涉及到数据流管理和任务队列，还未完善，但是 /v2/tts 几乎已经可用（缺少测试）

下面我写一些简单的 /v2/tts 使用说明，以防有人需要使用 /v2/tts 接口但是现在缺乏文档支持

{
  "text": "你好。",
  "tts": {
    "mid": "cosy-voice"
  }
}

可以使用两种方式指定说话人

{
  "text": "你好。",
  "spk": {
    "from_spk_id": "9609c6a2d27b485fb0c8aec05a684579"
  }
}

{
  "text": "你好。",
  "spk": {
    "from_spk_name": "mona"
  }
}

{
  "text": "你好。",
  "spk": {
    "from_ref": {
      "wav_b64": "SUQzB...<base64编码音频文件的字符串>",
      "text": "<对应参考音频的文本>"
    }
  }
}

如何调用 api ？如何测试 api？
推荐参考这个示例代码：
https://github.com/lenML/Speech-AI-Forge/blob/main/examples/javascript/tts_v2_full.mjs
其中有完整的接口参数，以及演示了如何传递 base64 参考音频

zhzLuke96 · 2025-03-24T13:49:33Z

zhzLuke96 added the Story label Nov 6, 2024

zhzLuke96 added a commit that referenced this issue Nov 10, 2024

✨ tts v2 api #187

27f5dfc