[ISSUE]模型api调用问题 #205

caixianyu · 2025-02-12T15:12:00Z

caixianyu
Feb 12, 2025

确认清单

我已经阅读过 README.md 和 dependencies.md 文件
我已经确认之前没有 issue 或 discussion 涉及此 BUG
我已经确认问题发生在最新代码或稳定版本中
我已经确认问题与 API 无关
我已经确认问题与 WebUI 无关
我已经确认问题与 Finetune 无关

你的issues

cosyvoice 的api调用怎么写，或者说，除了chattts之外的其他模型的api调用命令格式怎么写

zhzLuke96 · 2025-02-13T05:29:56Z

zhzLuke96
Feb 13, 2025
Maintainer

短答案：

/v1/tts: 这个接口配置 model 参数指定其他模型
/v2/tts: 这个接口配置 tts.mid 参数指定其他模型

目前可选值有：
chat-tts fish-speech cosy-voice fire-red-tts f5-tts

长答案：
不太清楚你说的“命令格式”是什么意思，我估计是说api参数？或者你准备用python调用？
这两方面我都说下：

api参数

swagger ui：你可以运行 api server 之后，在 http://localhost:7870/docs 路由下看具体的调用demo和参数类型，目前语音合成有两个接口 /v1/tts 和 /v2/tts
代码：和api参数有关的代码是这几个：
- tts推理参数： https://github.com/lenML/Speech-AI-Forge/blob/main/modules/core/handler/datacls/tts_model.py
- tts v1 接口： https://github.com/lenML/Speech-AI-Forge/blob/main/modules/api/impl/tts_api.py
- tts v2 接口： https://github.com/lenML/Speech-AI-Forge/blob/main/modules/api/v2/tts_api.py
- model zoo： https://github.com/lenML/Speech-AI-Forge/blob/main/modules/core/models/zoo/ModelZoo.py

python调用
如果你准备写python代码调用来生成，而不是使用api，那么你可以参考这个测试脚本：
https://github.com/lenML/Speech-AI-Forge/blob/main/tests/scripts/simple_pipeline.py
api 客户端
如果你准备实现一个客户端，比如在js环境或者py环境，你可以参考这个文件夹下面的代码：
https://github.com/lenML/Speech-AI-Forge/tree/main/examples
这里实现了两个简单的客服端封装

0 replies

caixianyu · 2025-02-13T15:46:42Z

caixianyu
Feb 13, 2025
Author

我指的就是api调用问题。在api.md中只有chattts比较详细。但是文本输入需要自己去添加停顿，文本长了，前后经常听起来像两个不同声色。其他模型，像cosyvoice，fishspeech这种，curl怎么调用？通过doc是可以测试和看到命令，但是直接用就是一个很难听的声音，假设在调用时给音色模仿参考，这个在web界面可以，在curl中怎么写？像api.md中Forge Api v2
curl http://localhost:7870/v2/tts
-H "Authorization: Bearer anything_your_wanna"
-H "Content-Type: application/json"
-d '{
"text": "Today is a wonderful day to build something people love!",
"spk": {
"from_ref": {
"wav_b64": "<你的参考音频的base64字符串>",
"text": "<参考音频对应的文本>"
}
}
}'
--output speech.mp3 这个用的什么模型？

0 replies

zhzLuke96 · 2025-02-14T10:17:51Z

zhzLuke96
Feb 14, 2025
Maintainer

首先，固定音色需要指定 参考音频
目前除了api也可以从webui中使用参考音频来推理，如果你只需要简单生成一两个音频不需要一个稳定的后端服务，那么推荐使用webui，直接拖入参考音频文件就能使用

如果你确实需要使用api，那么 /v1/tts 和 /v2/tts 都可以使用参考音频
区别在于：

/v2/tts 提供更多的传入参考音频的方式，也就是你提到的 spk 这个参数，可以传入 base64 编码的音频文件，或者指定speaker_id/speaker_name
而 /v1/tts 需要你在forge根目录下的 /data/speakers 下配置说话人文件才可以使用，也就是只能指定 speaker_name 来使用参考音频

如果你想通过 curl 来调用 api 同时使用参考音频，你需要先准备好参考音频的 base64 格式作为spk.from_ref.wav_b64的参数，或者在 /data/speakers 文件夹下面准备 spk 说话人文件
*创建spk文件需要使用webui： https://github.com/lenML/Speech-AI-Forge/blob/main/docs/webui_features.md#%E9%9F%B3%E8%89%B2

0 replies

caixianyu · 2025-02-14T16:20:58Z

caixianyu
Feb 14, 2025
Author

生成spk.json后，api中如何使用。如果直接base64 .mp3 生成的编码音频文件，如何使用？
在/data/speakers中，如何配置里面的格式是.pt结尾的。而通过spk.json找不到方法生成.pt。

我就是要通过curl来调用api，假设我的MP3文件为test.mp3, linux 下生成base64 test.mp3>test.wav64，这个编码如何传递？

api.md中的例子如下：

Forge Api v2
为了完全提供所有功能开发的 v2 接口，可以对所有可配置内容进行设置，同时还可以直接输入base64编码的音频作为参考音频创建临时 spk 用于推理

curl http://localhost:7870/v2/tts
-H "Authorization: Bearer anything_your_wanna"
-H "Content-Type: application/json"
-d '{
"text": "Today is a wonderful day to build something people love!",
"spk": {
"from_ref": {
"wav_b64": "<你的参考音频的base64字符串>",
"text": "<参考音频对应的文本>"
}
}
}'
--output speech.mp3

curl -X POST "http://localhost:7870/v2/tts" -H "Authorization: Bearer anything_your_wanna" -H "Content-Type: application/json" --data-binary '{"text": "Today is a wonderful day to build something people love!", "spk": {"from_ref": {"wav_b64": "'"$(cat test.wav64)"'","text:"春天充满诗意与温暖"}}}' --output speech.mp3
这样生成的文件无法播放。

这里也没有指定模型，假设我要使用的是cosyvoice，怎么写？

0 replies

zhzLuke96 · 2025-02-14T17:20:08Z

zhzLuke96
Feb 14, 2025
Maintainer

首先，你应该先检查代码版本
如果你的 /data/speakers 里面还有 *.pt 格式的说话人文件，那么我估计应该是老版本代码或者使用了整合包？
建议用最新代码，因为老版本即不支持 spk.json 格式的说话人也不支持 /v2/tts 接口

关于 api 参数，一个你可以运行 api server 然后查看 http://localhost:7870/docs 里面有自动生成的类型注释
或者你也可以看这个文件 https://github.com/lenML/Speech-AI-Forge/blob/main/examples/javascript/types.d.ts
里面有所有 api 参数的简单类型

你想在 /v2/tts 接口指定模型，并指定参考音频的话，请求的body应该类似这样：

{
  "text": "你好，欢迎使用 Speech AI Forge 项目。",
  "spk": {
    "from_ref": {
      "wav_b64": "SUQzB...<base64编码音频文件的字符串>",
      "text": "<对应参考音频的文本>"
    }
  },
  "tts": {
    "mid": "cosy-voice"
  }
}

具体如何调用，不建议用 curl ，curl在终端中使用可能有编码问题，特别是有中文的时候，并且你要传递 base64 也得预处理不方便
建议参考，我添加的这个文件 /examples/javascripts/tts_v2_full.mjs 展示如何使用 /v2/tts 的所有参数，以及如何提供 base64 格式的参考音频
https://github.com/lenML/Speech-AI-Forge/blob/main/examples/javascript/tts_v2_full.mjs

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[ISSUE]模型api调用问题 #205

{{title}}

Replies: 5 comments

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

[ISSUE]模型api调用问题 #205

caixianyu Feb 12, 2025

确认清单

你的issues

Replies: 5 comments

zhzLuke96 Feb 13, 2025 Maintainer

caixianyu Feb 13, 2025 Author

zhzLuke96 Feb 14, 2025 Maintainer

caixianyu Feb 14, 2025 Author

zhzLuke96 Feb 14, 2025 Maintainer

caixianyu
Feb 12, 2025

zhzLuke96
Feb 13, 2025
Maintainer

caixianyu
Feb 13, 2025
Author

zhzLuke96
Feb 14, 2025
Maintainer

caixianyu
Feb 14, 2025
Author

zhzLuke96
Feb 14, 2025
Maintainer