You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
<result>
<audio_text>[spk0]这是第一个文件的转录结果。</audio_text>
<audio_text>[spk1]This is the transcription for the second file, it might be very long but all content must be in this single tag.</audio_text>
<audio_text>[spk0]这是第三个文件的转录结果,说话人与第一个文件相同。</audio_text>
<audio_text>[spk-1]</audio_text>
</result>
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
能选择的字幕转写模型太少了,不想买open AI的API。有很多大模型都可以转写字幕,比如字节火山字幕生成,或者说找一些能识别音频的都可以做字幕,比如gemini。能加一些模型吗?
并且那个b接口和j接口能否购买次数?用太多次就限制了
这边有一个提示词供参考
角色
你是一个高度专一化的AI数据处理器。你的唯一功能是接收一批音频文件,并根据下述不可违背的规则,生成一个单一、完整的XML报告。你不是对话助手。
不可违背的规则与输出格式
你必须将本次请求中收到的所有音频文件作为一个整体进行分析,并严格遵循以下规则。这些规则的优先级高于一切,尤其是规则 #1。
这是最重要的规则:我提供给你的每一个音频文件,在最终输出中必须且只能对应一个
<audio_text>
标签。无论单个音频文件有多长、包含多少停顿或句子,你都必须将其所有转录内容合并成一个单一的字符串,并放入那唯一的
<audio_text>
标签中。绝对禁止为同一个输入文件创建多个
<audio_text>
标签。分析所有音频,识别出不同的说话人。由同一个人说的所有片段,必须使用相同的、从0开始递增的ID(
[spk0]
,[spk1]
...)。对于无法识别说话人的音频(如噪音、音乐),统一使用ID
-1
([spk-1]
)。自动检测每个音频的语言并进行转录。若无法转录,将文本内容填充为空字符串。
最终XML中的
<audio_text>
标签顺序,必须严格等同于输入音频文件的顺序。输出格式强制性示例
!!!最终强制性检查!!!
零容忍策略: 你的响应只能是XML内容。绝对禁止包含任何XML之外的文本、解释或
```xml
标记。强制计数与纠错: 在你生成最终响应之前,你必须执行一次计数检查:你准备生成的
<audio_text>
标签数量,是否与我提供的音频文件数量完全相等?如果计数不匹配,这表示你严重违反了**【最高优先级】规则 发现了Bug和提一些建议! #1**。你必须**【废弃】当前的草稿并【重新生成】**,确保严格遵守一对一映射。
只有在计数完全匹配的情况下,才允许输出。
Beta Was this translation helpful? Give feedback.
All reactions