Skip to content

Release 1.7.0

Latest
Compare
Choose a tag to compare
@SUC-DriverOld SUC-DriverOld released this 21 Jan 15:49
· 43 commits to main since this release

What's Changed

  • 新增14个模型
  • 拆分webUI.py至webUI文件夹,细分函数和UI代码
  • 增加全局logger,实时保存日志文件(保存的级别为DEBUG)至log文件夹(以“日期-时间.log”格式存储,默认上限为100个日志文件,超过会自动删除)
  • models文件夹已重命名为modules,并重新整理项目文件夹(新增inference和,train,utils,scripts等文件夹)
  • 重写WebUI整合包加密
  • 将MSST推理和VR推理改写,并且现在推理支持自定义选择需要导出什么音轨(可多选)
  • 开始分离按钮从两个修改为一个,会跟随你选择是“输入音频”还是“输入文件夹”自动变化
  • 去除vr推理的normalization选项,并且修改输出的wav格式质量为44.1khz,32bit
  • 预设流程大更改:
    • 预设将单独保存至presets文件夹下,一个预设一个json。备份的预设保存至presets_backup
    • 制作预设流程变化至如下:支持选择那个音轨作为下一模型的输入,以及哪些音轨直接保存至输出目录
    • 新增“撤销上一步选项”
    • 管理预设中删除手动触发备份的选项,但每次删除预设时,都会自动进行备份删除的预设
    • 修复了批量音频输入处理时,会出现尝试删除TEMP_PATH的BUG(其实不影响使用)
    • 修复安装完成软件后,直接使用预设流程(从未使用过msst分离而直接使用预设流程)时,无法正确使用gpu_id的bug
    • 新增“extra_output_dir”选项,类行为bool,当此选项勾选后,预设中间过程中产生的次级输出将会保存至输出目录下的“extra_output”文件夹中,否则,产生的次级输出将直接保存至输出文件夹,无另外的嵌套文件夹
    • 新增预设版本,在预设json中会标记一个预设版本,不满足版本的预设无法使用。也就是说,1.6老版本的预设在1.7新版本全部没用,需要重新制作!
  • 小工具"音频格式转换"新增更多输出格式选项
  • Ensenble模式中,修复了音频文件名称带有空格导致输出时报错的BUG
  • MSST训练页面新增"选择输出的评估指标"(多选)和"选择调度器使用的评估指标"(单选)可选参数如下
  • 验证页面也新增了“选择输出的评估指标”(多选),选项和上面相同
  • 重新排版训练页面的UI和验证页面的UI
  • 去除vr推理界面的“debug模式”,在设置中新增全局调试模式: 向开发者反馈问题时请开启。(该选项支持热切换)
  • 设置页面新增“选择webUI主题”,目前有三种主题(蓝色,粉色,蓝色且带有Miku图片)。主题文件存放在tools/themes文件夹内,可以自制json格式的主题进行加载哦!
  • 启动器新增取消快速编辑的模式以防止不必要的影响。由此带来的影响是每次启动都会强制管理员运行(弹一个管理员运行确认窗口)。如果不想管理员启动,或者说启动exe被杀毒软件删了,1.7版本起,我们在软件根目录提供了一个go-webui.bat,其实现的功能和启动exe一模一样,可以直接用这个bat启动
  • 由于WebUI组件已封装成.pyd,故去除了启动exe程序的VMProtect保护,现在启动速度更快了
  • API相关:重写msst_cli和vr_cli,如果需要使用,可以在scripts文件夹内找到,具体的使用介绍和方法请阅读docs\inference.md文档。输出目录可以是str或dict。输入可以是音频或Numpy数组。
  • 修改webui_config.json中的部分保存值。现在整个webui中的输入/输出文件夹将共用同一个值。意思是,当你在某处选择好输出文件夹后,第二次启动时,所有的输出文件夹都会默认更改为你上一次的输出文件夹
  • 修改webui_config.json中的部分保存值的类型
  • 优化项目Github页面的README说明
  • 修改MSST WebUI的icon
  • 修复了仅读取.ckpt, .pt文件来判断模型,会导致如果错误的将模型放置到类别文件夹中(例如single_stem_models放到了vocal_models文件夹里)会导致虽然可以读取,但是无法加载使用模型的bug
  • 修改模型下载链接至同一个仓库而非多个仓库,便于后续维护
  • 云端webui默认所有模型可用,缺什么下载什么。同时输入和输出目录(input和results)用户不可更改,防止一些小白乱改导致无法正确运行
  • 更新整合包内的ffmpeg版本至2024.9.30版本
  • 修复了因数值类型错误导致预设流程中UVR模型无法使用的bug
  • 新增GUI模型管理器:
    • 由@阿狸不吃隼舞 使用PySide6开发模型管理器,效果如下(在windows11系统下有云母,透明效果):
    • WebUI的安装模型页面增加了“一键启动模型下载管理器”的按钮
    • exe启动方式也将新增至项目根目录内
  • 修复在Linux下会出现RuntimeError: Cannot re-initialize CUDA in forked subprocess的问题
  • 更新webUI中安装模型页面。现在,选择模型之后,会显示该模型的基本信息,是否已经安装,以及sha256校验
  • 自动下载模型后,添加sha256校验。
  • 修复了使用小工具“SOME人声转MIDI”时,出现包导入错误的问题。
  • 修复了1.7 preview1-3版本中apollo模型无法使用的问题
  • roformer模型增加use_reentrant=False,可以略微降低显存占用
  • 训练/验证增加多卡验证以加速,bleedless和fullness支持GPU。增加自动重采样以适应模型支持的采样率。
    -设置页面增加“修改输出音频格式”,可以自定义不同输出格式的音质了!此页面支持用户自定义修改MSST/VR推理后输出音频的质量。输出音频的采样率, 声道数与模型支持的参数有关, 无法更改。修改完成后点击保存设置即可生效。
  • 将use_tts移动至模型设置里,并且新增chunk_size参数,所有参数都是越小越快,但数值不能乱填。
  • 增加对单声道模型推理的支持
  • 将部分模型的默认batchsize值设置为1,overlap值设置为4,以防止某些低端显卡爆显存
  • 整合云端webui启动到webui.py中,setup部分独立至webui/setup.py中
  • 新增合奏模式页面,允许用户从原始音频合奏和从分离后的音频合奏
  • 从原始音频合奏需要上传至少一个音频文件, 然后选择多个模型先进行分离处理, 然后将这些处理结果根据选择的合奏模式进行合奏。从分离结果合奏需要上传至少两个音频文件, 这些音频文件是使用不同的模型分离同一段音频的结果。因此, 上传的所有音频长度应该相同。
  • 新增scripts文件夹,内含6个cli命令行脚本
  • 完善了docs及一些文档
  • 其他一些更新

Notes

在安装完成后,软件根目录内一共有3个exe文件及一个bat文件:

  • webui.exe: webui启动程序(需要管理员权限),也是桌面快捷方式指向的启动文件。更新完成后的第一次务必使用此exe以管理员方式运行,进行初始化
  • webui_no_admin.exe: webui启动程序(无需管理员权限),如果担心权限过高,可以使用此exe,无需管理员权限运行webui。但如果运行过程中出现权限不足的问题,还是需要使用上面的带管理员权限的exe
  • DownloadManager.exe: GUI页面的模型管理器,提供下载,删除,管理模型。可以直接双击exe启动,也可以从webui的安装模型页面启动。注意:更新完新版本后,必须先启动一遍webui进行更新,才能直接双击此exe打开
  • go-webui.bat: 如果你的两个webui启动exe被windows defender或其他杀毒软件误删了,你可以使用此bat启动webui

Download

一键包现已支持50系列显卡,但由于压缩包超过2GB,无法上传至Github Release。你可以前往下方的Huggingface链接下载
One click package now supports 50 series graphics cards, but due to the compressed package exceeding 2GB, it cannot be uploaded to Github Release. You can go to the Huggingface link below to download.

https://huggingface.co/Sucial/MSST-WebUI/blob/main/1.7.0/MSST_WebUI_1.7.0_v2_Full_Support_50X0_cu128.7z