SoVITS简明训练流程

声音素材准备，把歌曲的背景音乐去除，使用Ultimate Vocal Remover。需要使用两次，第一次比较快，去除伴奏，第二次稍微慢一点，去除和声和混响，实践证明先后用以下两个模型可以有效解决人声忽高忽低的问题。补充：如果前两次处理后还有混响和部分和声，需要再用第三个模型处理一遍。三次的参数如下：
使用整合包里的小工具把纯人声进行分割处理，整合包地址：https://www.bilibili.com/video/BV1H24y187Ko/?spm_id_from=333.1007.top_right_bar_window_default_collection.content.click&vd_source=9025a814aaf3e9e51efe4c85d387002b
把分割后的所有文件放到dataset_raw目录下，并新建一个文件夹，把所有文件都统一改名，最好是数字序列作为文件名，有符号会报错。注意每个文件都要试听，把质量差的，声音飘忽不定的都务必删掉，要不会影响最后的模型质量，宁缺毋滥。
进入webui，训练标签，按步骤执行，注意批量大小那里根据显存来写，要不会爆显存
进行训练，不会自动停止，在命令行界面按ctrl+C手动停止，下次可以在web页面继续训练
推理的时候如果爆显存，需要手动设置音频自动切片的参数。

菜单