1
0
mirror of synced 2024-11-28 01:10:56 +01:00
Retrieval-based-Voice-Conve.../Changelog_CN.md
2023-04-16 09:56:31 +00:00

1.7 KiB
Raw Blame History

20230409

1-修正训练参数提升显卡平均利用率A100最高从25%提升至90%左右V100:50%->90%左右2060S:60%->85%左右P40:25%->95%左右,训练速度显著提升

2-修正参数总batch_size改为每张卡的batch_size

3-修正total_epoch最大限制100解锁至1000默认10提升至默认20

4-修复ckpt提取识别是否带音高错误导致推理异常的问题

5-修复分布式训练每个rank都保存一次ckpt的问题

6-特征提取进行nan特征过滤

7-修复静音输入输出随机辅音or噪声的问题老版模型需要重做训练集重训

20230416更新

1-新增本地实时变声迷你GUI双击go-realtime-gui.bat启动

2-训练推理均对<50Hz的频段进行滤波过滤

3-训练推理音高提取pyworld最低音高从默认80下降至50,50-80hz间的男声低音不会哑

4-WebUI支持根据系统区域变更语言现支持en_USja_JPzh_CNzh_HKzh_SGzh_TW不支持的默认en_US

5-修正部分显卡识别例如V100-16G识别失败P4识别失败

后续计划:

1-收集呼吸wav加入训练集修正呼吸变声电音的问题

2-研究更优的默认faiss索引配置计划将索引打包进weights/xxx.pth中取消推理界面的 特征/检索库 选择

3-根据显存情况和显卡架构自动给到最优配置batch size训练集切块推理音频长度相关的config训练是否fp16未来所有>=4G显存的>=pascal架构的显卡都可以训练或推理而<4G显存的显卡不会进行支持

4-我们正在训练增加了歌声训练集的底模,未来会公开

5-推理音高识别选项加入"是否开启中值滤波"