一、对照实验数据集
训练集(target speaker)约8min。
采样试听(用于展示音色和训练集质量)来自 米津玄師《ピースサイン》
测试音频:夏真浔 翻唱 《冬之花》 第一段
before-baseline-version(史前版本)混音结果完整版(《冬の花》coverd by AI米津玄師):
https://www.bilibili.com/video/BV1Kb411d7zC
二、faiss索引对照(updated20230428)
结论:
1、nprobe增大对效果影响不大,因此更新后从7降至1,检索速度7倍;
2、fastscan(PQ128)质量有损(注意 wa ta shi no i no "ch"i),暂时不采纳;
3、top8进行加权混合代替top1:显著削弱高频刺耳的现象,提升了音频质量,采纳。
三、backbone结构对照(底模+小训练集fine tune)
version:hubert_base(ContentVec)+add 3 period discriminators
harvest+邻域3的中值滤波+index_rate=1
hubert_base结构下,中间hidden size为768,结尾linear至256
C768:不使用final_proj
C256:使用final_proj
L9/L12:hubert的特征层数
baseline(当前版本):C256L9
结论:C768L12默秒全(呼吸+辅音齿音电流声)。
四、RVC_v3偷跑
大就是好!