train 1-2b

2024-11-24 07:30:16 +01:00 · 2023-08-21 20:53:11 +09:00 · 2023-08-21 20:53:11 +09:00 · ed7b11eb49
commit ed7b11eb49
parent cd924f9eec
11 changed files with 214 additions and 80 deletions
--- a/assets/hubert/.gitignore
+++ b/assets/hubert/.gitignore
@ -0,0 +1,2 @@
 *
 !.gitignore
--- a/assets/rmvpe/.gitignore
+++ b/assets/rmvpe/.gitignore
@ -0,0 +1,2 @@
 *
 !.gitignore
--- a/i18n.py
+++ b/i18n.py
@ -1,28 +0,0 @@
 import locale
 import json
 import os
 def load_language_list(language):
    with open(f"./i18n/locale/{language}.json", "r", encoding="utf-8") as f:
        language_list = json.load(f)
    return language_list
 class I18nAuto:
    def __init__(self, language=None):
        if language in ["Auto", None]:
            language = locale.getdefaultlocale()[
                0
            ]  # getlocale can't identify the system's language ((None, None))
        if not os.path.exists(f"./lib/i18n/{language}.json"):
            language = "en_US"
        self.language = language
        # print("Use Language:", language)
        self.language_map = load_language_list(language)
    def __call__(self, key):
        return self.language_map.get(key, key)
    def print(self):
        print("Use Language:", self.language)
--- a/infer-web.py
+++ b/infer-web.py
@ -20,8 +20,13 @@ import faiss
 import gradio as gr
 from configs.config import Config
 import fairseq
-from i18n import I18nAuto
+from i18n.i18n import I18nAuto
-from lib.train.process_ckpt import change_info, extract_small_model, merge, show_info
+from infer.lib.train.process_ckpt import (
    change_info,
    extract_small_model,
    merge,
    show_info,
 )
 from sklearn.cluster import MiniBatchKMeans
 from dotenv import load_dotenv
@ -197,7 +202,7 @@ def preprocess_dataset(trainset_dir, exp_dir, sr, n_p):
    f.close()
    cmd = (
        config.python_cmd
-        + ' trainset_preprocess_pipeline_print.py "%s" %s %s "%s/logs/%s" '
+        + ' infer/modules/train/preprocess.py "%s" %s %s "%s/logs/%s" '
        % (trainset_dir, sr, n_p, now_dir, exp_dir)
        + str(config.noparallel)
    )
@ -232,12 +237,16 @@ def extract_f0_feature(gpus, n_p, f0method, if_f0, exp_dir, version19, gpus_rmvp
    f.close()
    if if_f0:
        if f0method != "rmvpe_gpu":
-            cmd = config.python_cmd + ' extract_f0_print.py "%s/logs/%s" %s %s' % (
+            cmd = (
                config.python_cmd
                + ' infer/modules/train/extract/extract_f0_print.py "%s/logs/%s" %s %s'
                % (
                    now_dir,
                    exp_dir,
                    n_p,
                    f0method,
                )
            )
            print(cmd)
            p = Popen(
                cmd, shell=True, cwd=now_dir
@ -259,7 +268,7 @@ def extract_f0_feature(gpus, n_p, f0method, if_f0, exp_dir, version19, gpus_rmvp
                for idx, n_g in enumerate(gpus_rmvpe):
                    cmd = (
                        config.python_cmd
-                        + ' extract_f0_rmvpe.py %s %s %s "%s/logs/%s" %s '
+                        + ' infer/modules/train/extract/extract_f0_rmvpe.py %s %s %s "%s/logs/%s" %s '
                        % (leng, idx, n_g, now_dir, exp_dir, config.is_half)
                    )
                    print(cmd)
@ -277,10 +286,14 @@ def extract_f0_feature(gpus, n_p, f0method, if_f0, exp_dir, version19, gpus_rmvp
                    ),
                ).start()
            else:
-                cmd = config.python_cmd + ' extract_f0_rmvpe_dml.py "%s/logs/%s" ' % (
+                cmd = (
                    config.python_cmd
                    + ' infer/modules/train/extract/extract_f0_rmvpe_dml.py "%s/logs/%s" '
                    % (
                        now_dir,
                        exp_dir,
                    )
                )
                print(cmd)
                p = Popen(
                    cmd, shell=True, cwd=now_dir
@ -312,7 +325,7 @@ def extract_f0_feature(gpus, n_p, f0method, if_f0, exp_dir, version19, gpus_rmvp
    for idx, n_g in enumerate(gpus):
        cmd = (
            config.python_cmd
-            + ' extract_feature_print.py %s %s %s %s "%s/logs/%s" %s'
+            + ' infer/modules/train/extract_feature_print.py %s %s %s %s "%s/logs/%s" %s'
            % (
                config.device,
                leng,
@ -353,26 +366,26 @@ def change_sr2(sr2, if_f0_3, version19):
    path_str = "" if version19 == "v1" else "_v2"
    f0_str = "f0" if if_f0_3 else ""
    if_pretrained_generator_exist = os.access(
-        "pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2), os.F_OK
+        "assets/pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2), os.F_OK
    )
    if_pretrained_discriminator_exist = os.access(
-        "pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2), os.F_OK
+        "assets/pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2), os.F_OK
    )
    if not if_pretrained_generator_exist:
        print(
-            "pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2),
+            "assets/pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2),
            "not exist, will not use pretrained model",
        )
    if not if_pretrained_discriminator_exist:
        print(
-            "pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2),
+            "assets/pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2),
            "not exist, will not use pretrained model",
        )
    return (
-        "pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2)
+        "assets/pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2)
        if if_pretrained_generator_exist
        else "",
-        "pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2)
+        "assets/pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2)
        if if_pretrained_discriminator_exist
        else "",
    )
@ -389,26 +402,26 @@ def change_version19(sr2, if_f0_3, version19):
    )
    f0_str = "f0" if if_f0_3 else ""
    if_pretrained_generator_exist = os.access(
-        "pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2), os.F_OK
+        "assets/pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2), os.F_OK
    )
    if_pretrained_discriminator_exist = os.access(
-        "pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2), os.F_OK
+        "assets/pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2), os.F_OK
    )
    if not if_pretrained_generator_exist:
        print(
-            "pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2),
+            "assets/pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2),
            "not exist, will not use pretrained model",
        )
    if not if_pretrained_discriminator_exist:
        print(
-            "pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2),
+            "assets/pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2),
            "not exist, will not use pretrained model",
        )
    return (
-        "pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2)
+        "assets/pretrained%s/%sG%s.pth" % (path_str, f0_str, sr2)
        if if_pretrained_generator_exist
        else "",
-        "pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2)
+        "assets/pretrained%s/%sD%s.pth" % (path_str, f0_str, sr2)
        if if_pretrained_discriminator_exist
        else "",
        to_return_sr2,
@ -418,37 +431,37 @@ def change_version19(sr2, if_f0_3, version19):
 def change_f0(if_f0_3, sr2, version19):  # f0method8,pretrained_G14,pretrained_D15
    path_str = "" if version19 == "v1" else "_v2"
    if_pretrained_generator_exist = os.access(
-        "pretrained%s/f0G%s.pth" % (path_str, sr2), os.F_OK
+        "assets/pretrained%s/f0G%s.pth" % (path_str, sr2), os.F_OK
    )
    if_pretrained_discriminator_exist = os.access(
-        "pretrained%s/f0D%s.pth" % (path_str, sr2), os.F_OK
+        "assets/pretrained%s/f0D%s.pth" % (path_str, sr2), os.F_OK
    )
    if not if_pretrained_generator_exist:
        print(
-            "pretrained%s/f0G%s.pth" % (path_str, sr2),
+            "assets/pretrained%s/f0G%s.pth" % (path_str, sr2),
            "not exist, will not use pretrained model",
        )
    if not if_pretrained_discriminator_exist:
        print(
-            "pretrained%s/f0D%s.pth" % (path_str, sr2),
+            "assets/pretrained%s/f0D%s.pth" % (path_str, sr2),
            "not exist, will not use pretrained model",
        )
    if if_f0_3:
        return (
            {"visible": True, "__type__": "update"},
-            "pretrained%s/f0G%s.pth" % (path_str, sr2)
+            "assets/pretrained%s/f0G%s.pth" % (path_str, sr2)
            if if_pretrained_generator_exist
            else "",
-            "pretrained%s/f0D%s.pth" % (path_str, sr2)
+            "assets/pretrained%s/f0D%s.pth" % (path_str, sr2)
            if if_pretrained_discriminator_exist
            else "",
        )
    return (
        {"visible": False, "__type__": "update"},
-        ("pretrained%s/G%s.pth" % (path_str, sr2))
+        ("assets/pretrained%s/G%s.pth" % (path_str, sr2))
        if if_pretrained_generator_exist
        else "",
-        ("pretrained%s/D%s.pth" % (path_str, sr2))
+        ("assets/pretrained%s/D%s.pth" % (path_str, sr2))
        if if_pretrained_discriminator_exist
        else "",
    )
@ -548,7 +561,7 @@ def click_train(
    if gpus16:
        cmd = (
            config.python_cmd
-            + ' train_nsf_sim_cache_sid_load_pretrain.py -e "%s" -sr %s -f0 %s -bs %s -g %s -te %s -se %s %s %s -l %s -c %s -sw %s -v %s'
+            + ' infer/modules/train/train.py -e "%s" -sr %s -f0 %s -bs %s -g %s -te %s -se %s %s %s -l %s -c %s -sw %s -v %s'
            % (
                exp_dir1,
                sr2,
@ -568,7 +581,7 @@ def click_train(
    else:
        cmd = (
            config.python_cmd
-            + ' train_nsf_sim_cache_sid_load_pretrain.py -e "%s" -sr %s -f0 %s -bs %s -te %s -se %s %s %s -l %s -c %s -sw %s -v %s'
+            + ' infer/modules/train/train.py -e "%s" -sr %s -f0 %s -bs %s -te %s -se %s %s %s -l %s -c %s -sw %s -v %s'
            % (
                exp_dir1,
                sr2,
@ -1482,12 +1495,12 @@ with gr.Blocks(title="RVC WebUI") as app:
                with gr.Row():
                    pretrained_G14 = gr.Textbox(
                        label=i18n("加载预训练底模G路径"),
-                        value="pretrained_v2/f0G40k.pth",
+                        value="assets/pretrained_v2/f0G40k.pth",
                        interactive=True,
                    )
                    pretrained_D15 = gr.Textbox(
                        label=i18n("加载预训练底模D路径"),
-                        value="pretrained_v2/f0D40k.pth",
+                        value="assets/pretrained_v2/f0D40k.pth",
                        interactive=True,
                    )
                    sr2.change(
--- a/infer/lib/train/process_ckpt.py
+++ b/infer/lib/train/process_ckpt.py
@ -1,7 +1,6 @@
 import torch, traceback, os, sys
-now_dir = os.getcwd()
+
 sys.path.append(now_dir)
 from collections import OrderedDict
 from i18n.i18n import I18nAuto
--- a/infer/lib/train/utils.py
+++ b/infer/lib/train/utils.py
@ -362,9 +362,9 @@ def get_hparams(init=True):
        os.makedirs(experiment_dir)
    if args.version == "v1" or args.sample_rate == "40k":
-        config_path = "configs/%s.json" % args.sample_rate
+        config_path = "configs/v1/%s.json" % args.sample_rate
    else:
-        config_path = "configs/%s_v2.json" % args.sample_rate
+        config_path = "configs/v2/%s.json" % args.sample_rate
    config_save_path = os.path.join(experiment_dir, "config.json")
    if init:
        with open(config_path, "r") as f:
--- a/infer/modules/train/extract/extract_f0_print.py
+++ b/infer/modules/train/extract/extract_f0_print.py
@ -79,7 +79,9 @@ class FeatureInput(object):
                from lib.rmvpe import RMVPE
                print("loading rmvpe model")
-                self.model_rmvpe = RMVPE("rmvpe.pt", is_half=False, device="cpu")
+                self.model_rmvpe = RMVPE(
                    "assets/rmvpe/rmvpe.pt", is_half=False, device="cpu"
                )
            f0 = self.model_rmvpe.infer_from_audio(x, thred=0.03)
        return f0
--- a/infer/modules/train/extract/extract_f0_rmvpe.py
+++ b/infer/modules/train/extract/extract_f0_rmvpe.py
@ -42,7 +42,9 @@ class FeatureInput(object):
                from lib.rmvpe import RMVPE
                print("loading rmvpe model")
-                self.model_rmvpe = RMVPE("rmvpe.pt", is_half=is_half, device="cuda")
+                self.model_rmvpe = RMVPE(
                    "assets/rmvpe/rmvpe.pt", is_half=is_half, device="cuda"
                )
            f0 = self.model_rmvpe.infer_from_audio(x, thred=0.03)
        return f0
--- a/infer/modules/train/extract/extract_f0_rmvpe_dml.py
+++ b/infer/modules/train/extract/extract_f0_rmvpe_dml.py
@ -40,7 +40,9 @@ class FeatureInput(object):
                from lib.rmvpe import RMVPE
                print("loading rmvpe model")
-                self.model_rmvpe = RMVPE("rmvpe.pt", is_half=False, device=device)
+                self.model_rmvpe = RMVPE(
                    "assets/rmvpe/rmvpe.pt", is_half=False, device=device
                )
            f0 = self.model_rmvpe.infer_from_audio(x, thred=0.03)
        return f0
--- a/infer/modules/train/extract_feature_print.py
+++ b/infer/modules/train/extract_feature_print.py
@ -0,0 +1,135 @@
 import os, sys, traceback
 os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 os.environ["PYTORCH_MPS_HIGH_WATERMARK_RATIO"] = "0.0"
 device = sys.argv[1]
 n_part = int(sys.argv[2])
 i_part = int(sys.argv[3])
 if len(sys.argv) == 6:
    exp_dir = sys.argv[4]
    version = sys.argv[5]
 else:
    i_gpu = sys.argv[4]
    exp_dir = sys.argv[5]
    os.environ["CUDA_VISIBLE_DEVICES"] = str(i_gpu)
    version = sys.argv[6]
 import torch
 import torch.nn.functional as F
 import soundfile as sf
 import numpy as np
 import fairseq
 if "privateuseone" not in device:
    device = "cpu"
    if torch.cuda.is_available():
        device = "cuda"
    elif torch.backends.mps.is_available():
        device = "mps"
 else:
    import torch_directml
    device = torch_directml.device(torch_directml.default_device())
    def forward_dml(ctx, x, scale):
        ctx.scale = scale
        res = x.clone().detach()
        return res
    fairseq.modules.grad_multiply.GradMultiply.forward = forward_dml
 f = open("%s/extract_f0_feature.log" % exp_dir, "a+")
 def printt(strr):
    print(strr)
    f.write("%s\n" % strr)
    f.flush()
 printt(sys.argv)
 model_path = "assets/hubert/hubert_base.pt"
 printt(exp_dir)
 wavPath = "%s/1_16k_wavs" % exp_dir
 outPath = (
    "%s/3_feature256" % exp_dir if version == "v1" else "%s/3_feature768" % exp_dir
 )
 os.makedirs(outPath, exist_ok=True)
 # wave must be 16k, hop_size=320
 def readwave(wav_path, normalize=False):
    wav, sr = sf.read(wav_path)
    assert sr == 16000
    feats = torch.from_numpy(wav).float()
    if feats.dim() == 2:  # double channels
        feats = feats.mean(-1)
    assert feats.dim() == 1, feats.dim()
    if normalize:
        with torch.no_grad():
            feats = F.layer_norm(feats, feats.shape)
    feats = feats.view(1, -1)
    return feats
 # HuBERT model
 printt("load model(s) from {}".format(model_path))
 # if hubert model is exist
 if os.access(model_path, os.F_OK) == False:
    printt(
        "Error: Extracting is shut down because %s does not exist, you may download it from https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main"
        % model_path
    )
    exit(0)
 models, saved_cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task(
    [model_path],
    suffix="",
 )
 model = models[0]
 model = model.to(device)
 printt("move model to %s" % device)
 if device not in ["mps", "cpu"]:
    model = model.half()
 model.eval()
 todo = sorted(list(os.listdir(wavPath)))[i_part::n_part]
 n = max(1, len(todo) // 10)  # 最多打印十条
 if len(todo) == 0:
    printt("no-feature-todo")
 else:
    printt("all-feature-%s" % len(todo))
    for idx, file in enumerate(todo):
        try:
            if file.endswith(".wav"):
                wav_path = "%s/%s" % (wavPath, file)
                out_path = "%s/%s" % (outPath, file.replace("wav", "npy"))
                if os.path.exists(out_path):
                    continue
                feats = readwave(wav_path, normalize=saved_cfg.task.normalize)
                padding_mask = torch.BoolTensor(feats.shape).fill_(False)
                inputs = {
                    "source": feats.half().to(device)
                    if device not in ["mps", "cpu"]
                    else feats.to(device),
                    "padding_mask": padding_mask.to(device),
                    "output_layer": 9 if version == "v1" else 12,  # layer 9
                }
                with torch.no_grad():
                    logits = model.extract_features(**inputs)
                    feats = (
                        model.final_proj(logits[0]) if version == "v1" else logits[0]
                    )
                feats = feats.squeeze(0).float().cpu().numpy()
                if np.isnan(feats).sum() == 0:
                    np.save(out_path, feats, allow_pickle=False)
                else:
                    printt("%s-contains nan" % file)
                if idx % n == 0:
                    printt("now-%s,all-%s,%s,%s" % (len(todo), idx, file, feats.shape))
        except:
            printt(traceback.format_exc())
    printt("all-feature-done")
--- a/infer/modules/train/train.py
+++ b/infer/modules/train/train.py
@ -3,7 +3,7 @@ import os, sys
 now_dir = os.getcwd()
 sys.path.append(os.path.join(now_dir))
-from lib.train import utils
+from infer.lib.train import utils
 import datetime
 hps = utils.get_hparams()
@ -22,10 +22,10 @@ import torch.multiprocessing as mp
 import torch.distributed as dist
 from torch.nn.parallel import DistributedDataParallel as DDP
 from torch.cuda.amp import autocast, GradScaler
-from lib.infer_pack import commons
+from infer.lib.infer_pack import commons
 from time import sleep
 from time import time as ttime
-from lib.train.data_utils import (
+from infer.lib.train.data_utils import (
    TextAudioLoaderMultiNSFsid,
    TextAudioLoader,
    TextAudioCollateMultiNSFsid,
@ -34,20 +34,25 @@ from lib.train.data_utils import (
 )
 if hps.version == "v1":
-    from lib.infer_pack.models import (
+    from infer.lib.infer_pack.models import (
        SynthesizerTrnMs256NSFsid as RVC_Model_f0,
        SynthesizerTrnMs256NSFsid_nono as RVC_Model_nof0,
        MultiPeriodDiscriminator,
    )
 else:
-    from lib.infer_pack.models import (
+    from infer.lib.infer_pack.models import (
        SynthesizerTrnMs768NSFsid as RVC_Model_f0,
        SynthesizerTrnMs768NSFsid_nono as RVC_Model_nof0,
        MultiPeriodDiscriminatorV2 as MultiPeriodDiscriminator,
    )
-from lib.train.losses import generator_loss, discriminator_loss, feature_loss, kl_loss
+from infer.lib.train.losses import (
-from lib.train.mel_processing import mel_spectrogram_torch, spec_to_mel_torch
+    generator_loss,
-from lib.train.process_ckpt import savee
+    discriminator_loss,
    feature_loss,
    kl_loss,
 )
 from infer.lib.train.mel_processing import mel_spectrogram_torch, spec_to_mel_torch
 from infer.lib.train.process_ckpt import savee
 global_step = 0