1
0
mirror of synced 2024-12-19 02:45:57 +01:00
Voice data <= 10 mins can also be used to train a good VC model!
Go to file
2024-11-24 21:36:41 +08:00
.github Update PULL_REQUEST_TEMPLATE.md 2024-06-09 16:09:12 +08:00
assets drop: overwrite of config jsons & feat: read index from assets/indices 2024-01-22 17:18:59 +09:00
configs 20240604 2024-06-05 18:10:59 +09:00
docs Translate Chinese text in English README (#2172) 2024-08-28 16:40:41 +08:00
i18n 20240604 2024-06-05 18:10:59 +09:00
infer optimize nsf inference (#2387) 2024-11-24 21:36:41 +08:00
logs/mute Add files via upload 2023-05-14 16:08:37 +08:00
tools fix: dlmodels.sh exits after download single file (#2175) 2024-08-28 16:41:39 +08:00
.env drop: overwrite of config jsons & feat: read index from assets/indices 2024-01-22 17:18:59 +09:00
.gitignore fix: 多显卡训练时logger未赋值引用 (#1722) 2024-01-16 20:30:10 +09:00
api_231006.py Update API code for release version 2024-06-27 19:32:34 +08:00
api_240604.py Update API code for release version 2024-06-27 19:32:34 +08:00
CONTRIBUTING.md Update CONTRIBUTING.md 2023-12-26 17:50:42 +09:00
docker-compose.yml Added NVIDIA GPU support to Docker (#1231) 2023-09-13 00:18:04 +09:00
Dockerfile fixed pip version (#2238) 2024-08-28 16:36:43 +08:00
environment_dml.yaml Add directML support to RVC for AMD & Intel GPU supported (#707) 2023-07-09 10:07:02 +00:00
go-realtime-gui-dml.bat Add files via upload 2023-08-30 20:31:56 +08:00
go-realtime-gui.bat Add files via upload 2023-07-11 14:45:34 +08:00
go-web-dml.bat Add files via upload 2023-08-30 20:31:56 +08:00
go-web.bat Add files via upload 2023-04-27 23:34:03 +08:00
gui_v1.py 20240604 2024-06-05 18:10:59 +09:00
infer-web.py chore(format): run black on main (#1851) 2024-03-01 18:26:12 +09:00
LICENSE Update LICENSE (#1137) 2023-08-30 20:45:15 +08:00
MIT协议暨相关引用库协议 Create MIT协议暨相关引用库协议 2023-07-12 11:25:18 +08:00
poetry.lock fix poetry (#2246) 2024-08-28 16:36:23 +08:00
pyproject.toml fix poetry (#2246) 2024-08-28 16:36:23 +08:00
README.md 20240604 2024-06-05 18:10:59 +09:00
requirements-amd.txt fix: Updated librosa to version 0.10.2 2024-06-26 21:59:55 +09:00
requirements-dml.txt fix: Updated librosa to version 0.10.2 2024-06-26 21:59:55 +09:00
requirements-ipex.txt Update requirements-ipex.txt 2024-09-05 13:57:11 +08:00
requirements-py311.txt fix: Updated librosa to version 0.10.2 2024-06-26 21:59:55 +09:00
requirements-win-for-realtime_vc_gui-dml.txt Update requirements-win-for-realtime_vc_gui-dml.txt 2024-09-05 11:53:11 +08:00
requirements-win-for-realtime_vc_gui.txt Update requirements-win-for-realtime_vc_gui.txt 2024-09-05 11:53:07 +08:00
requirements.txt Update requirements.txt (#2203) 2024-08-28 16:40:28 +08:00
Retrieval_based_Voice_Conversion_WebUI_v2.ipynb add is_half argument to extract_feature_print.py (#1683) 2024-01-11 22:40:34 +09:00
Retrieval_based_Voice_Conversion_WebUI.ipynb add is_half argument to extract_feature_print.py (#1683) 2024-01-11 22:40:34 +09:00
run.sh make dlmodels.sh executable before running (#1771) 2024-01-27 16:13:34 +09:00
venv.sh chore: get run.sh to be POSIX Compliant (#1649) 2023-12-26 22:11:16 +09:00

Retrieval-based-Voice-Conversion-WebUI

一个基于VITS的简单易用的变声框架

madewithlove


Open In Colab Licence Huggingface

Discord

更新日志 | 常见问题解答 | AutoDL·5毛钱训练AI歌手 | 对照实验记录 | 在线演示

English | 中文简体 | 日本語 | 한국어 (韓國語) | Français | Türkçe | Português

底模使用接近50小时的开源高质量VCTK训练集训练无版权方面的顾虑请大家放心使用

请期待RVCv3的底模参数更大数据更大效果更好基本持平的推理速度需要训练数据量更少。

训练推理界面 实时变声界面
go-web.bat go-realtime-gui.bat
可以自由选择想要执行的操作。 我们已经实现端到端170ms延迟。如使用ASIO输入输出设备已能实现端到端90ms延迟但非常依赖硬件驱动支持。

简介

本仓库具有以下特点

  • 使用top1检索替换输入源特征为训练集特征来杜绝音色泄漏
  • 即便在相对较差的显卡上也能快速训练
  • 使用少量数据进行训练也能得到较好结果(推荐至少收集10分钟低底噪语音数据)
  • 可以通过模型融合来改变音色(借助ckpt处理选项卡中的ckpt-merge)
  • 简单易用的网页界面
  • 可调用UVR5模型来快速分离人声和伴奏
  • 使用最先进的人声音高提取算法InterSpeech2023-RMVPE根绝哑音问题。效果最好显著地但比crepe_full更快、资源占用更小
  • A卡I卡加速支持

点此查看我们的演示视频 !

环境配置

以下指令需在 Python 版本大于3.8的环境中执行。

Windows/Linux/MacOS等平台通用方法

下列方法任选其一。

1. 通过 pip 安装依赖

  1. 安装Pytorch及其核心依赖若已安装则跳过。参考自: https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio
  1. 如果是 win 系统 + Nvidia Ampere 架构(RTX30xx),根据 #21 的经验,需要指定 pytorch 对应的 cuda 版本
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
  1. 根据自己的显卡安装对应依赖
  • N卡
pip install -r requirements.txt
  • A卡/I卡
pip install -r requirements-dml.txt
  • A卡ROCM(Linux)
pip install -r requirements-amd.txt
  • I卡IPEX(Linux)
pip install -r requirements-ipex.txt

2. 通过 poetry 来安装依赖

安装 Poetry 依赖管理工具,若已安装则跳过。参考自: https://python-poetry.org/docs/#installation

curl -sSL https://install.python-poetry.org | python3 -

通过 Poetry 安装依赖时python 建议使用 3.7-3.10 版本,其余版本在安装 llvmlite==0.39.0 时会出现冲突

poetry init -n
poetry env use "path to your python.exe"
poetry run pip install -r requirments.txt

MacOS

可以通过 run.sh 来安装依赖

sh ./run.sh

其他预模型准备

RVC需要其他一些预模型来推理和训练。

你可以从我们的Hugging Face space下载到这些模型。

1. 下载 assets

以下是一份清单包括了所有RVC所需的预模型和其他文件的名称。你可以在tools文件夹找到下载它们的脚本。

  • ./assets/hubert/hubert_base.pt

  • ./assets/pretrained

  • ./assets/uvr5_weights

想使用v2版本模型的话需要额外下载

  • ./assets/pretrained_v2

2. 安装 ffmpeg

若ffmpeg和ffprobe已安装则跳过。

Ubuntu/Debian 用户

sudo apt install ffmpeg

MacOS 用户

brew install ffmpeg

Windows 用户

下载后放置在根目录。

3. 下载 rmvpe 人声音高提取算法所需文件

如果你想使用最新的RMVPE人声音高提取算法则你需要下载音高提取模型参数并放置于RVC根目录。

下载 rmvpe 的 dml 环境(可选, A卡/I卡用户)

4. AMD显卡Rocm(可选, 仅Linux)

如果你想基于AMD的Rocm技术在Linux系统上运行RVC请先在这里安装所需的驱动。

若你使用的是Arch Linux可以使用pacman来安装所需驱动

pacman -S rocm-hip-sdk rocm-opencl-sdk

对于某些型号的显卡你可能需要额外配置如下的环境变量RX6700XT

export ROCM_PATH=/opt/rocm
export HSA_OVERRIDE_GFX_VERSION=10.3.0

同时确保你的当前用户处于rendervideo用户组内:

sudo usermod -aG render $USERNAME
sudo usermod -aG video $USERNAME

开始使用

直接启动

使用以下指令来启动 WebUI

python infer-web.py

若先前使用 Poetry 安装依赖则可以通过以下方式启动WebUI

poetry run python infer-web.py

使用整合包

下载并解压RVC-beta.7z

Windows 用户

双击go-web.bat

MacOS 用户

sh ./run.sh

对于需要使用IPEX技术的I卡用户(仅Linux)

source /opt/intel/oneapi/setvars.sh

参考项目

感谢所有贡献者作出的努力