Cool_Tools/Retrieval-based-Voice-Conversion-WebUI

mirror of synced 2024-11-30 18:24:32 +01:00

History

Pengoose f29f39cdef chore(docs): update docs(ko, ja) & i18n ko translation data (#1744 ) * add i18n translation data(ko_KR.json) * update README.ko.md * update README.ja.md * update Changelog_KO.md * add Changelog_JA.md * add faq_ko.md * add faq_ja.md		2024-01-21 20:18:59 +09:00
..
Changelog_KO.md	chore(docs): update docs(ko, ja) & i18n ko translation data (#1744 )	2024-01-21 20:18:59 +09:00
faiss_tips_ko.md	Place does by language	2023-08-27 22:04:13 +09:00
faq_ko.md	chore(docs): update docs(ko, ja) & i18n ko translation data (#1744 )	2024-01-21 20:18:59 +09:00
README.ko.han.md	chore: link Português to READMEs	2024-01-18 00:04:37 +09:00
README.ko.md	chore(docs): update docs(ko, ja) & i18n ko translation data (#1744 )	2024-01-21 20:18:59 +09:00
training_tips_ko.md	Place does by language	2023-08-27 22:04:13 +09:00

README.ko.md

Retrieval-based-Voice-Conversion-WebUI

VITS 기반의 간단하고 사용하기 쉬운 음성 변환 프레임워크.

업데이트 로그 | 자주 묻는 질문 | AutoDL·5원으로 AI 가수 훈련 | 대조 실험 기록 | 온라인 데모

데모 영상을 확인해 보세요!

RVC를 활용한 실시간 음성변환: w-okada/voice-changer

기본 모델은 50시간 가량의 고퀄리티 오픈 소스 VCTK 데이터셋을 사용하였으므로, 저작권상의 염려가 없으니 안심하고 사용하시기 바랍니다.

더 큰 매개변수, 더 큰 데이터, 더 나은 효과, 기본적으로 동일한 추론 속도, 더 적은 양의 훈련 데이터가 필요한 RVCv3의 기본 모델을 기대해 주십시오.

훈련 및 추론 인터페이스	실시간 음성 변환 인터페이스

go-web.bat	go-realtime-gui.bat
원하는 작업을 자유롭게 선택할 수 있습니다.	우리는 이미 끝에서 끝까지 170ms의 지연을 실현했습니다. ASIO 입력 및 출력 장치를 사용하면 끝에서 끝까지 90ms의 지연을 달성할 수 있지만, 이는 하드웨어 드라이버 지원에 매우 의존적입니다.

소개

본 Repo는 다음과 같은 특징을 가지고 있습니다:

top1 검색을 이용하여 입력 음색 특징을 훈련 세트 음색 특징으로 대체하여 음색의 누출을 방지
상대적으로 낮은 성능의 GPU에서도 빠른 훈련 가능
적은 양의 데이터로 훈련해도 좋은 결과를 얻을 수 있음 (최소 10분 이상의 저잡음 음성 데이터를 사용하는 것을 권장)
모델 융합을 통한 음색의 변조 가능 (ckpt 처리 탭->ckpt 병합 선택)
사용하기 쉬운 WebUI (웹 인터페이스)
UVR5 모델을 이용하여 목소리와 배경음악의 빠른 분리;
최첨단 음성 피치 추출 알고리즘 InterSpeech2023-RMVPE을 사용하여 무성음 문제를 해결합니다. 효과는 최고(압도적)이며 crepe_full보다 더 빠르고 리소스 사용이 적음
A카드와 I카드 가속을 지원

해당 프로젝트의 데모 비디오를 확인해보세요!

환경 설정

다음 명령은 Python 버전이 3.8 이상인 환경에서 실행해야 합니다.

Windows/Linux/MacOS 등 플랫폼 공통 방법

아래 방법 중 하나를 선택하세요.

1. pip를 통한 의존성 설치

Pytorch 및 의존성 모듈 설치, 이미 설치되어 있으면 생략. 참조: https://pytorch.org/get-started/locally/

pip install torch torchvision torchaudio

win 시스템 + Nvidia Ampere 아키텍처(RTX30xx) 사용 시, #21의 사례에 따라 pytorch에 해당하는 cuda 버전을 지정

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

자신의 그래픽 카드에 맞는 의존성 설치

N카드

pip install -r requirements.txt

A카드/I카드

pip install -r requirements-dml.txt

A카드ROCM(Linux)

pip install -r requirements-amd.txt

I카드IPEX(Linux)

pip install -r requirements-ipex.txt

2. poetry를 통한 의존성 설치

Poetry 의존성 관리 도구 설치, 이미 설치된 경우 생략. 참조: https://python-poetry.org/docs/#installation

curl -sSL https://install.python-poetry.org | python3 -

poetry를 통한 의존성 설치

poetry install

MacOS

run.sh를 통해 의존성 설치 가능

sh ./run.sh

기타 사전 훈련된 모델 준비

RVC는 추론과 훈련을 위해 다른 일부 사전 훈련된 모델이 필요합니다.

이러한 모델은 저희의 Hugging Face space에서 다운로드할 수 있습니다.

1. assets 다운로드

다음은 RVC에 필요한 모든 사전 훈련된 모델과 기타 파일의 목록입니다. tools 폴더에서 이들을 다운로드하는 스크립트를 찾을 수 있습니다.

./assets/hubert/hubert_base.pt
./assets/pretrained
./assets/uvr5_weights

v2 버전 모델을 사용하려면 추가로 다음을 다운로드해야 합니다.

./assets/pretrained_v2

2. ffmpeg 설치

ffmpeg와 ffprobe가 이미 설치되어 있다면 건너뜁니다.

Ubuntu/Debian 사용자

sudo apt install ffmpeg

MacOS 사용자

brew install ffmpeg

Windows 사용자

다운로드 후 루트 디렉토리에 배치.

3. RMVPE 인간 음성 피치 추출 알고리즘에 필요한 파일 다운로드

최신 RMVPE 인간 음성 피치 추출 알고리즘을 사용하려면 음피치 추출 모델 매개변수를 다운로드하고 RVC 루트 디렉토리에 배치해야 합니다.

rmvpe.pt 다운로드

dml 환경의 RMVPE 다운로드(선택사항, A카드/I카드 사용자)

rmvpe.onnx 다운로드

4. AMD 그래픽 카드 Rocm(선택사항, Linux만 해당)

Linux 시스템에서 AMD의 Rocm 기술을 기반으로 RVC를 실행하려면 여기에서 필요한 드라이버를 먼저 설치하세요.

Arch Linux를 사용하는 경우 pacman을 사용하여 필요한 드라이버를 설치할 수 있습니다.

pacman -S rocm-hip-sdk rocm-opencl-sdk

일부 모델의 그래픽 카드(예: RX6700XT)의 경우, 다음과 같은 환경 변수를 추가로 설정해야 할 수 있습니다.

export ROCM_PATH=/opt/rocm
export HSA_OVERRIDE_GFX_VERSION=10.3.0

동시에 현재 사용자가 render 및 video 사용자 그룹에 속해 있는지 확인하세요.

sudo usermod -aG render $USERNAME
sudo usermod -aG video $USERNAME

시작하기

직접 시작

다음 명령어로 WebUI를 시작하세요

python infer-web.py

통합 패키지 사용

RVC-beta.7z를 다운로드하고 압축 해제

Windows 사용자

go-web.bat 더블 클릭

MacOS 사용자

sh ./run.sh

IPEX 기술이 필요한 I카드 사용자를 위한 지침(Linux만 해당)

source /opt/intel/oneapi/setvars.sh

참조 프로젝트

ContentVec
VITS
HIFIGAN
Gradio
FFmpeg
Ultimate Vocal Remover
audio-slicer
Vocal pitch extraction:RMVPE
- 사전 훈련된 모델은 yxlllc와 RVC-Boss에 의해 훈련되고 테스트되었습니다.

README.ko.md

Retrieval-based-Voice-Conversion-WebUI

소개

환경 설정

Windows/Linux/MacOS 등 플랫폼 공통 방법

1. pip를 통한 의존성 설치

2. poetry를 통한 의존성 설치

MacOS

기타 사전 훈련된 모델 준비

1. assets 다운로드

2. ffmpeg 설치

Ubuntu/Debian 사용자

MacOS 사용자

Windows 사용자

3. RMVPE 인간 음성 피치 추출 알고리즘에 필요한 파일 다운로드

dml 환경의 RMVPE 다운로드(선택사항, A카드/I카드 사용자)

4. AMD 그래픽 카드 Rocm(선택사항, Linux만 해당)

시작하기

직접 시작

통합 패키지 사용

Windows 사용자

MacOS 사용자

IPEX 기술이 필요한 I카드 사용자를 위한 지침(Linux만 해당)

참조 프로젝트

모든 기여자들의 노력에 감사드립니다