Retrieval-based-Voice-Conversion-WebUI/Changelog_KO.md at 4cf1ad4ce9e1b00f6e7573c15ca91b0d6bd2e395

mirror of synced 2024-11-27 17:00:54 +01:00

源文雨 5e09a55e5f 优化代码结构

2023-06-24 15:26:14 +08:00

업데이트에 적용되지 않았지만 시도한 것들 :

추후 업데이트 목록:

원클릭 패키지의 이전 버전 런타임 내, 불필요한 코드(lib.infer_pack 및 uvr5_pack) 제거.
훈련 세트 전처리의 유사 다중 처리 버그 수정.
Harvest 피치 인식 알고리즘에 대한 중위수 필터링 반경 조정 추가.
오디오 내보낼 때, 후처리 리샘플링 지원.
훈련에 대한 다중 처리 "n_cpu" 설정이 "f0 추출"에서 "데이터 전처리 및 f0 추출"로 변경.
logs 폴더 하의 인덱스 경로를 자동으로 감지 및 드롭다운 목록 기능 제공.
탭 페이지에 "자주 묻는 질문과 답변" 추가. (github RVC wiki 참조 가능)
동일한 입력 오디오 경로를 사용할 때 추론, Harvest 피치를 캐시. (주의: Harvest 피치 추출을 사용하면 전체 파이프라인은 길고 반복적인 피치 추출 과정을 거치게됩니다. 캐싱을 하지 않는다면, 첫 inference 이후의 단계에서 timbre, 인덱스, 피치 중위수 필터링 반경 설정 등 대기시간이 엄청나게 길어집니다!)

입력의 볼륨 캡슐을 사용하여 출력의 볼륨 캡슐을 혼합하거나 대체. (입력이 무음이거나 출력의 노이즈 문제를 최소화 할 수 있습니다. 입력 오디오의 배경 노이즈(소음)가 큰 경우 해당 기능을 사용하지 않는 것이 좋습니다. 기본적으로 비활성화 되어있는 옵션입니다. (1: 비활성화 상태))
추출된 소형 모델을 지정된 빈도로 저장하는 기능을 지원. (다양한 에폭 하에서의 성능을 보려고 하지만 모든 대형 체크포인트를 저장하고 매번 ckpt 처리를 통해 소형 모델을 수동으로 추출하고 싶지 않은 경우 이 기능은 매우 유용합니다)
환경 변수를 설정하여 서버의 전역 프록시로 인한 "연결 오류" 문제 해결.
사전 훈련된 v2 모델 지원. (현재 40k 버전만 테스트를 위해 공개적으로 사용 가능하며, 다른 두 개의 샘플링 비율은 아직 완전히 훈련되지 않아 보류되었습니다.)
추론 전, 1을 초과하는 과도한 볼륨 제한.
데이터 전처리 매개변수 미세 조정.

GPU 이용률 향상을 위해 훈련 파라미터 수정: A100은 25%에서 약 90%로 증가, V100: 50%에서 약 90%로 증가, 2060S: 60%에서 약 85%로 증가, P40: 25%에서 약 95%로 증가. 훈련 속도가 크게 향상.
매개변수 기준 변경: total batch_size는 GPU당 batch_size를 의미.
total_epoch 변경: 최대 한도가 100에서 1000으로 증가. 기본값이 10에서 20으로 증가.
ckpt 추출이 피치를 잘못 인식하여 비정상적인 추론을 유발하는 문제 수정.
분산 훈련 과정에서 각 랭크마다 ckpt를 저장하는 문제 수정.
특성 추출 과정에 나노 특성 필터링 적용.
무음 입력/출력이 랜덤하게 소음을 생성하는 문제 수정. (이전 모델은 새 데이터셋으로 다시 훈련해야 합니다)

로컬 실시간 음성 변경 미니-GUI 추가, go-realtime-gui.bat를 더블 클릭하여 시작.
훈련 및 추론 중 50Hz 이하의 주파수 대역에 대해 필터링 적용.
훈련 및 추론의 pyworld 최소 피치 추출을 기본 80에서 50으로 낮춤. 이로 인해, 50-80Hz 사이의 남성 저음이 무음화되지 않습니다.
시스템 지역에 따른 WebUI 언어 변경 지원. (현재 en_US, ja_JP, zh_CN, zh_HK, zh_SG, zh_TW를 지원하며, 지원되지 않는 경우 기본값은 en_US)
일부 GPU의 인식 수정. (예: V100-16G 인식 실패, P4 인식 실패)

Features:

Base model: