1
0
mirror of synced 2025-01-22 11:23:46 +01:00
2023-09-04 11:00:53 +09:00

7.8 KiB

Retrieval-based-Voice-Conversion-WebUI

Un framework simple et facile à utiliser pour la conversion vocale (modificateur de voix) basé sur VITS

madewithlove


Open In Colab Licence Huggingface

Discord

Journal de mise à jour | FAQ | AutoDL·Formation d'un chanteur AI pour 5 centimes | Enregistrement des expériences comparatives) | Démonstration en ligne


English | 中文简体 | 日本語 | 한국어 (韓國語) | Turc

Cliquez ici pour voir notre vidéo de démonstration !

Conversion vocale en temps réel avec RVC : w-okada/voice-changer

Le modèle de base est formé avec près de 50 heures de données VCTK de haute qualité et open source. Aucun souci concernant les droits d'auteur, n'hésitez pas à l'utiliser.

Attendez-vous au modèle de base RVCv3 : plus de paramètres, plus de données, de meilleurs résultats, une vitesse d'inférence presque identique, et nécessite moins de données pour la formation.

Introduction

Ce dépôt a les caractéristiques suivantes :

  • Utilise le top1 pour remplacer les caractéristiques de la source d'entrée par les caractéristiques de l'ensemble d'entraînement pour éliminer les fuites de timbre vocal.
  • Peut être formé rapidement même sur une carte graphique relativement moins performante.
  • Obtient de bons résultats même avec peu de données pour la formation (il est recommandé de collecter au moins 10 minutes de données vocales avec un faible bruit de fond).
  • Peut changer le timbre vocal en fusionnant des modèles (avec l'aide de l'onglet ckpt-merge).
  • Interface web simple et facile à utiliser.
  • Peut appeler le modèle UVR5 pour séparer rapidement la voix et l'accompagnement.
  • Utilise l'algorithme de pitch vocal le plus avancé InterSpeech2023-RMVPE pour éliminer les problèmes de voix muette. Meilleurs résultats, plus rapide que crepe_full, et moins gourmand en ressources.
  • Support d'accélération pour les cartes A et I.

Configuration de l'environnement

Exécutez les commandes suivantes dans un environnement Python de version supérieure à 3.8.

(Windows/Linux)
Installez d'abord les dépendances principales via pip :

# Installez Pytorch et ses dépendances essentielles, sautez si déjà installé.
# Voir : https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio

# Pour les utilisateurs de Windows avec une architecture Nvidia Ampere (RTX30xx), en se basant sur l'expérience #21, spécifiez la version CUDA correspondante pour Pytorch.
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

Vous pouvez utiliser poetry pour installer les dépendances :

# Installez l'outil de gestion des dépendances Poetry, sautez si déjà installé.
# Voir : https://python-poetry.org/docs/#installation
curl -sSL https://install.python-poetry.org | python3 -

# Installez les dépendances avec poetry.
poetry install

Ou vous pouvez utiliser pip pour installer les dépendances :

Cartes Nvidia :

pip install -r requirements.txt

Cartes AMD/Intel :
pip install -

r requirements-dml.txt


Les utilisateurs de Mac peuvent exécuter run.sh pour installer les dépendances :

sh ./run.sh

Préparation d'autres modèles pré-entraînés

RVC nécessite d'autres modèles pré-entraînés pour l'inférence et la formation.

Vous pouvez télécharger ces modèles depuis notre espace Hugging Face.

Voici une liste des modèles et autres fichiers requis par RVC :

./assets/hubert/hubert_base.pt

./assets/pretrained 

./assets/uvr5_weights

Pour tester la version v2 du modèle, téléchargez également :

./assets/pretrained_v2

Si vous utilisez Windows, vous pourriez avoir besoin de ces fichiers pour ffmpeg et ffprobe, sautez cette étape si vous avez déjà installé ffmpeg et ffprobe. Les utilisateurs d'ubuntu/debian peuvent installer ces deux bibliothèques avec apt install ffmpeg. Les utilisateurs de Mac peuvent les installer avec brew install ffmpeg (prérequis : avoir installé brew).

./ffmpeg

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exe

./ffprobe

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe

Si vous souhaitez utiliser le dernier algorithme RMVPE de pitch vocal, téléchargez les paramètres du modèle de pitch et placez-les dans le répertoire racine de RVC.

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.pt

    Les utilisateurs de cartes AMD/Intel nécessitant l'environnement DML doivent télécharger :

    https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.onnx

Ensuite, exécutez la commande suivante pour démarrer WebUI :

python infer-web.py

Si vous utilisez Windows ou macOS, vous pouvez télécharger et extraire RVC-beta.7z. Les utilisateurs de Windows peuvent exécuter go-web.bat pour démarrer WebUI, tandis que les utilisateurs de macOS peuvent exécuter sh ./run.sh.

Il y a également un Guide facile pour les débutants.doc inclus pour référence.

Crédits

Remerciements à tous les contributeurs pour leurs efforts