音声AIの情報を纏めるWikiです



本家webui venv


wavファイルをVCしてwavファイルを出力したいけどまだ起動までしか出来てない
Anacondaはもう入れたくない

やったこと

事前条件(WSL2にpythonとCUDAとかが入ってる状態)
$ uname -a
Linux ubuntu-2204 5.15.90.1-microsoft-standard-WSL2 #1 SMP Fri Jan 27 02:56:13 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux

$ python3 -V
Python 3.10.6

$ which nvidia-smi
/usr/lib/wsl/lib/nvidia-smi

ソースコードはちょっと開いてそっ閉じ・・・
git clone https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI
cd Retrieval-based-Voice-Conversion-WebUI/

READMEより。torchは2系が入る。cu117で説明されてるけど118でもいけるっぽい
python3 -m venv venv
venv/bin/python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
venv/bin/python -m pip install -r requirements.txt

これ要らないっぽい?
curl -sSL https://install.python-poetry.org/ | venv/bin/python -
poetry install

githubに乗ってないファイルのダウンロード
wget https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt
wget -P pretrained https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/pretrained/{,f0}{D,G}{32,40,48}k.pth
wget -P uvr5_weights/ 'https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/uvr5_weights/HP2-%E4%BA%BA%E5%A3%B0vocals%2B%E9%9D%9E%E4%BA%BA%E5%A3%B0instrumentals.pth'
wget -P uvr5_weights/ 'https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/uvr5_weights/HP5-%E4%B8%BB%E6%97%8B%E5%BE%8B%E4%BA%BA%E5%A3%B0vocals%2B%E5%85%B6%E4%BB%96instrumentals.pth'

起動した。2023-04-13現在はまだ中国語。
venv/bin/python infer-web.py

ddpn版 venv


git clone https://github.com/ddPn08/rvc-webui.git
cd rvc-webui

初回起動時に環境作ってくれる。
chmod +x webui.sh
./webui.sh

もしくは以下のワンライナーで環境構築だけできる。
echo -e "import launch\nlaunch.prepare_environment()" | python3

コマンドライン版を作ってみた。
venv/bin/python run.py -i input.wav -o out.wav -m model.pth -s 0

run.py
import sys
sys.path.append('.')

import argparse
from modules import models
import soundfile

if __name__ == '__main__':
    parser = argparse.ArgumentParser()

    parser.add_argument("-m", "--model_name", type=str)
    parser.add_argument("-s", "--speaker_id", type=int, default=0)
    parser.add_argument("-i", "--input_audio", type=str)
    parser.add_argument("-o", "--output_audio", type=str)
    parser.add_argument("--transpose", type=int, default=0, help='minimum=-20, maximum=20, value=0, step=1')
    parser.add_argument("--pitch_extraction_algo", type=str, default='pm', help='choices=["pm", "harvest"]')
    parser.add_argument("--feature_retrieval_lib", type=str, default='')
    parser.add_argument("--feature_file_path", type=str, default='')
    parser.add_argument("--retrieval_feature_ratio", type=float, default=0, help='minimum=0, maximum=1, value=1, step=0.01')
    parser.add_argument("--fo_curve_file", type=str, default='')

    args = parser.parse_args()

    model_name = args.model_name
    sid = args.speaker_id
    input_audio = args.input_audio
    output_audio = args.output_audio
    f0_up_key = args.transpose
    f0_method = args.pitch_extraction_algo
    file_index = args.feature_retrieval_lib
    file_big_npy = args.feature_file_path
    index_rate = args.retrieval_feature_ratio
    f0_file = args.fo_curve_file

    models.load_model(model_name)
    model = models.vc_model
    audio = model.single(sid, input_audio, f0_up_key, f0_file, f0_method, file_index, file_big_npy, index_rate)
    soundfile.write(file=output_audio, data=audio, samplerate=model.tgt_sr)

RVC(docker)


WSL2でdockerによるRVCの起動

最終更新:2023/07/21 rmvpe対応

※注意:この方法よりwindows上でzip解凍して実行したほうがおそらく楽です。
※WSL2で動かしたいというこだわりがないと特にお勧めしません

実行した環境は以下の通り
Windows 11(64GB)
NVidia video card (RTX3060 12GB)
WSL2 (32GB and operation confirmed on Ubuntu 20.04)

ここには記載しないですが、事前にWSL2へのUbuntuのインストール、docker起動用の準備、gitが必要です。

1.gitのcloneとディレクトリの移動
git clone https://github.com/c0x63c/rvc-wsl-docker.git
cd rvc-wsl-docker

2.dockerのbuild
docker compose build

3.dockerの起動
・起動
docker compose up
・バックグラウンドでの起動
docker compose up -d

4.起動後のアクセス
ブラウザ上からhttp://localhost:7865/にアクセス

  • docker内に紐づけているフォルダについて
・inputフォルダ
./volumes/inputs
 →docker内の/inputsに紐づけられる
 →トレーニング用音声ファイルの配置場所
・logsフォルダ
 ./volumes/logs
 →docker内の/RVC-WebUI/logsに紐づけられる
 →logファイルおよびnpy,indexの出力先
 →muteフォルダをdocker内からコピーしている、なんかエラーが出たら消してください
・weightsフォルダ
 ./volumes/weights
 →docker内の/RVC-WebUI/weightsに紐づけられる
 →トレーニング結果のpthファイルの出力先

RVC(Style-Bert-VITS2)


WSL2でdockerによるStyle-Bert-VITS2の起動

最終更新:2024/04/07

※注意:この方法よりwindows上でzip解凍して実行したほうがおそらく楽です。
※WSL2で動かしたいというこだわりがないと特にお勧めしません

実行した環境は以下の通り
Windows 11(64GB)
NVidia video card (RTX3060 12GB)
WSL2 (32GB and operation confirmed on Ubuntu 20.04)

ここには記載しないですが、事前にWSL2へのUbuntuのインストール、docker起動用の準備、gitが必要です。

1.gitのcloneとディレクトリの移動
git clone https://github.com/c0x63c/sbv2-wsl-docker
cd sbv2-wsl-docker

2.dockerのbuild・shellの権限付与
chomod +x ./shell/*
docker compose build

3.dockerの起動
・web-uiで起動
./shell/webui_start.sh

4.起動後のアクセス
ブラウザ上からhttp://localhost:7865/にアクセス

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

どなたでも編集できます