音声AIの情報を纏めるWikiです

×

Seed-VC

State-of-the-Art zero-shot voice conversion & singing voice conversion with in context learning
https://github.com/Plachtaa/seed-vc

モデルのファインチューニングなしに、30秒以内のごく短い参照ファイルを元に音声変換が可能なボイスチェンジャー

インストール方法(2025/4/19追記)

2024/04/16にV2追加の大型アップデートがあったため、情報が不足している場合があります
現状、Github通りにやるとエラーが出るので注意! ←修正された。GithubのReed.en通り行って問題ない。(25/4/19追記)

githubのREADMEの通りでは仮想環境も作らないしCPU推論しか行えないので、venvを作ってGPU(nVidia CUDA環境)で動かす方法の紹介
※事前にPython3.10.Xをインストールしておくこと、3.10.9で確認済み

インストールしたいディレクトリ(フォルダ)でコマンドプロンプトを開く
以下のコマンドを順番に入力する
git clone https://github.com/Plachtaa/seed-vc
cd seed-vc
python -m venv venv
.\venv\Scripts\activate
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126
pip install -r requirements.txt
pip install triton-windows==3.2.0.post13
python -c "import torch; print(torch.version.cuda); print(torch.cuda.is_available())"

※PyPIのCPU版torchが入ってしまうのを避けるため
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126 
で先にCUDA対応のtorchをインストールしている。もしCPUで動かす場合は抜かして構わない

最後のコマンドで12.6 Trueという表示がでることを確認すること。
もしNone Falseと表示された場合CPU版が入ってしまっているのでこの場合は pip uninstall torchとコマンドに打ち、再度
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126 
を実行してください。

ここまででGPU推論が可能。inference.pyを使用してコンソールから変換する人はここまででOK、app.py(GUI)を使用する場合は以下の準備をすること

ffprobeが見つからないとGUIでエラーを吐くので、既にffprobe(windowsの場合ffprobe.exe)がある人はパスを通しておく。

もっていないまたはパスを通すの意味がわからない場合は下記手順を実行。

1.バイナリをダウンロードする。(ffmpeg-7.1.1-full_build.zipってやつ)
https://github.com/GyanD/codexffmpeg/releases

2.full_build.zipを展開して、好きな場所に移動(おすすめはCドライブ直下にFFmpegという名前のフォルダを作成しその中にダウンロードしたフォルダをぶち込む)

3.Win+R→sysdm.cplでシステムのプロパティを開いて詳細設定タブに移動し右下にある環境変数をクリック

4.「システム環境変数」の「Path」を選択し、「編集」をクリック

5.「新規」をクリックし、FFmpegのbinフォルダのパスを追加(例:C:\FFmpeg\ffmpeg-7.1.1-full_build\bin)。OKを押して完了!

足りないモジュールは以下のコマンドで追加する
pip install gradio
pip install librosa
pip install munch
pip install einops
pip install git+https://github.com/descriptinc/audiotools
pip install transformers

使い方

seed-vcのディレクトリでコマンドプロンプトを開いて仮想環境に入る
.\venv\Scripts\activate
あとはgithubのREADMEの通り、python app.pyでGUIが起動する
(25/4/19追記)
現在のバージョンではpython app.pyのみだと「V2とV1どっちを使うか指定されていないぞ」というエラーを吐き起動しません。
python app.py --enable-v1 --enable-v2
でV2とV1を同時に扱える統合Web UIが起動します。

inference.pyで使用する場合の注意点

引数のパスの指定時に\(円またはバックスラッシュ)を使用するとエラーになる。--target "./input/01.wav"や--output ./outputのように/(スラッシュ)でディレクトリを区切ること

アップデートの注意

25/4/18バージョンにてcu121 → cu126にCUDAバージョンが変更されている。
これによって以前(cu121)の環境からアップデートを行った場合依存ライブラリが競合するため起動ができなくなる。
アップデート時の解決策がわからず仮想環境を構築し直す羽目になったのでアップデートする際は注意

このページへのコメント

2025/4/19追記後の方法で導入後、コマンドライン実行(inference.py)をすると以下のエラーが出ました。

CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

ChatGPTで原因を探ると、
「あなたの GPU(RTX 5060 Ti)は 「Compute Capability 12.0」(=最新の Blackwell 世代)。しかし、今の PyTorch(2.10.0.dev+cu126)は Compute Capability 9.0 までしかサポートしていません。」
と出てきました。

RTX50XXシリーズで導入に成功した方、いらっしゃいますか?

3
Posted by 名無し(ID:Ub8cj+nuTA) 2025年10月20日(月) 22:54:04 返信

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

どなたでも編集できます

広告募集中