最終更新:ID:a2XLUNzmYA 2025年04月19日(土) 05:36:50履歴
State-of-the-Art zero-shot voice conversion & singing voice conversion with in context learning
https://github.com/Plachtaa/seed-vc
モデルのファインチューニングなしに、30秒以内のごく短い参照ファイルを元に音声変換が可能なボイスチェンジャー
https://github.com/Plachtaa/seed-vc
モデルのファインチューニングなしに、30秒以内のごく短い参照ファイルを元に音声変換が可能なボイスチェンジャー
2024/04/16にV2追加の大型アップデートがあったため、情報が不足している場合があります
現状、Github通りにやるとエラーが出るので注意! ←修正された。GithubのReed.en通り行って問題ない。(25/4/19追記)
githubのREADMEの通りでは仮想環境も作らないしCPU推論しか行えないので、venvを作ってGPU(nVidia CUDA環境)で動かす方法の紹介
※事前にPython3.10.Xをインストールしておくこと、3.10.9で確認済み
インストールしたいディレクトリ(フォルダ)でコマンドプロンプトを開く
以下のコマンドを順番に入力する
※PyPIのCPU版torchが入ってしまうのを避けるため
最後のコマンドで12.6 Trueという表示がでることを確認すること。
もしNone Falseと表示された場合CPU版が入ってしまっているのでこの場合は pip uninstall torchとコマンドに打ち、再度
ここまででGPU推論が可能。inference.pyを使用してコンソールから変換する人はここまででOK、app.py(GUI)を使用する場合は以下の準備をすること
ffprobeが見つからないとGUIでエラーを吐くので、既にffprobe(windowsの場合ffprobe.exe)がある人はパスを通しておく。
もっていないまたはパスを通すの意味がわからない場合は下記手順を実行。
1.バイナリをダウンロードする。(ffmpeg-7.1.1-full_build.zipってやつ)
https://github.com/GyanD/codexffmpeg/releases
2.full_build.zipを展開して、好きな場所に移動(おすすめはCドライブ直下にFFmpegという名前のフォルダを作成しその中にダウンロードしたフォルダをぶち込む)
3.Win+R→sysdm.cplでシステムのプロパティを開いて詳細設定タブに移動し右下にある環境変数をクリック
4.「システム環境変数」の「Path」を選択し、「編集」をクリック
5.「新規」をクリックし、FFmpegのbinフォルダのパスを追加(例:C:\FFmpeg\ffmpeg-7.1.1-full_build\bin)。OKを押して完了!
足りないモジュールは以下のコマンドで追加する
githubのREADMEの通りでは仮想環境も作らないしCPU推論しか行えないので、venvを作ってGPU(nVidia CUDA環境)で動かす方法の紹介
※事前にPython3.10.Xをインストールしておくこと、3.10.9で確認済み
インストールしたいディレクトリ(フォルダ)でコマンドプロンプトを開く
以下のコマンドを順番に入力する
git clone https://github.com/Plachtaa/seed-vc cd seed-vc python -m venv venv .\venv\Scripts\activate pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126 pip install -r requirements.txt pip install triton-windows==3.2.0.post13 python -c "import torch; print(torch.version.cuda); print(torch.cuda.is_available())"
※PyPIのCPU版torchが入ってしまうのを避けるため
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126で先にCUDA対応のtorchをインストールしている。もしCPUで動かす場合は抜かして構わない
最後のコマンドで12.6 Trueという表示がでることを確認すること。
もしNone Falseと表示された場合CPU版が入ってしまっているのでこの場合は pip uninstall torchとコマンドに打ち、再度
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126を実行してください。
ここまででGPU推論が可能。inference.pyを使用してコンソールから変換する人はここまででOK、app.py(GUI)を使用する場合は以下の準備をすること
ffprobeが見つからないとGUIでエラーを吐くので、既にffprobe(windowsの場合ffprobe.exe)がある人はパスを通しておく。
もっていないまたはパスを通すの意味がわからない場合は下記手順を実行。
1.バイナリをダウンロードする。(ffmpeg-7.1.1-full_build.zipってやつ)
https://github.com/GyanD/codexffmpeg/releases
2.full_build.zipを展開して、好きな場所に移動(おすすめはCドライブ直下にFFmpegという名前のフォルダを作成しその中にダウンロードしたフォルダをぶち込む)
3.Win+R→sysdm.cplでシステムのプロパティを開いて詳細設定タブに移動し右下にある環境変数をクリック
4.「システム環境変数」の「Path」を選択し、「編集」をクリック
5.「新規」をクリックし、FFmpegのbinフォルダのパスを追加(例:C:\FFmpeg\ffmpeg-7.1.1-full_build\bin)。OKを押して完了!
足りないモジュールは以下のコマンドで追加する
pip install gradio pip install librosa pip install munch pip install einops pip install git+https://github.com/descriptinc/audiotools pip install transformers
seed-vcのディレクトリでコマンドプロンプトを開いて仮想環境に入る
あとはgithubのREADMEの通り、python app.pyでGUIが起動する
(25/4/19追記)
現在のバージョンではpython app.pyのみだと「V2とV1どっちを使うか指定されていないぞ」というエラーを吐き起動しません。
.\venv\Scripts\activate
(25/4/19追記)
現在のバージョンではpython app.pyのみだと「V2とV1どっちを使うか指定されていないぞ」というエラーを吐き起動しません。
python app.py --enable-v1 --enable-v2でV2とV1を同時に扱える統合Web UIが起動します。
引数のパスの指定時に\(円またはバックスラッシュ)を使用するとエラーになる。--target "./input/01.wav"や--output ./outputのように/(スラッシュ)でディレクトリを区切ること

このページへのコメント
2025/4/19追記後の方法で導入後、コマンドライン実行(inference.py)をすると以下のエラーが出ました。
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
ChatGPTで原因を探ると、
「あなたの GPU(RTX 5060 Ti)は 「Compute Capability 12.0」(=最新の Blackwell 世代)。しかし、今の PyTorch(2.10.0.dev+cu126)は Compute Capability 9.0 までしかサポートしていません。」
と出てきました。
RTX50XXシリーズで導入に成功した方、いらっしゃいますか?