音声AIの情報を纏めるWikiです

※作成中 そのうちスクショ付きの手順にするかも

Paperspace(クラウドGPUをレンタルできるサービス)を利用してrvc-webui(リファクタリング版)を使う手順。
推論だけであればあまり処理負荷かからない為、学習時の利用を推奨。

Paperspace自体の使い方は他解説サイトを参照。

セットアップ

1. 以下のノートブックをローカルにダウンロードする 2. ノートブックをPaperspaceにアップロード
3. Setupセルを実行
4. 以下のようなメッセージでgradioのshareリンクが表示されるのでアクセス
Running on public URL: https://xxxxxxxxxxxxxxxxxx.gradio.live
5. gradioの調子が悪くて応答が遅い場合はSetupセルを停止してRunセルを実行(移行autoshutdownで落ちるまではRunセルで起動可能)

推論

1. "/tts/rvc-webui/models/checkpoints"内に.pthファイルを配置する(index, npyファイルもここに置く)
2. Interfaceタブを開いて"Source Audio"に変換元の音源ファイルのパスを入力する 例:"/notebooks/audio/test.mp3"
3. "Transpose"でピッチを調整してInferボタンをクリック

学習

1. 複数の音声ファイルが入ったフォルダをPaperspace上にアップする
2. Trainingタブを開いて以下パラメーターを決定する
  • Model Name: 何でもよい
  • Dataset glob: 学習対象のデータセットのパス 例:"/notebooks/training/*.wav"
  • Target sampling rate: データセットのサンプリングレートに合わせる 48kにした方が精度が良い(気がする)
  • Using phone embedder: VC用途の場合contentvecが精度が良い(気がする)
  • Embedding channels: 768
  • Batch size: 上げれば上げるほどVRAMを使うため借りてるGPUと相談(batch size:32で大体14GB使用)
  • Number of epochs: 30〜60の間ぐらいが丁度良い(気がする)
※batch size:32, epoch:60の場合、5分ほどで完了する
3. HF Uploadセルに必要な情報(Access Tokenやリポジトリ等)を入力し、セルを実行。学習したモデル(最終epochのみ)をhuggingfaceにアップロードする
途中経過のepochも保存したい場合は、HF Uploadセルのoutput_dirを"/tts/rvc-webui/models/training/models/[モデル名]/checkpoints"に変更して再度実行

このページへのコメント

ありがたく使わせていただいてるのですが,トレーニング終了後どこを探してもIndexファイルが見つからないです。
無知で申し訳ないのですが,どこにあるか教えて頂けませんか?

0
Posted by 名無し(ID:sQWCOlA1RA) 2023年04月28日(金) 14:28:43 返信数(1) 返信

自己解決しました(本家版と仕様が違った)

1
Posted by 名無し(ID:EPHtTSYLgw) 2023年04月28日(金) 18:01:24

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

どなたでも編集できます