音声AIの情報を纏めるWikiです

音声合成(TTS)

テキストを入力したらそこから音声を作ってくれるやつ。

  • Style-Bert-VITS2
下のStyle-Bert-VITS2で、感情制御をさらにできるようにしたフォーク。
https://github.com/litagin02/Style-Bert-VITS2
ワンクリックインストーラー付き
  • Bert-VITS2
https://github.com/fishaudio/Bert-VITS2
BertとVITS2を組み合わせたらしい。2.1になって感情豊かな音声を生成してくれて、学習時間も短く質が高い。現在の最新版はver 2.3。
解説記事:
https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
導入がめっちゃ簡単なワンクリックでできるやつ:
https://github.com/Zuntan03/EasyBertVits2

マージで声音と喋り方を2つのモデルで交換したりもできるよ:
https://gist.github.com/litagin02/f07a5d7217c9efa4...
  • VITS-JaPros-WebUI
https://github.com/litagin02/vits-japros-webui
日本語VITSモデルを学習・音声合成できるWebUI
  • unofficial vits2-TTS implementation in pytorch (44100Hz 日本語版)
https://github.com/tonnetonne814/unofficial-vits2-...
VITS2の日本語学習できるやつっぽいが、Windowsローカル環境ではそのままで対応していない模様
  • ESPnet
https://github.com/espnet/espnet
TTS含めいろんなタスクを包括的に扱えるやつだが、Linux前提のためそのまま動かすにはWSL必須

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

どなたでも編集できます