Dreambooth-LoRA

概要

Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
簡単に言えば「省メモリで高速に学習できて容量も小さくて済む追加学習法」。作成方法はいろいろある。

他の学習法とどう違うねん？　reddit民によればこんな感じのイメージらしい。
https://www.reddit.com/r/StableDiffusion/comments/...
kohya_ss版sd-scriptsの登場以来、sd-scripts及びそれの派生ツールが人気となっている。
このページではsd-scripts関連の情報について雑に書いてある。
ページの更新がほとんどされておらず、古くなっていることに留意。
このページもといローカル部のページのほとんどが更新停止で悲しい🥺
ここの情報はSD1.5に関するもの。現時点でSDXLの情報は無い。
SDXL関連はスレか他所のページを見ましょう。

公式情報

sd-scripts (kohya)

一番はじめは作者が詳しく書いてくれている公式READMEを見よう！話はそれからだ！

★公式導入ガイド：https://github.com/kohya-ss/sd-scripts/blob/main/R...
★公式LoRAガイド：https://github.com/kohya-ss/sd-scripts/blob/main/d...
公式学習データガイド：https://github.com/kohya-ss/sd-scripts/blob/main/d...
公式コマンドライン引数表：https://github.com/kohya-ss/sd-scripts/blob/main/d...
公式DreamBoothガイド：https://github.com/kohya-ss/sd-scripts/blob/main/d...
公式Finetuneガイド：https://github.com/kohya-ss/sd-scripts/blob/main/d...

参考資料・スレ住民による学習ガイド

記事

LoRA学習用サンプルデータ: https://note.com/kohya_ss/n/nb20c5187e15a

作者本人によるサンプル。

LoRA Training Guide: https://rentry.org/lora_train

4chan有志によるLoRAトレーニング法ガイド（英語）

いろいろLoRA作成記録: https://rentry.co/irir_lora

512,768,1024の違い、小物、シチュエーション、背景、画風とかいろいろ

LoRA 学習メモ: https://rentry.org/i5ynb

スレ住民によるLain・よしなが先生・野原ひろしLoRA作成者によるLoRAガイド（日本語）
更新：2023-03-15｜"--caption_extension=.txt"の引数を追加して明示的に指定しないとタグファイル(.txt)を読みにいかない仕様の注意喚起を追加しました。
更新：2023-02-09｜低リソース学習(NIKKE)、低dim学習(ゆるキャン犬山あおい)などを追加しました。

ソウリンちゃんLoRAの作成記録: https://rentry.org/sourin_chan

スレ住民によるマルゼン式(ふたば有志のタグ付け手法の1つ)で作成したLoRA作成記録（日本語）

原神LoRA作成メモ・検証: https://rentry.org/genshin_lora

スレ住民によるkohya-ss氏制作のSDスクリプト(https://github.com/kohya-ss/sd-scripts )で次のキャラのLoRAを作成した。ポップアップ版使用。（日本語）
- 筆者による追記:SD1.5時代の試行錯誤していた頃の情報で古くなっています。参考にしないでください。

スレ住民によるキャラクター学習のタグ付け一例（日本語）: https://rentry.org/dsvqnd

LAZY TRAINING GUIDE: https://rentry.org/LazyTrainingGuide

loraをいっぱい作ってる海外ニキの打率9割学習ガイド

あかちゃんLoRAノートブック: kohya_train_network_simple

全然スレに書き込めないけどけなげに頑張っている
クラウドGPUを使う場合はリンク先の下の方に Colab Instructions がある
フォルダ命名方法に気をつけて、自前のファイルは半角スペース一切入れないようにすれば無料Colabでも回せる。頑張れ。

インストール、初回セットアップ編

sd-scripts (作: kohya)

純正のsd-scripts。コマンドプロンプトとか黒い画面にコマンドを打って使うやつや

最新機能を使いたい
安定した動作をのぞむ

こういう場合はこれを最初に試してな
インストールは下記を参考に

★公式導入ガイド：https://github.com/kohya-ss/sd-scripts/blob/main/R...

GUI・補助ツール

純正のsd-scriptsをかんたんに使えるようにしたものやで
bmaltais版GUIかKohya_lora_param_guiがおすすめ。Kohya_lora_param_guiは日本語で親切設計で使いやすい。

bmaltais版 GUI

https://github.com/bmaltais/kohya_ss
GUI といっても作者の sd-scripts にパラメータを渡すだけや。性能は変わらん。セットアップがちょっとだけ楽。
GUIのほうが更新が数日遅れるのが常やから我慢してや。

GradioベースのGUI。
「Tools」タブにフォルダ配置補助機能がある。
スクリプト版のパラメータの一部は設定出来ないかも？
起動は、powershellならactivate.ps1、gui-user.ps1を順番に呼ぶのが早い（自動でブラウザも立ち上がる）
アップデートは upgrade.ps1 をpowershellで実行

Kohya_lora_param_gui (スレ住民作)

https://github.com/RedRayz/Kohya_lora_param_gui
https://github.com/kohya-ss/sd-scripts の学習用のパラメータ設定してコマンドラインに渡すGUIです。

accelerate実行時のオプション（引数）「パラメーター設定をGUIで行えるようにした」もの。
単体でsd-scriptsのインストール・更新ができるようになった。
LECOの学習もできる。
としあきbatやlora_train_command_lineを毎回編集してた人、accelerateの引数を色々メモってた人にオススメかも。GUI上で数値とか編集してそのままaccelerateに渡す感。捗る。

LoRA_Easy_Training_Scripts Installers

最初はまっさらなフォルダにインストールするんやで

https://github.com/derrian-distro/LoRA_Easy_Traini...: 下記の学習の手順で使うEasyTrainScriptsの人が作った簡易インストールスクリプト

画面右の Releases の下の Installers をクリック > 下にスクロールして install_sd_scripts_v5.bat をダウンロードする
右クリックして管理者として実行すると sd-scripts 本体と Easy_Train_Scripts の両方をインストールして、インストール後の初期設定までやってくれる。
うまくいかなかったら Gitをインストールしてリトライ
わからないとき用画像↓

アップデートはupdate.bat からの upgrade.bat (大きなバージョンアップのときは入れ直し)

あかちゃんLoraインストーラー

あかちゃんインストーラーで1111を入れた人向けにPYTHONとGITのPATHをいじってあるやつ
start.batと同じフォルダに入れて実行してください

コマンドライン用
- https://github.com/aka7774/elemental_code/blob/mai...
- https://github.com/aka7774/elemental_code/blob/mai...
ダイアログ用(みかんせい)
- https://github.com/aka7774/elemental_code/blob/mai...

AUTOMATIC1111 SD WebUI 拡張機能版 (作: ddPn08 GUI) ※更新停止

~~ttps://github.com/ddPn08/kohya-sd-scripts-webui~~
去年の六月を最後に更新が停止しています。現在も動作するかは不明です。

sd-webui-train-tools

https://github.com/liasece/sd-webui-train-tools
AUTOMATIC1111 SD WebUI 用の拡張機能
画像をドロップしてパラメータを程よく埋めると出来る。簡単
動かんときは別にWebUIをセットアップして学習専用にしたほうがいい。
ReadMEが中国語なのでgoogle翻訳頑張れるなら
更新頻度が低く最新の機能は使えない

その他補助スクリプト

としあきbatや4chan製のスクリプトがある

アップデートは

クラウド

あかちゃんLoraノートブック
海外ニキのjupyter notebook
リンクのみ紹介。その都度最新版を取ってくるので動かなくても泣かない。
https://github.com/Linaqruf/kohya-trainer

学習用画像を置くフォルダの配置

sd-scripts で --dataset_config で設定ファイルを渡す場合は異なる
https://github.com/kohya-ss/sd-scripts/blob/main/c... を読んで

作者の解説が詳しい
- https://note.com/kohya_ss/n/nba4eceaa4594

フォルダの配置例:

※要するに<繰り返し回数>_<インスタンスプロンプト>にリネームした学習画像データのフォルダは直接指定しないでねって話
例えば↓こういうこと
❌E:\kohya_ss\TrainDatas\001\img\40_kdy 1girl
🟢E:\kohya_ss\TrainDatas\001\img
間違うと画像が見つかりませんと怒られる

同時に10まで概念を学習できるが、少なくとも1つはフォルダが必要。
フォルダの名前は <繰り返し回数>_<インスタンスプロンプト>
- <繰り返し回数> 繰り返し回数×学習用画像の枚数を1セット(1 epoch)として学習する

※注学習用の画像が50枚ある場合、繰り返し回数を20 にすると 20 x 50 = 1000 ステップ学習する

<インスタンスプロンプト> クラス呼び出し用のキーワードクラスは英単語にない意味のないワードがよい
上記kohya氏のサンプルだと「20_sls frog」　脳死で真似するなら繰り返し回数_意味のないワード WEBUIでプロンプトとして書きたい単語で設定しておく
キャプションファイルは必須です。そうでない場合、LoRA は概念名をキャプションとして使用してトレーニングを行います。
キャプションについては以下

キャプション・タグを付ける

作者の詳しい画像付き説明: https://github.com/kohya-ss/sd-scripts/blob/main/d...

学習用の素材画像それぞれに内容を説明するテキストファイルを作る。このテキストファイルには画像生成時のプロンプトと同じようにタグを記載する。
テキストエディターやメモ帳で1つずつ作っても良いのだが、WD1.4 Tagger 等のツールを使えば一気に自動生成できて捗る

WD1.4 Taggerで作成

先に学習用画像を連番にリネームしておく (01.png, 02.png, ...など)

画像

Web UI に拡張機能 stable-diffusion-webui-wd14-tagger https://github.com/toriato/stable-diffusion-webui-...をインストール
「Tagger」タブの「Batch from directory」

入力ファイル:学習用画像の入っているフォルダ
Interrogator:wd-14convnext
アンダースコアの代わりにスペースを使用する:オン
括弧をエスケープする:オン

画像

Interrogateを押すと学習用画像のフォルダにタグの付いた .txt ファイルが生成される

画像

Dataset Tag Editorで作成/編集

たぶんとしあきがつくったやつ。サブディレクトリまで読んで一括でタグ付けしたり、慣れればかなり快適にタグ付けできる。

タグ付け

まずフォルダ指定してLoad なんちゃら2つチェックでOverwrite選択してInterrogatorsを好みのやつ選択
Interrogator Settingsの下の閾値チェックしたら上のLoadで画像読み込みや
ほんで画像読み込みと同時にタグも内部で生成しとるから終わったら次は右上のタブFile by Selectionでどの画像に適用するか選択や
とりあえず右のAdd ALL Displayedですべての画像選択して下のApply selection filterで適用して最後に左上のSave all changeですべて適用や

これでタグテキストが生成される
空の000ファイルが出てくるのは編集前のテキストファイルのバックアップや

キャプション・タグの編集

タグは順序に影響を受けるので、一番最初に有効化したいタグを記述する
WD1.4Tagger等で自動生成したファイルには不要なタグが含まれたり誤認識されたタグが記載されたりするので編集する。

BooruDatasetTagManager: https://github.com/starik222/BooruDatasetTagManage...
学習用タグの入力を速く楽にするやつ: →ローカルの「ツール」 https://uploader.cc/s/rdw0k6qd2766czgdwwwjtn2xtmhi...
WebUI用拡張機能 Dataset Tag Editor: https://github.com/toshiaki1729/stable-diffusion-w... 日本語READMEに使い方が書いてある

等の便利なツールを使えば捗る。必要なタグを追加、不要なタグの削除、順序の入れ替え等の編集をやる

taggerで生成したタグの順序のままでも構わないが、重要なタグだけ各ファイルの先頭の方に記載する。例えばコマンドライン版（lora_train_command_line.py）の場合、

        self.shuffle_captions: bool = True  # OPTIONAL, False to ignore ~~
        self.keep_tokens: Union[int, None] = 3  # OPTIONAL, None to ignore ~~

上記のように設定すれば先頭から3つのタグは順序固定として残りはタグの適当にシャッフルして学習できる。

Dataset Tag Editorを使った簡単タグ整理法

　1.WD1.4Taggerなどを使用してタグ付けを実施。
　2.Dataset Tag EditorでBatch Edit Captionsを選択し、さらにRemoveを選択。
　3.誤検出で生じる完全に不要なタグを選択し削除する。
　4.学習タグおよびそれに類するタグを一度削除する。
　5.RemoveからEdit tagsへ項目を移動、Common Tagsを空欄にしEdit Tagsに学習タグを記載。
　6.Prepend additional tagsにチェックを入れてApply Changes to filtered imagesを選択。
　このように作業すればどのファイルも学習タグを先頭に持ってこられている状態であるため、タグに学習内容を関連付けしやすくなる。

キャプションの付け方・考え方の参考サイト

lora training tagging faq: 英語サイトだがブラウザの翻訳で読もう
キャラクター学習のタグ付け一例: 実例を挙げての解説

一言で言えば「呼び出しキーワード」＋「学習から外したいもの」をタグに書く

LoRAキャプション編集の話: 住民作ブルマ体操服LoRAのタグ付けを解説
Danbooruタグにない1トークンのワード一覧: 公式ドキュメントで言及されている「tokinizerで1トークンになる3文字以下でレアな単語」を使いたい場合に有用

学習用画像の加工

本文で説明している kohya 版のLoRAではトリミングはしなくていい(画像のサイズ別に学習が行われる)
あまりにも小さい画像(200pxとか)はUpscaylなどで拡大しておくか bucket_no_upscale をオンにする
背景の切り抜きは画像の大きさを揃えて下記のツールでやると楽。
切り抜く場合の背景色について (折りたたみ)

キャラの切り出しだけやったら3Dペイント(Win10なら標準、11では標準からリストラされたけどストアにおるで)のマジック選択でええ感じに切り抜きやすいからそこからgimpなりで微調整。
一枚一枚やんのめんどくさい言うんやったらABG_extension言うのが出たんでつこてみたらええんとちゃうかな…？しらんけど

ABG_extension: https://github.com/KutsuyaYuki/ABG_extension

WebUI公式extension。背景を自動で除去します。アニメ画像用に微調整されたonnxモデルを使用。GPUで動作します。

katanuki: https://github.com/aka7774/sd_katanuki

WebUI用extension。anime-segmentation を 1111 で使えるようにしたやつ。画像の背景を透過したり白背景にしたりマスク画像を出力する

stable-diffusion-webui-rembg: https://github.com/AUTOMATIC1111/stable-diffusion-...

WebUI用extension。rembg を 1111 で使えるようにしたやつ。動かんときはvenv消してみる。
u2net_human_seg あたりがちょうど良さげ

切り抜きノイズ除去ツール: https://12.gigafile.nu/0629-bc2ae51e82ab361567d60e...

174スレ>>294 切り抜きで残った半透明のノイズを削除したり白背景にしたりするツールを作ったで

Lama-Cleaner: https://github.com/Sanster/lama-cleaner

AIで不純物とかを消してでっち上げるやつ。割と重い。windows用インストーラーあり。
WebUI用extensionもある Extensions_URL

正則化画像

LoRAの用途を考えると基本的に不要。なお、透明正則化の効果は無いと思われる。

ChatGPTたん曰く「過学習を抑えるためのもの」
キャプションつけたらそのプロンプトで学習させるモデルを使って(適当なネガティブプロンプトをつけて)作成すればいい・・・のだが詳しくはわからないので誰か書いてクレメンス
「鳥獣戯画のカエルちゃん」を覚える代わりに普通のカエルを忘れて書けなくなるのを防ぐために学習時に普通のカエルの画像を渡しておく感じ？
他所のノートブックを利用しているので確かな事は言えないが、正則化画像を同じような画像で学習させすぎると正則化画像につけたクラストークンで正則化画像の内容を生成するようになる。単に「学習画像と正則画像を二つとも学習する」という挙動のように思われる。

正則化画像検証 (クリックして展開)

キャプションつけて正則化画像指定以外完全同条件のLoCon使った比較

165スレ>>529～より要約

Dim/NW=128/64(LoCon:32/16) 元画像38枚*20回 10epoch Adafactor
列の左から5枚は正則化画像として「girl」100枚、それより右は正則化画像なしで回しとる。
で、エポックごとにWeight3段階に変えて「girl , solo, 1girl, sky, cloud, beach, upper body」、NPに「monochrome」だけ指定した結果がこうや

正則化画像なしのほうは元キャラの「オレンジの帽子」とかの影響を初手から受け取るのが見える。
一方で当然やが正則化画像使っとるとかなり後半まで影響は低減されとる

同じようにgirlをトリガーワードに変えるとこうなる。

正則化画像ないほうは形になるまでは早いんやが、キャラの上鎧部分、宝玉の表現とかが案外甘くてワイの場合ガビとの戦いになるんや
多少妥協するなら000006あたりで形になっとるから正則化画像なしは早く結果に繋がるのが利点なんやないか？
つうわけで正則化画像が問答無用でいらんっちゅうわけでもないんやないかなーと個人的には思うで
(編注:正則化画像なしだと学習に必要なステップ数は約半分になります。>>620 正確に言うと「正則化を入れてると、エポック毎のステップ数が２倍になる」んや)

ゼノギアスのマルーを教師画像として使う時の話

>536は「marouer」をトリガーワードとして設定して学習 >537は「girl」をトリガーワードに(つまり既存のgirl概念に関与する形で)学習

またタグ付け学習で教師画像のキャプションに服装などを残す(つまり学習から除外する)条件
正則化(クラス付与)ありの場合となしの場合を比較すると
教師画像の情報を「marouer」に学習させるステップにおいて、
前者は人物の特徴(顔つき、画風、髪型などgirlが内包する概念)を優先して学習し、付帯的な要素(服装、帽子など)の影響を受けにくいのに対し、
後者は早期から「除外したいはずの」付帯的な要素の影響を受けてしまっている

537は「girl」をトリガーワードに変えているので、教師画像の概念(髪型、顔つき、服装などすべて)が「girl」に干渉する場合を考える
正則化画像ありとなしの場合を比較すると、後者の方が「教師画像らしさ」を学習する速度が速い(これは正則化画像の「girl」概念の影響を受けないから？)
しかし、完成速度は比較的遅いが正則化画像ありの方が鎧などのディティールは正確に反映される傾向にある
正則化画像なしの学習でもある程度の妥協点(たとえば>>537でいう000006列)は見つかるので、速度を重視するなら正則化画像を使わないという選択肢もある

透明のPNGを正則化画像にする

透明正則化は効果を確認できないため、やる必要性はない。ただの都市伝説。
Web UI に拡張機能 Generate-TransparentIMG をインストールする
https://github.com/hunyaramoke/Generate-Transparen...
Generate TransparentIMG タブで、「出力フォルダ」には正則化画像の保存先を、「number_of_generation」には作成する枚数を入力して実行

画像

学習の手順 sd-scripts (直接指定)の場合

以下は一例(OptimizerにAdamW8bitを使った場合の例)
venvをactivate して

.\venv\Scripts\activate

accelerate launch の行を入力して実行
※長いので改行しているが、改行を取って全てを1行で書く事！
もしくは行末に ^ 記号を付けると ^直後の改行が無視され、複数行に分けたまま入力できる

accelerate launch --num_cpu_threads_per_process 1 train_network.py 
 --pretrained_model_name_or_path=D:\stable-diffusion-webui\models\Stable-diffusion\model.safetensors 
 --train_data_dir=D:\sd-scripts\training 
 --output_dir=D:\sd-scripts\outputs 
 --reg_data_dir=D:\sd-scripts\seisoku 
 --resolution=512,512 
 --save_model_as=safetensors 
 --clip_skip=2 --seed=42 
 --color_aug 
 --min_bucket_reso=320 
 --max_bucket_reso=1024 
 --lr_scheduler=cosine_with_restarts 
 --lr_warmup_steps=500 
 --keep_tokens=1 
 --shuffle_caption 
 --enable_bucket 
 --mixed_precision=fp16 
 --xformers 
 --lr_scheduler_num_cycles=4 
 --caption_extension=.txt 
 --persistent_data_loader_workers 
 --bucket_no_upscale 
 --caption_dropout_rate=0.05 
 --optimizer_type=AdamW8bit 
 --learning_rate=1e-4 
 --network_module=networks.lora 
 --network_dim=128 
 --network_alpha=64 
 --max_train_epochs=10 
 --save_every_n_epochs=1 
 --train_batch_size=2

メモ帳などにコピペして
必要部分を書き換えて
最後に改行を取って1行にして
ターミナル(Powershell等)に貼り付けて
実行
メモ帳で保存しておけば次回からコピペで使い回せる

備考

.txt拡張子のタグファイルを読ませる

"--caption_extension=.txt"の引数を追加して明示的に指定しないとタグファイル(.txt)を読みにいかない仕様があるっぽい。wd tagger等でタグ付けした.txt拡張子のタグファイルがを読ませたい場合、必ずaccelerate launch～のコマンドに次の引数を追加しておこう

--caption_extension=.txt

なお学習したLoRAがタグファイルを読んでいるかは、Aditional network拡張機能をWEBUIにインストールして、Trainning infoのトグルを開いてタグリストの有無で判別できる。
詳しくはLoRAのメタデータの閲覧/編集の欄を参照

'Triton'エラー

学習開始時に次のメッセージが出ても気にしなくていい。なくても問題なし。そもそもTritonはWindowsに対応してない。

A matching Triton is not available, some optimizations will not be enabled.
Error caught was: No module named 'Triton'

学習の手順 LoRA_Easy_Training_Scriptsの場合

ポップアップ版を使う場合

run_popup.batを実行
ポップアップにパラメーターを順次入力する
出来上がりを待つ

LoRA_Easy_Training_Scripts ポップアップ版の手順画像参考程度 (2023-04-02時点)

クリックして展開アップデートなどで内容は変わる
わからんパラメータが出たらcancelを押しとけばデフォルト値が入る。
英語がわからんときはスクリーンショット撮ってスレで聞いてクレメンス。動かしとるやつなら誰かわかるやろ。

ターミナルとかパワーシェルにコマンドを打つか、run_popup.batから実行する

設定ファイル関係

設定ファイルをまとめて読み込んでバッチ処理しますか？「いいえ」
(あらかじめ作っておいた)設定ファイルを読み込みますか？「いいえ」
設定ファイルを保存しますか？「はい」
設定ファイルの保存場所を選んでください
設定ファイルの名前をつけてください
設定ファイルの保存だけして学習はしないですか「いいえ」

入力

学習元のモデルを選んでください

学習用画像のフォルダを選んでください

数字_名前フォルダが見えるように

出力

出力先のフォルダを選んでください
出力モデルに名前をつけますか？「はい」
出力モデルに名前をつけてください

タグ、キャプション

学習用画像のタグを全部まとめたファイルを出力しますか？「はい」
タグを並べ替えをどうしますか？そのまま「occurrence-ly」

学習モデル別微調整

Stable Diffusion V2のモデルで学習する? 「いいえ」
実写(っぽい)モデルで学習する? 実写風モデルなら「はい」アニメ風モデルなら「いいえ」

正則化画像

正則化画像を使いますか？使わないときは「いいえ」
正則化画像のあるフォルダを選んでください

数字_名前フォルダが見えるように

optimizer

どのオプティマイザーを使いますか？デフォルトはAdamW8bit 詳しくは作者README

LoRA設定各自いじって

network dim 次元数: デフォルト値は32
network alpha アルファ: dimの半分がデフォルト値

LoRAタイプ LoRA,LoCon,LoHa から選ぶ

LoCon設定各自いじって (編注:なんかおかしい気がするがよくわからん)

LoConの次元数: デフォルト値はnetwork dimと同じ
LoConのアルファ: デフォルト値はLoCon dim と同じ

学習率の設定

学習率(Learning Rate): 1e-4 (= 0.0001)くらいで。alphaを1にした場合dimの分学習率が割られるらしいので上げ目にする
U-Netの学習率:よくわからんときはキャンセルで。
テキストエンコーダの学習率:よくわからんときはキャンセルで。学習率の50分の1くらいがいいって言うとる海外ニキもおる

学習率について具体的な例は参考資料・スレ住民による学習ガイド

スケジューラ

どのスケジューラを使いますか？学習率を途中で上げ下げするやり方。詳しくはぐぐって。

cosine with restartの回数を決めてください

学習の解像度

解像度をいくつにしますか？デフォルトは512
512が速い, 768ならRTX3060やColabで10000ステップ4~5時間コース。cache_latentsを使えばもっと早い。

この後横の解像度も聞かれる。キャンセルを押せば正方形になる

バッチサイズ:一度に何枚処理するか VRAM12Gなら4～6くらいいける(解像度512の場合)で、動かんかったら1で

ステップとエポック

ステップ数の計算をエポック単位にしますか？
何エポック学習させますか？: 1エポックは繰り返し回数(フォルダの先頭の数字)×学習用画像の枚数ステップ

学習中エポックごとにloraを保存しますか？
何エポックごとに保存しますか？

warmup ratio を使いますか？使う場合の比率を決めてください: 学習の最初だけ学習率をあげる機能

シャッフルキャプションの設定

キャプションをシャッフルしますか？:「はい」
キャプションの最初のトークンを保持する？「はい」
キャプションを付けた場合フォルダ名のインスタンスプロンプトが無効になる
のでキャプションファイルの先頭にインスタンスプロンプトを自分で書く必要がある。
作者のnoteによると「数値を指定するとキャプションの先頭から、指定した数だけのトークン（カンマ区切りの文字列）をシャッフルせず固定します。」
キャプションの先頭からカンマ区切りで判定されるので「zkz, 1girl, condom, ass, solo, black panties, one side up,」なら1でおk

U-netとテキストエンコーダのどれを学習しますか？普通は「both」

学習画像を左右反転して2倍に水増ししますか？髪の毛の分け目とかオッドアイが逆になってもいいなら「はい」

メタデータを埋め込みますか？ Addtional Networksで読めるメモを書いてもいい

画像の拡大をやめますか？小さな画像を無理やり拡大してガビガビにならんようにする

mixed precision

fp16で。 RTX3000以降ならbf16を使うとNaNsエラーが出にくくなるらしい。

cacha latent と random crop

cacha latentは学習前に画像をキャッシュして速くする方法
random cropは自動的にランダムに学習用画像を切り抜きすることで少ない画像でも効果が上がるかもしれない方法
どちらか片方しか使えないのでここで選ぶ

min SNR gamma training を使いますか？新機能よくわからん

テストイメージ

dreamboothとかでできてた学習の様子を画像で出すやつ

txtファイルにプロンプトを1行で書いて用意しておく必要がある
プロンプト --n ネガティブプロンプト --w 768 --h 768 --d 1 --l 7.5 --s 28
など
デフォルトでは200stepごとに1枚生成

学習の様子縦横の比率は自動で振り分けしてくれる

出来上がり

last.safetensors というファイルができる
追加学習するときはこのファイルを指定する

動画(2023-03-04) すぐにアプデで役に立たなくなるが一応 2時間でゴミになりました。
わからんパラメータはキャンセルでデフォルト値が入る

研究心旺盛ニキはコマンドラインの訳を読むとええで lora_train_command_line.py

コマンドライン版を使う場合

ArgsList.pyにパラメーターを書く

※2023/02/24版から設定ファイルがlora_train_command_line.pyからArgsList.pyに変更されているので注意
設定を書き込むのはArgsList.pyの最初の方あたり。学習ベースになるモデル、学習素材フォルダの場所、出力先は必ず設定する。わからんところはそのままにしとく。
記法は以下を参考に、文字列(str)は r"c:\hogehoge"　のように入力、数値(float,int)はそのまま数値を入力、Falseとなっている部分はTrueで有効になる。
以下ArgsList.pyの日本語訳

sd-scriptsに追加して使うEasy Training Scriptsの ArgsList.py の雑な日本語コメント入りバージョン
注）2024/02/24版から、設定は lora_train_command_line.py から ArgsList.py に変更されています。

以下、設定に必要な箇所(13行目から186行目)のみ記載（2023.03.29現在Ver）
設定箇所は

self.base_model: str =

から

self.locon: bool =

まで

class ArgStore:
    def __init__(self):
        # パス引数はr""を使って設定するようにしてください。そうすれば\\が不要になります。
        self.base_model: str = r""    # 学習元ベースモデルのパスを指定します。例： r"E:\sd\stable-diffusion-webui\models\Stable-diffusion\nai.ckpt"
        self.img_folder: str = r""    # 学習させる素材画像フォルダの場所を指定します。こちらを参照: https://rentry.org/2chAI_LoRA_Dreambooth_guide_english#for-kohyas-script
        self.output_folder: str = r"" # 出力先のフォルダをここで設定します。学習途中のやつも最終結果もここに出す
        self.save_json_folder: Union[str, None] = None   # 設定の json フォルダーをここで設定した場所に保存します。
        self.save_json_name: Union[str, None] = None
        self.load_json_path: Union[str, None] = None   # json ファイルをロードすると、構成が一致するように部分的に変更されます。
        self.multi_run_folder: Union[str, None] = None # スクリプトによって生成された json を含むフォルダーに設定すると、それらのスクリプトを使用してトレーニングが開始されます
        self.reg_img_folder: Union[str, None] = None   # 正則化画像のフォルダの場所を指定します。
        self.sample_prompts: Union[str, None] = None # すべてのサンプルプロンプトを含むTXTファイルへのパス、
                                                     # 1 行に 1 つ。75トークンにのみ行き、残りをカットします。プロンプトを行ごとにtxtファイルに配置するだけです
                                                     # そしてそれはそれらのプロンプトを使用して生成します
        self.change_output_name: Union[str, None] = None # 作成された出力ファイル名を指定します。
        self.json_load_skip_list: Union[list[str], None] = None  # オプションです。ユーザーがJSONを読み込むときにスキップするものを定義できます
                                                                 # 重要：デフォルトではすべてを読み込みますが
                                                                 # スキップするものは次のように指定します
                                                                 # [“base_model”, “img_folder”, “output_folder”]
        self.training_comment: Union[str, None] = None  # オプションです。アクティベーショントークンなどを入れるのに便利です。
        self.save_json_only: bool = False  # トレーニングをしたくない場合や、JSONを生成したいだけの場合は
                                           # Trueに設定します。
        self.tag_occurrence_txt_file: bool = True  # オプションです。データセット内のすべてのタグの出現回数を記録した
                                                   # テキストファイルを作成します
                                                   # 出力チェックポイントと同じフォルダに自動的に出力されます
        self.sort_tag_occurrence_alphabetically: bool = False  # オプションです。
                                                               # tag_occurrence_txt_fileがtrueの場合にのみ適用されます
                                                               # 出力を出現順ではなくアルファベット順に変更します

        # オプティマイザー引数
        self.optimizer_type: str = "AdamW8bit"  # 選択肢は AdamW, AdamW8bit, Lion, SGDNesterov,
                                                # SGDNesterov8bit, DAdaptation, AdaFactor です

        # ここでweight_decayなどのオプションを追加できます
        # ここで設定された値は、AdamWやAdamW8bitを使用する場合のデフォルト値です
        self.optimizer_args: Union[dict[str:str], None] = {"weight_decay": "0.1",
                                                           "betas": "0.9,0.99"}  # オプティマイザーに使用できるオプション要素のリストです

        # スケジューラー引数
        # スケジューラーのリスト: linear, cosine, cosine_with_restarts, polynomial, constant, constant_with_warmup
        self.scheduler: str = "cosine"
        self.cosine_restarts: Union[int, None] = 1  # オプションです。再起動する回数を表します。
                                                    # cosine_with_restartsを使用する場合にのみ関係します
        self.scheduler_power: Union[float, None] = 1  # オプションです。多項式の次数を表します。
                                                      # polynomialを使用する場合にのみ関係します
        self.lr_scheduler_type: Union[str, None] = None  # カスタムスケジューラーを指定するための変数
        self.lr_scheduler_args: Union[dict[str:str], None] = None  # カスタムスケジューラーに付随する引数

        # 学習率引数
        self.learning_rate: Union[float, None] = 1e-4  # AdamWはこれを必要としませんが、他のオプティマイザーは必要とする場合があります。
        self.unet_lr: Union[float, None] = None  # オプションです。unet用に特定のlrを設定します。
                                                 #これはAdamW内のベースlrを上書きします。
        self.text_encoder_lr: Union[float, None] = None  # オプションです。テキストエンコーダー用に特定のlrを設定します。 
                                                         # これはAdamW内のベースlrを上書きします。
        self.warmup_lr_ratio: Union[float, None] = None  # オプションです。与えられた比率に基づいてウォームアップステップ数を計算します。
                                                         # constant_with_warmup を使用する場合は必ず設定してください。
                                                         # Noneで無視できます。
        self.unet_only: bool = False  # オプションです。unetだけをトレーニングするように設定します。

        # 一般的な必須の引数
        self.net_dim: int = 32  # ネットワークdim、32がデフォルトですが、高い次元でトレーニングする人もいます。
        self.alpha: float = 16  # トレーニング時のスカラーを表します。デフォルトはdim の半分です。
                                # 古い方法でトレーニングしたい場合は、これをdimと同じに設定してください。
        self.train_resolution: int = 512
        self.height_resolution: Union[int, None] = None  # 非スクエアな解像度でトレーニングしたい場合用
        self.batch_size: int = 1  # 一度に処理される画像数であり、VRAMや解像度と直接比例します。
                                  # VRAMが12GBで解像度が512ピクセルの場合
                                  # 最大6バッチサイズまで可能です。
        self.clip_skip: int = 2  # アニメベースのモデルでトレーニングしている場合は、
                                 # ほとんどのモデルがそのように設計されているので、これを2にしてください
        self.test_seed: int = 23  # これは「再現可能なシード」ですが、基本的にはシードをこれに設定すると、
                                  # トレーニング画像の一つからプロンプトを入力して
                                  # 近い表現を得ることができるはずです
        self.mixed_precision: str = "fp16"  # bf16を使える能力があれば、それを使ってください。それがより良いです
        self.save_precision: str = "fp16"   # bf16で保存することもできますが、普遍的にサポートされていないので、
                                            # fp16で保存し続けることをお勧めします

        # ネットワーク引数
        self.lyco: bool = False  # 新しいloconアーキテクチャを使いたい場合にオンにする

        # 有効な引数は、使用するモードによって若干異なります。
        # もしあなたが新しいlycoセットアップを使っているなら、conv_dim, conv_alpha, dropout, algoにアクセスできます。
        # ドロップアウトは今のところloconのみですが、これを設定することで何かが壊れるということはないと思っています。
        # algoはlora（loconのこと）かloha（リリースされたばかりの新しいalgo）のどちらかです。
        # もしそうでなければ、Kohyaが実装しているように、conv_dimとconv_alphaにアクセスすることができます。
        self.network_args: Union[dict[str:str], None] = None

        # ステップ引数
        self.num_epochs: int = 1  # エポック数ですが、max_stepsを設定するとこの値は無視されます。
                                  # ステップ数は計算されません。
        self.save_every_n_epochs: Union[int, None] = None  # オプションです。エポックごとにどのくらい頻繁に保存するか。Noneなら無視します。
        self.save_n_epoch_ratio: Union[int, None] = None   # オプションです。保存するエポック数。可能な限り均等に分割したエポックを保存しようとします。
                                                           # save_every_n_epochsより優先されます
        self.save_last_n_epochs: Union[int, None] = None  #  最後のnエポックだけ保存する。上記の2つで上書きされます。
        self.max_steps: Union[int, None] = None  # オプションです。特定のステップ数を指定したい場合は、直接設定することができます。
                                                 # Noneなら無視します

        # サンプル引数
        # 選択するサンプラーのリスト:
        # 'ddim', 'pndm', 'lms', 'euler', 'euler_a', 'heun', 'dpm_2', 'dpm_2_a', 'dpmsolver', 'dpmsolver++',
        # 'dpmsingle', 'k_lms', 'k_euler', 'k_euler_a', 'k_dpm_2', 'k_dpm_2_a'
        self.sample_sampler: Union[str, None] = None  # トレーニング中に画像を生成するために使用するサンプラー、
                                                      # デフォルトは ddim です。
        self.sample_every_n_steps: Union[int, None] = None   # nステップごとにトレーニングしながらサンプル画像を生成する
        self.sample_every_n_epochs: Union[int, None] = None  # nエポックごとにトレーニングしながらサンプル画像を生成する,
                                                             # ステップを上書きします

        # バケット引数
        self.buckets: bool = True
        self.min_bucket_resolution: int = 320
        self.max_bucket_resolution: int = 960
        self.bucket_reso_steps: Union[int, None] = None  # バケット作成時に取られるステップ数です。
                                                         # 1以上の任意の正の値になります。
        self.bucket_no_upscale: bool = False  # バケット内の画像のアップスケーリングを無効化します。

        # タグ引数
        self.shuffle_captions: bool = False  # オプションです。Falseなら無視します。
        self.keep_tokens: Union[int, None] = None  # オプションです。Noneなら無視します。
        self.token_warmup_step: Union[float, None] = None  # オプションです。前段階のステップ数です。
                                                           # すべてのトークンがトレーニングに使われます
        self.token_warmup_min: Union[int, None] = None  # オプションです。タグウォームアップで使用される最小のトークン量です。

        # 他にも役に立つ引数
        self.xformers: bool = True
        self.cache_latents: bool = True
        self.flip_aug: bool = False
        self.v2: bool = False  #  SD2.1のトレーニングをセットアップします
        self.v_parameterization: bool = False  # v2も設定されていて、v2の768xバージョンを使っている場合にのみ使用されます。
        self.gradient_checkpointing: bool = False  # オプション：勾配チェックポイントを有効化します。
        self.gradient_acc_steps: Union[int, None] = None  # オプション：これが正確に何を意味するのかわかりません。
        self.noise_offset: Union[float, None] = None  # オプション：SDがより良い黒と白を生成できるようにするのに役立つようです
                                                      # Kohyaは、設定している場合は0.1を使うことをお勧めしますが、どれくらい
                                                      # 高い値にできるのかはわかりません。最大値は1だと仮定します。
                                                      # ノイズオフセットを使った2つのLoRAでは出力にベーキングが発生する原因となります。
        self.mem_eff_attn: bool = False

        # 実用的ではない無意味な引数
        self.lora_model_for_resume: Union[str, None] = None  # LoRAは十分に速くトレーニングできるので、これは必要ありません。
        self.save_state: bool = False  # LoRAは十分に速くトレーニングできるので、これは必要ありません。
        self.resume: Union[str, None] = None
        self.text_only: bool = False  # これを使った人を見たことがありません。unet_onlyは少し使われていますが。
        self.vae: Union[str, None] = None  # 出力を台無しにすることが多いので、使用しないでください。
        self.log_dir: Union[str, None] = None  # 出力を台無しにすることが多いので、使用しないでください。
        self.log_prefix: Union[str, None] = None  # ログ出力にプレフィックスを追加して見つけやすくします。
        self.tokenizer_cache_dir: Union[str, None] = None  # Doesn't seem to help in a majority of cases
        self.dataset_config: Union[str, None] = None  # 私はまだjsonをtomlに変換するシステムを実装していません。
                                                      # 確実に作成し、既存のjsonファイルから変換できるようになったら、tomlをデフォルトにします
        self.lowram: bool = False  # colabを使っている人向けに作られたもので、私のスクリプトでは使いません。
        self.no_meta: bool = False  # データ保存にとって有害です。
        self.color_aug: bool = False   # cache latents をオフにする必要があります。
        self.random_crop: bool = False # cache latents をオフにする必要があります。
        self.use_8bit_adam: bool = False  # 廃止されました。
        self.use_lion: bool = False       # 廃止されました。
        self.caption_dropout_rate: Union[float, None] = None  # 使われていません。
        self.caption_dropout_every_n_epochs: Union[int, None] = None  # 使われていません。
        self.caption_tag_dropout_rate: Union[float, None] = None  # 使われていません。
        self.prior_loss_weight: float = 1  # この値は 1 のままにする必要があります。
        self.max_grad_norm: float = 1  # この値は 1 のままにする必要があります。
        self.save_as: str = "safetensors"  # この値は safetensors のままにする必要があります。
        self.caption_extension: str = ".txt"  #.caption ファイルを使う理由がない限り、この値は .txt のままにする必要があります。
        self.max_clip_token_length: Union[int, None] = 150  # txt ファイル内のプロンプトがこの値を超えることはほとんどないでしょう。
        self.save_last_n_epochs_state: Union[int, None] = None  #  役に立つと思われる場面はありません。
        self.num_workers: int = 1  # イメージをロードするためのスレッド数です。
                                   # 低くするとエポックの開始が速くなりますが、データのロードが遅くなります。
                                   # ここでは、この値を減らすと訓練時間も増えると仮定しています。
        self.persistent_workers: bool = True  # スレッドを永続的にします。これにより、エポック間のラグも減少/消滅します。
                                              # ただし、メモリ使用量も増える可能性があります
        self.face_crop_aug_range: Union[str, None] = None
        self.network_module: str = 'sd_scripts.networks.lora'
        self.locon_dim: Union[int, None] = None  # 廃止されました
        self.locon_alpha: Union[int, None] = None  # 廃止されました
        self.locon: bool = False  # 廃止されました

run_command_line.batを実行
出来上がりを待つ

オプティマイザー

Adafactor

完全自動Optimizer。AdamWより計算も収束も遅い。はっきり言ってLoRAでは使う価値はない。LoRAよりFinetuningなどの大規模学習に向いている。
Adなんとかを使って学習してみたらなんも学習してないのができて悲しかったので、スレでマークしておいたものを記録しておきます。クリックして展開

2023/02/22あたりのAdafactorの話題メモ

LoRAの種類とLyCORISについて

LyCORISについて
https://github.com/KohakuBlueleaf/LyCORIS
LoRAの新しい学習手法をまとめたリポジトリ。通常のLoRAより性能がいいかもしれない。計算速度(it/s)は遅い。
もともとLoConのみだったが、のちに新しいアルゴリズムも追加されLyCORISに統合された。

LyCORIS のインストールと使用方法

sd-scriptsのvenvで

pip install lycoris_lora

でインストールすることで使用可能。
学習時に使用するにはnetwork_moduleに lycoris.kohya を指定する。

python3 sd-scripts/train_network.py 
  --network_module lycoris.kohya 
  --network_dim ○○ --network_alpha ○○
  --network_args "conv_dim=○○" "conv_alpha=○○" "dropout=○○" "algo=lora"

注：1行で入力する事

○○は数値を入力
指定の例

--network_module lycoris.kohya 
--network_dim 64 --network_alpha 32
--network_args "conv_dim=64" "conv_alpha=32" "dropout=0.05" "algo=lora"

生成で使用するには1111のExtensionにa1111-sd-webui-locon、又はa1111-sd-webui-lycorisのインストールが必要。
標準のExtra Networksおよびkohya-ss氏作成のsd-webui-addtional-networksで使用できる。

LoRAの種類

LoRAはその種類によって、次のように分けられる

NO	LoRAの種類	LoRAの名称	使用ネットワークモジュール (network_module)	使用パラメータ (network_args)	モデルマージ	備考
①	LoRA	LierLa/リエラ (kohya版LoRA)	networks.lora	(なし)	可 kohya版マージスクリプト使用	狭義の意味でのLoRAでこれが大元
②	LoCon	旧版LoCon	locon.locon_kohya	network_args 'conv_dim=XXX' 'conv_alpha=XXX'	可 LyCORIS版マージスクリプト使用	LierLaを拡張した元祖LoCon LyCORISになる前にリリースされた物
③		C3Lier/セリア (kohya版LoCon)	networks.lora	network_args 'conv_dim=XXX' 'conv_alpha=XXX'	可 kohya版マージスクリプト使用	kohya版LoCon
④		LyCORIS版LoCon	lycoris.kohya	network_args 'conv_dim=XXX' 'conv_alpha=XXX' 'algo=lora' 又は network_args 'conv_dim=XXX' 'conv_alpha=XXX' 'algo=locon'	可 LyCORIS版マージスクリプト使用 'disable_conv_cp=True' で作成したものはマージ不可	LyCORIS版LoCon
⑤	その他LyCORIS	LoHa	lycoris.kohya	network_args 'conv_dim=XXX' 'conv_alpha=XXX' 'algo=loha'	可 LyCORIS版マージスクリプト使用	容量を小さく出来る
⑥		(IA)^3	lycoris.kohya	network_args 'conv_dim=XXX' 'conv_alpha=XXX' 'algo=ia3'	可 LyCORIS版マージスクリプト使用
⑦		LoKR	lycoris.kohya	network_args 'conv_dim=XXX' 'conv_alpha=XXX' 'algo=lokr'	可 LyCORIS版マージスクリプト使用
⑧		DyLoRA	lycoris.kohya	network_args 'conv_dim=XXX' 'conv_alpha=XXX' 'algo=dylora'

画像生成する時の指定方法や使用extensions

🎴指定(プロンプト指定)	必要extensions	対応LoRA	TEnc/UNet等の個別パラメータ指定	階層LoRA	標準のファイル設定フォルダ (変更は可能)	備考
<lora:>	(無し)	LoRA(①) LoCon(②,③,④) LyCORIS(⑤,⑥,⑦,⑧)	不可(一括の強度指定のみ)	可	models\LoRA	1111標準機能を使用 v1.5.0以降でLyCORISにも対応
<lyco:>	a1111-sd-webui-lycoris	LoRA(①) LoCon(②,③,④) LyCORIS(⑤,⑥,⑦,⑧)	可	可 (指定の仕方に注意)	models\LyCORIS	v1.5.0から標準機能で生成出来るため、基本的に使う必要が無くなった a1111-sd-webui-loconの機能更新版でLyCORISの全アルゴリズムに対応 🎴ボタンにLyCORISタブが新たに出来、<lora:>と同じように自動入力出来るフォルダ位置に注意
プロンプト指定なし	Additional Networks	LoRA(①) LoCon(②,③,④)	可	不可	extensions\sd-webui-additional-networks\models\lora	プロンプト入力ではなく拡張タブで指定

階層LoRAの指定の方法

v1.5.0以降では指定の仕方が変わっているので注意
LoRAの場合でも lbw= を指定するようになった

種類	指定例(IN02を指定する場合)		解説
<lora:>		<lora:"lora name":1:1:lbw=IN02>	"lora name"の後に　TEnc:UNet の強度を指定してから　lbw=　で階層指定
<lyco:>	DyLORAの場合	<lyco:"lora name":1:1:1:lbw=IN02>	"lora name"の後に　TEnc:UNet:Dyn　の強度を指定してから　lbw=　で階層指定
<lyco:>	DyLORA以外	<lyco:"lora name":1:1:lbw=IN02>	"lora name"の後に　TEnc:UNet　の強度を指定してから　lbw=　で階層指定省略したDynはデフォルト値としてNoneが内部セットされる

<lora:>と<lyco:>の使い分けについて

v1.5.0以降では、lycorisプラグインが不要になり、1111の内蔵のLoRAで生成が出来る用になった。
その為 a1111-sd-webui-lycoris を導入する必要はなく、<lyco:>を使う必要も無くなった

LoRA層別学習

U-Netの階層別に学習率やDim/Alphaを指定できるようになった。
特定の層のLRを下げたり削除することで画風への影響を減らしたりできる。

コピー機LoRA学習法

過学習させたLoRAをあれこれすることで、目を大きくしたり、アウトラインを太くしたりと非常に細かい部分のみを変更できるLoRAが作成できる手法。
正確な名称はない。複雑な工程があるため長い間謎に包まれていたが読解してくれたニキがいたので掲載↓

649: 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった2023/05/04(木) https://fate.5ch.net/test/read.cgi/liveuranus/1683...

>318

flat式のLora作成工程ってこんな感じであってる？
1：元モデルAで出力画像Bを出す
2：元モデルAに出力画像Bを1枚だけ過学習させて過学習LoraCを作る
3：元モデルAに過学習LoraCをマージしてコピー機モデルDを作る(プロンプト未入力だと出力画像Bしか生成されないモデル)
4：出力画像Bを加工して加工画像Eを作る(この加工部分が完成品LoraHに反映される)
5：コピー機モデルDに加工画像Eを学習させて加工LoraFを作る
6：2から5の工程を別の出力画像Bで行い加工LoraFを複数作る
7：元モデルAに複数の加工LoraFをマージさせて加工モデルGを作る(flatでは彩度明度上げる用のLoraも配合を調整してマージ)
8：元モデルAと加工モデルGでモデル差分からLora作成して完成品LoraHができる(dimの調整はここで行う)

▼Tips
1：元モデルAで出力画像Bを出す(加工画像Eとの差分がはっきりするように加工するとよい、レイヤー分けすれば加工画像Eも作りやすくなる)

▼加工画像サンプル
フラット化LoRAの場合。
←加工前｜加工後→
出典：https://fate.5ch.net/test/read.cgi/liveuranus/1683...

その他にどのようなLoRAが作れるかは https://huggingface.co/2vXpSwA7/iroiro-lora/tree/m... をみると良い

コピー機学習法はこちらも参考になる。
https://rentry.co/kopiki_lora

Loraの使用方法

使い方その1とその2で、配置するフォルダが違うので注意！

使い方その1 WebUIに拡張機能をインストールして使う

「拡張機能」タブの「URLからインストール」に https://github.com/kohya-ss/sd-webui-additional-ne... を入力してインストール )

stable-diffusion-webui\extensions\sd-webui-additional-networks\models\lora フォルダに出来上がった .pt や .safetensorsをコピーする
(Web UI の「設定」> 「Additional Nerwork」タブでフォルダの場所を追加出来る)
「txt2img」や「img2img」の画面の左下の方に「Additional Networks ▼」が追加されているので
Enable を押してmodelを選びmerge倍率をweightのスライダーで調整する

わからんとき用画像

使い方その2 WebUIの本体機能のみで使う

stable-diffusion-webui\models\lora に拾った .pt や .safetensorsをコピーする

「txt2img」や「img2img」の「生成」ボタンの下の花札みたいなマーク(🎴)を押すと
Texutual Inversion, Hypernetworks, Lora の3つのタブが出るので Lora を選択して
一覧から選ぶと <lora:ファイル名:倍率>みたいなタグがプロンプトに追加される
むかーしに作られたloraは動かんことがある

わからんとき用画像

画像にマウスオーバーして出る(i)をクリックするとloraの作成パラメータや使われたタグが表示される(埋め込んであれば)
WebUIや拡張機能の更新で調子悪くてもどっちかでは動くはず

LoRAのメタデータの閲覧/編集

WebUIのExtra Networks > Lora タブで画像にマウスオーバーして出る(i)をクリックするとloraの作成パラメータや使われたタグが表示される(埋め込んであれば)
Additional-networks拡張機能をインストールすると増えるタブ(Additional-networks)からメタデータ編集とかトレーニングデータとか見れる

メタデータの閲覧(Additionak Networks Extension)

タブ(Additional-networks)に移動する
Model path filterに探したいLoRAの名前を入れてフィルタリングしておく
Model から該当するLoRAを選ぶと情報が読み込まれます

図1：UIのサンプル

図2：トレーニングデータのサンプル。最新のsd-scriptsで学習されたLoRAは、Taggerで付けられたタグとそのタグがどれぐらい含まれているかがグラフで閲覧できるようです。
インターネッツの奥底で入手したりいつダウンロードしたか忘れた謎のLoRAもこれでタグを確認してプロンプトに入れれば使えるかもしれない。便利。

メタデータの編集

編集したいLoRAを読み込んだうえで、まんなかの下のほうにある「Editing Enabled」にチェックを入れる
メタデータを編集する。
とりあえずKeyword欄にトリガープロンプト、Descriptionに雑多な説明文、CoverImageにサムネ用画像を設定しておくと良いかと思う
「Save Metadata」でLoRAが保存されます。ちなみに編集前のものは「○○.safetensors.backup」で保存しておいてくれるようです。

なおLoRAはテキストエディタでふつうに開くことができ、トレーニングの設定等(network_dim":"16"とか) も一応確認することができます。
ただ仕様見る限りDescription等を直で編集するのはむずかしそうなので、GUIから設定するのが無難っぽいです。

LECO(Low-rank adaptation for Erasing COncepts)

https://github.com/p1atdev/LECO

プロンプトから特定の概念を消したり強くしたりできる。
例えば、mikoが原神のyae mikoに汚染されているのを取り除くといったことができる。

注意

学習時の精度のbfloat16はNVIDIAのAmpere世代(RTX30)以降のGPUのみ使用可能。それ以外のGPUではfloat32推奨。

メモ / Tips

途中から学習を再開したい

コマンドに以下の引数とパスを指定すれば学習前に学習済みのLoRAの重みを読み込み、そこから追加で学習できます。

--network_weights=

メモ

初めてのLoRA学習素材準備
枚数10～20　成功するまでそれでいい
エポック　もう5でいいや
ステップ　500以上にするな　成功するまで回転は速く
サイズ　2048x2048以上とかでなければそのまま放り込め
キャプション/タグ　編集無しでも何かしら覚えるまず回せ
正則化→なしでやれ　失敗の原因は多分そこじゃない
学習元と出力モデルは揃えろ

スペックに関するTips

VRAM8GBでは512x512、Batch size2は余裕で動く。
gradient_checkpointingを有効にすればVRAM8GBで1024x1024もできる。
瞬間的に物理メモリを20GB消費するので16GB以上あったほうが安心。
仮想メモリはtorchバージョンやmax_data_loader_n_workersの値によるが、20-60GB消費する。

注意点やで

基本的にLoraは元々「DreamBoothみたいに学習した差分ファイルをモデルにマージするための差分パッチみたいなもんとして使う」事が前提で作られとるから、今の個別適用は元々の設計と違う使い方なんや、なんで色々制限事項がある。
- Loraは原則「作ったモデルと同じ系統(SD-v1.x系 or SD-v2.x)」でしか適用できへんで。要するにAnyとかで作ったLoraはWD1.4以降とかには使われへんし、その逆もしかりや。
  - よく似た使い方するHyperNetworkは系統またいでも一応反映はされとるみたいやで？しらんけど。
  - Extra Netrowksで間違えてSD1.x用のLoRAをSD2.xで使うとWebUIを再起動するまでエラーで二度と使えなくなるから注意やで
- また、Loraを複数1倍で重ねて使うと絵が崩壊しやすくなる。適用したい階層が違う場合、階層適用出来るエクステンションとかでずらしたらええんとちゃうかな？しらんけど。
- 先にも書いた通り基本的に差分パッチみたいなもんやからモデルごとに最適な倍率はちゃうかったりするで。あっちのモデルでは1倍でちょうどよかったんがこっちのモデルでは絵が崩壊するとかも普通にあるで。倍率は適度に変えや。
- 基本的に配布されとるんはkohya氏による拡張版Loraやけど元々の実装版のLoraもDreamBoothエクステンションとかで作れたりするから作った際にはごっちゃにせんようにな？
  - 拡張機能の方はkohya氏による拡張版Loraのみが対応や。本体機能の方は元々の実装版でも行けるんとちゃうかな？しらんけど。

このページを編集するこのページを元に新規ページを作成

印刷する

コメント（91）

カテゴリ：
漫画/アニメ
総合

Dreambooth-LoRA - NovelAI 5ch Wiki 先頭へ

このページへのコメント

SDXL(pony)でLoRA学習始めようとしている赤ちゃんですが、性質上ほぼ縦長になるものです。縦長LoRA作りたい場合はどうするのが良いとかありますでしょうか。
具体的には
学習画像：　縦長のまま入れる or 左右に白帯入れて正方形にする or 上下分割して正方形2ファイルにする
学習設定：　1024pxのまま or 白帯いれてるなら1216pxぐらいにする or アス比調整できるツール使う（使おうとしているこのスレのTrainingGUIアス比指定できない？）

Posted by 名無し(ID:/MlVTEOW7A) 2024年04月27日(土) 15:20:16 返信数(2) 返信

aspect ratio bucketingという画像のアスペクト比に合わせた解像度で学習する機能があるので画像そのまま学習できますよ。
引数に--enable_bucketつけると有効にできます

Posted by 名無し(ID:1NhN+40vQg) 2024年04月27日(土) 21:41:38

早急な回答ありがとう！！　無駄な検証時間が減りました！
失敗は付き物と言いますけど学習は失敗が多すぎる上に成功してるのか分かりづらい。

Posted by 名無し(ID:/MlVTEOW7A) 2024年04月27日(土) 23:50:21

だいぶ情報が古くなってきましたね
そろそろ更新しますか

Posted by 名無し(ID:TO97xkL/3Q) 2023年12月16日(土) 16:59:24 返信数(1) 返信

XLでの学習方法の解説なんかは
あると便利かも

bmaltais版 GUIだと
SDXLのプリセットの値が高すぎるんで
下げて使った方が､適度に作る分にも良い感じだし

あと過学習が起きやすいんで､
epochごとのセーブは､こまめに設定した方が良いかも

Posted by 名無し(ID:sfrkRBi+dw) 2024年01月23日(火) 15:15:24

Additional-networks拡張機能を使いたい？個々の前に説明書読め
自省を込めて

Posted by 名無し(ID:UkNtPSqMXA) 2023年11月26日(日) 06:30:40 返信

kohya方式で3~4000ステップで作るとできるのはできるんだけど、数百MBの容量になってしまいます。
civitaiに置いてあるLoRAファイル見ても一番大きくて144MBなのに……。
ググってもファイルサイズに関する情報はなかなか見当たらないんですが、
何か標準的にファイルサイズを抑える手法があるんでしょうか。

Posted by 名無し(ID:2HCfUTR0fQ) 2023年08月15日(火) 13:09:37 返信数(1) 返信

--save_precision "fp16"を指定すると容量が半減します

Posted by 名無し(ID:NC8+slIoxg) 2023年08月16日(水) 19:35:04

LoRA_Easy_Training_ScriptsのGUIがすげーGUIしててアップデートしたら。ぶったまげた。これは5月以降に大幅な更新が入ったみたい。

Posted by 名無し(ID:oxHqVNJBGQ) 2023年06月20日(火) 04:27:49 返信

コメントをかく

名前	ユーザIDを使用しないで書き込む	ユーザーIDを使う	ログインする
備考	「http://」を含む投稿は禁止されています。
本文
利用規約をご確認のうえご記入下さい

NovelAI 5ch Wiki

概要

公式情報

sd-scripts (kohya)

参考資料・スレ住民による学習ガイド

記事

インストール、初回セットアップ編

sd-scripts (作: kohya)

GUI・補助ツール

bmaltais版 GUI

Kohya_lora_param_gui (スレ住民作)

LoRA_Easy_Training_Scripts Installers

あかちゃんLoraインストーラー

AUTOMATIC1111 SD WebUI 拡張機能版 (作: ddPn08 GUI) ※更新停止

sd-webui-train-tools

その他補助スクリプト

クラウド

学習用画像を置くフォルダの配置

キャプション・タグを付ける

WD1.4 Taggerで作成

Dataset Tag Editorで作成/編集

タグ付け

キャプション・タグの編集

キャプションの付け方・考え方の参考サイト

学習用画像の加工

正則化画像

正則化画像検証 (クリックして展開)

キャプションつけて正則化画像指定以外完全同条件のLoCon使った比較

透明のPNGを正則化画像にする

学習の手順 sd-scripts (直接指定)の場合

備考

学習の手順 LoRA_Easy_Training_Scriptsの場合

ポップアップ版を使う場合

LoRA_Easy_Training_Scripts ポップアップ版の手順画像 参考程度 (2023-04-02時点)

ターミナルとかパワーシェルにコマンドを打つか、run_popup.batから実行する

設定ファイル関係

入力

出力

タグ、キャプション

学習モデル別微調整

正則化画像

optimizer

LoRA設定 各自いじって

LoCon設定 各自いじって (編注:なんかおかしい気がするがよくわからん)

学習率の設定

スケジューラ

cosine with restartの回数を決めてください

学習の解像度

バッチサイズ:一度に何枚処理するか VRAM12Gなら4～6くらいいける(解像度512の場合)で、動かんかったら1で

ステップとエポック

warmup ratio を使いますか？使う場合の比率を決めてください: 学習の最初だけ学習率をあげる機能

シャッフルキャプションの設定

U-netとテキストエンコーダのどれを学習しますか？ 普通は「both」

学習画像を左右反転して2倍に水増ししますか？ 髪の毛の分け目とかオッドアイが逆になってもいいなら「はい」

メタデータを埋め込みますか？ Addtional Networksで読めるメモを書いてもいい

画像の拡大をやめますか？ 小さな画像を無理やり拡大してガビガビにならんようにする

mixed precision

cacha latent と random crop

テストイメージ

学習の様子 縦横の比率は自動で振り分けしてくれる

出来上がり

コマンドライン版を使う場合

オプティマイザー

Adafactor

LoRAの種類とLyCORISについて

LyCORIS のインストールと使用方法

LoRAの種類

画像生成する時の指定方法や使用extensions

階層LoRAの指定の方法

<lora:>と<lyco:>の使い分けについて

LoRA層別学習

コピー機LoRA学習法

Loraの使用方法

使い方その1 WebUIに拡張機能をインストールして使う

使い方その2 WebUIの本体機能のみで使う

LoRAのメタデータの閲覧/編集

メタデータの閲覧(Additionak Networks Extension)

メタデータの編集

LECO(Low-rank adaptation for Erasing COncepts)

LoRA_Easy_Training_Scripts ポップアップ版の手順画像参考程度 (2023-04-02時点)

LoRA設定各自いじって

LoCon設定各自いじって (編注:なんかおかしい気がするがよくわからん)

U-netとテキストエンコーダのどれを学習しますか？普通は「both」

学習画像を左右反転して2倍に水増ししますか？髪の毛の分け目とかオッドアイが逆になってもいいなら「はい」

画像の拡大をやめますか？小さな画像を無理やり拡大してガビガビにならんようにする

学習の様子縦横の比率は自動で振り分けしてくれる