画像生成AIの情報を纏めるWikiです。

ハローカエル



学習ベンチマーク


accelerate launchの実行時間を測る。
Windowsだとちょっと大変。
Linuxだと頭にtimeをつければ出てくる。

バッチの時間が変だったら100%になった時の所要時間も併記してくれるといいかも・・・。
環境によるけど30秒から1分くらいの準備時間が別途かかってるはず。

厳密にレギュレーションに従うなら tag v0.4.0(サンプル用意時) で計測するのがお勧め。

結果


GPUVRAMCPUtime(秒)オプションバージョン備考編集
ARC A7508GBRyzen9 5900X37m8bit系オプティマイザ使えないのでAdamW、batch_size=2--xformersなし --mem_eff_attn --cache_latentssdxlブランチ1e395ed285385a17b39f3190b330220d29bde0basdxlブランチのARC対応版をWSL2で torch==2.0.1a0+cxx11.abi torchvision==0.15.2a0+cxx11.abi intel_extension_for_pytorch==2.0.110+xpu -f https://developer.intel.com/ipex-whl-stable-xpu tensorboard==2.12.3 tensorflow==2.12.0 intel-extension-for-tensorflow[gpu]をpip install
RTX 309024GBRyzen9 5950X2m38.367s--xformers --batch_size 40cfcb5a49cf813547d728101cc05edf1a9b7d06ctorch:2.0.1 xformers:0.0.20 Ubuntu:22.04 Python:3.10.6 3090を2つ使った場合 accelerate configでmulti-gpuを選択
RTX 309024GBRyzen9 5950X4m31.047s--xformers --batch_size 40cfcb5a49cf813547d728101cc05edf1a9b7d06ctorch:2.0.1 xformers:0.0.20 Ubuntu:22.04 Python:3.10.6 PyTorch1系&xformers0.0.16だとlossがnanになる
RX 6650XT8GBRyzen 5 5600G18m6.079s--sdpa --cache_latents --gradient_checkpoint export PYTORCH_HIP_ALLOC_CONF='garbage_collection_threshold:0.8,max_split_size_mb:256'449ad7502cb0f36cd8b94b2c7d98ec204af234a9torch: 2.0.1+rocm5.4.2 bitsandbytes-rocm3.7 origin/original-u-net
RX 6650XT8GBRyzen 5 5600G15m49.325s--sdpa --train_batch_size=1 --cache_latents449ad7502cb0f36cd8b94b2c7d98ec204af234a9torch:2.0.1+rocm5.4.2 bitsandbytes-rocm3.7 origin/original-u-net
RTX 2070 SUPER8GBRyzen 7 5800X7m24.127s--xformers --batch_size 2 --cache_latentstorch2.1,xformers0.0.19 cache_latentsオンで低解像度で大幅に高速化
RTX 20606GBRyzen 5600X18m15.98s--xformers batch_size=2
RX 6650 XT8GBRyzen 5 5600G24m18.670s--mem_eff_attn --max_data_loader_n_workers=8 --num_cpu_threads_per_process 125050971ac687dca70ba0486a583d283e8ae324e2torch: 2.0.0+rocm5.4.2 Ubuntu20.04 python3.10 bitsandbytes-rocm3.7 画面出力iGPU
RTX 2070 SUPER8GBRyzen 7 5800X12m16.307s--xformers batch_size=3torch2.1,xformers0.17
RX 6900 XT16GBRyzen 5950X11m32.561s--xformersなし --mem_eff_attn追加 環境変数'PYTORCH_HIP_ALLOC_CONF='garbage_collection_threshold:0.9,max_split_size_mb:512''tensorflow-rocmとbitsandbytes-rocm(本家のissue#107にリンクあり)を使用する。bitsandbytesのモジュールは自動でビルドされないので、別にクローンしてビルドし、出来たものを'venv/lib/python3.10/site-packages/bitsandbytes/'に入れる。
RTX 306012GBRyzen 3700X25m2.20s71b728d5fcfe16f4434e2bf61e75cdfb76f93e1416h25m2.20s ってテキストには書いてあった Windows11 pro
RTX 3080Ti12GBi7 11700F6m10.22s
GTX 1080Ti11GBi9 9900K27m27.76s08ae46b事前にbitsandbytesのGTX10シリーズ対応を実施済み
RTX 20708GBRyzen 1700X15m26.935sbatch_size=3 use-8bit-adamなし gradient_checkpointing08ae46bWSL2
GTX 16606GBi5 124001h17m40.38sbatch_size=1 mixed_precision=no gradient_checkpointing7c1cf7f4eaf011e3c90e163049f85bdbadb75ef2GetStartTimeラベルだけ認識されないのでサブルーチンを前に持ってきた Windows11

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Menu

Prompts

  1. 非R18詠唱全文
  1. 顔(目・口・表情)
  2. 構図
  3. 場所・背景
  4. 環境表現
  5. 特徴・年齢・体型・髪型
  6. ポーズ集
  7. 服飾
  8. 亜人・モンスター娘・人外
  9. 食品
  10. その他
  11. 画風
  12. 絵文字
  13. 色一覧
  14. 頻用ネガティブプロンプト
  15. 大量検証結果
  16. 整理用倉庫

編集中メニュー

  1. 未発見のプロンプト
  2. 旧ページ

table拡張js

どなたでも編集できます

メンバー募集!