画像生成AIの情報を纏めるWikiです。

ハローカエル



学習ベンチマーク


accelerate launchの実行時間を測る。
Windowsだとちょっと大変。
Linuxだと頭にtimeをつければ出てくる。

バッチの時間が変だったら100%になった時の所要時間も併記してくれるといいかも・・・。
環境によるけど30秒から1分くらいの準備時間が別途かかってるはず。

厳密にレギュレーションに従うなら tag v0.4.0(サンプル用意時) で計測するのがお勧め。

結果


GPUVRAMCPUtime(秒)オプションバージョン備考編集
RTX 2070 SUPER8GBRyzen 7 5800X7m24.127s--xformers --batch_size 2 --cache_latentstorch2.1,xformers0.0.19 cache_latentsオンで低解像度で大幅に高速化
RTX 20606GBRyzen 5600X18m15.98s--xformers batch_size=2
RX 6650 XT8GBRyzen 5 5600G24m18.670smax_data_loader_n_workers=8 num_cpu_threads_per_process 12 xformers使えないのでmem_eff_attn5050971ac687dca70ba0486a583d283e8ae324e2torch: 2.0.0+rocm5.4.2 Ubuntu20.04 python3.10 VRAM節約のために画面出力はiGPU
RTX 2070 SUPER8GBRyzen 7 5800X12m16.307s--xformers batch_size=3torch2.1,xformers0.17
RX 6900 XT16GBRyzen 5950X11m32.561s--xformersなし --mem_eff_attn追加 環境変数'PYTORCH_HIP_ALLOC_CONF='garbage_collection_threshold:0.9,max_split_size_mb:512''tensorflow-rocmとbitsandbytes-rocm(本家のissue#107にリンクあり)を使用する。bitsandbytesのモジュールは自動でビルドされないので、別にクローンしてビルドし、出来たものを'venv/lib/python3.10/site-packages/bitsandbytes/'に入れる。
RTX 306012GBRyzen 3700X25m2.20s71b728d5fcfe16f4434e2bf61e75cdfb76f93e1416h25m2.20s ってテキストには書いてあった Windows11 pro
RTX 3080Ti12GBi7 11700F6m10.22s
GTX 1080Ti11GBi9 9900K27m27.76s08ae46b事前にbitsandbytesのGTX10シリーズ対応を実施済み
RTX 20708GBRyzen 1700X15m26.935sbatch_size=3 use-8bit-adamなし gradient_checkpointing08ae46bWSL2
GTX 16606GBi5 124001h17m40.38sbatch_size=1 mixed_precision=no gradient_checkpointing7c1cf7f4eaf011e3c90e163049f85bdbadb75ef2GetStartTimeラベルだけ認識されないのでサブルーチンを前に持ってきた Windows11

どなたでも編集できます

メンバー募集!