画像生成AIの情報を纏めるWikiです。

×
ハローカエル



学習ベンチマーク


accelerate launchの実行時間を測る。
Windowsだとちょっと大変。
Linuxだと頭にtimeをつければ出てくる。

バッチの時間が変だったら100%になった時の所要時間も併記してくれるといいかも・・・。
環境によるけど30秒から1分くらいの準備時間が別途かかってるはず。

厳密にレギュレーションに従うなら tag v0.4.0(サンプル用意時) で計測するのがお勧め。

結果


GPUVRAMCPUtime(秒)steps 100% time(秒)オプションバージョン備考編集
Arc B58012GBRyzen 7 5700X473.475455--sdpa --batch_size=4 --optimizer_type=AdamW --mixed_precision=bf1652c8dec9534e9dea1226bf6e8d6ad3b1483d63aaUbuntu 24.04.2, IPEX=2.5.10, torch=2.5.0a0 #--mixed_precision=fp16だとエラー IPEX=2.6.10と速度差なし
Radeon Instinct MI6032GBRyzen 9 5900X728.79--xformersなし、--sdpa --cache_latents を追加Ubuntu24.04.1、rocm6.1.3、bitsandbytesをrocm対応版に入れ換え
RTX 409024GBi9 12900202.389191--xformers --batch_size 4b755ebd0a4dd2967171b6b5909624325359a2aa0GPU制限70%。制限なしより速くなった理由は不明。Windows、Measure-Commandコマンドによる計測。標準出力に出力されるsteps100%時点の時間は03:11(191秒)。
RTX 409024GBi9 12900205.728190--xformers --batch_size 4b755ebd0a4dd2967171b6b5909624325359a2aa0Windows、Measure-Commandコマンドによる計測。標準出力に出力されるsteps100%時点の時間は03:10(190秒)。
ARC A7508GBRyzen9 5900X22208bit系オプティマイザ使えないのでAdamW、batch_size=2--xformersなし --mem_eff_attn --cache_latentssdxlブランチ1e395ed285385a17b39f3190b330220d29bde0basdxlブランチのARC対応版をWSL2で torch==2.0.1a0+cxx11.abi torchvision==0.15.2a0+cxx11.abi intel_extension_for_pytorch==2.0.110+xpu -f https://developer.intel.com/ipex-whl-stable-xpu tensorboard==2.12.3 tensorflow==2.12.0 intel-extension-for-tensorflow[gpu]をpip install
RTX 3090 x 224GB x 2Ryzen9 5950X158.367--xformers --batch_size 40cfcb5a49cf813547d728101cc05edf1a9b7d06ctorch:2.0.1 xformers:0.0.20 Ubuntu:22.04 Python:3.10.6 3090を2つ使った場合 accelerate configでmulti-gpuを選択
RTX 309024GBRyzen9 5950X271.047--xformers --batch_size 40cfcb5a49cf813547d728101cc05edf1a9b7d06ctorch:2.0.1 xformers:0.0.20 Ubuntu:22.04 Python:3.10.6 PyTorch1系&xformers0.0.16だとlossがnanになる
RX 6650XT8GBRyzen 5 5600G1086.079--sdpa --cache_latents --gradient_checkpoint export PYTORCH_HIP_ALLOC_CONF='garbage_collection_threshold:0.8,max_split_size_mb:256'449ad7502cb0f36cd8b94b2c7d98ec204af234a9torch: 2.0.1+rocm5.4.2 bitsandbytes-rocm3.7 origin/original-u-net
RX 6650XT8GBRyzen 5 5600G949.325--sdpa --train_batch_size=1 --cache_latents449ad7502cb0f36cd8b94b2c7d98ec204af234a9torch:2.0.1+rocm5.4.2 bitsandbytes-rocm3.7 origin/original-u-net
RTX 2070 SUPER8GBRyzen 7 5800X444.127--xformers --batch_size 2 --cache_latentstorch2.1,xformers0.0.19 cache_latentsオンで低解像度で大幅に高速化
RTX 20606GBRyzen 5600X1535.98--xformers batch_size=2
RX 6650 XT8GBRyzen 5 5600G1458.670--mem_eff_attn --max_data_loader_n_workers=8 --num_cpu_threads_per_process 125050971ac687dca70ba0486a583d283e8ae324e2torch: 2.0.0+rocm5.4.2 Ubuntu20.04 python3.10 bitsandbytes-rocm3.7 画面出力iGPU
RTX 2070 SUPER8GBRyzen 7 5800X736.307--xformers batch_size=3torch2.1,xformers0.17
RX 6900 XT16GBRyzen 5950X692.561--xformersなし --mem_eff_attn追加 環境変数'PYTORCH_HIP_ALLOC_CONF='garbage_collection_threshold:0.9,max_split_size_mb:512''tensorflow-rocmとbitsandbytes-rocm(本家のissue#107にリンクあり)を使用する。bitsandbytesのモジュールは自動でビルドされないので、別にクローンしてビルドし、出来たものを'venv/lib/python3.10/site-packages/bitsandbytes/'に入れる。
RTX 306012GBRyzen 3700X1502.2071b728d5fcfe16f4434e2bf61e75cdfb76f93e1416h25m2.20s ってテキストには書いてあった Windows11 pro
RTX 3080Ti12GBi7 11700F370.22
GTX 1080Ti11GBi9 9900K1647.7608ae46b事前にbitsandbytesのGTX10シリーズ対応を実施済み
RTX 20708GBRyzen 1700X926.935batch_size=3 use-8bit-adamなし gradient_checkpointing08ae46bWSL2
GTX 16606GBi5 124004640.38batch_size=1 mixed_precision=no gradient_checkpointing7c1cf7f4eaf011e3c90e163049f85bdbadb75ef2GetStartTimeラベルだけ認識されないのでサブルーチンを前に持ってきた Windows11

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Menu

table拡張js

どなたでも編集できます

メンバー募集!