最終更新:ID:2xUfwV5ONA 2024年06月15日(土) 15:01:47履歴
生成AI界の流れが速すぎてSDXLのビッグウェーブに元々のWikiの情報が古くなってしもうたんや
なんで2024年4月時点での流れと簡単な導入方法説明するで
(注意)2024年6月現在、forge版路線変更とSD3についても発表がありました。4月版とはまた状況が変わっているので6月時点での注意点もここに少し書きましたので併せて読んでください!
6月時点での注意点
相変わらずワイちゃんが適当な知識で書いとるんで間違いや誤字脱字は各自修正お願いしますやで〜
・WebUIForge版について
VRAMが少なめの環境(特に8GB以下や使い方によっては12GB環境でも)で大きな支持を集めているWebUIのForge版ですが実は2ヶ月ほどアップデートが止まっていました。
とくに致命的なバグなどもなかったのですが6月に作者Lvmin Zhang氏(通称イリヤニキ・・・で良いのか?)から今後のアップデート方針が発表されました。
ざっと要約すると「本家のA1111版の性能も良くなったし、今後のアップデートは今までとの互換性がなくなる可能性が高い実験的な機能を追加していくことにしたからForge版はアップデートせずに元々の本家A1111版を使ってね。forge版は間違っても今後一般ユーザーはアップデートしないでね」とのこと。
掲示板ではイリヤニキと気軽に?勝手に呼んでいますが氏のgithubのページを見ればわかるようにforge版というかcontrolnetやfoocusなどの作者でもありガチの天才です。多分まだスタンフォードの博士課程在学中・・・?
(Forgeのバージョン間違って上げちゃ駄目問題は赤ちゃんには説明しづらいけどgitというバージョン管理システムを使っているのでローカルでいわゆるWindowsUpdateみたいな感じで手軽に最新版入れようとしたりアップデートしようとすると素人には手に負えない最新バージョンが勝手に入ってしまう可能性があると思っていてください)
そのためこれより下の本文?である赤ちゃん向け4月版に書いてある手順でサクッとインストールするとforge版に関しては説明通りには動かない最新版になる可能性があります。
(注)Impress記事中で紹介されているその2のZuntan03氏が作成しているインストーラーはちゃんと使える最後のバージョンで止まるようになっているはずです。
(筆者注)Forge版とA1111版と試すと確かに生成速度は変わらないぐらいA1111版も速くなっているのですがVRAM使用量についてはやはりForge版の方がかなり少ないです。アップスケールの限界もForge版が高いですし、環境に寄りますが、生成しながら動画やゲームする余裕がForge版ではあるのですがA1111版だと生成にリソースがっつり持って行かれて他の作業が厳しいです。個人的には現行のForge版で新規拡張機能などに対応するだけで良いので軽いアップデートを続けて欲しいというのが本音
・SD3について
StablityAI社からついにSDXLの次のバージョンであるSD3が予定通り公開されました。今のとこと対応しているローカル向けUIは有名どころではComfyUIとかで今のところ一番ユーザーが多いであろうWebUI(A1111版)やForge版は「6月中旬現在まだ対応していません」
公式はこちら
一応おおまかにSD1.5→2.0→XL→3.0とアップデートしているのでXLの次だけど3です
今のところ昨年のSDXL発表当初と同じく公式の純正モデルしか有りませんが使用した方の声をスレで見る限り「promptの応答性が非常に高い」「謎文字で無くアルファベットが文字として生成できる(日本語は無理?)」「(当たり前だけど)生成時の表現力が格段に上がっている」「自然言語で結構通じる」とのこと。
ただし、スレ民の多くが望んでいると思われるエロに関しては公式モデルだけ有ってXL発表時と同じく今のところ厳しいようです。
SDXLの時のようにAnimagineやponyなどのサードからのモデルが供給されるとまた変わってくるはずなのですが、StablityAI社とpony作者側とのライセンス等の話し合いは難航している模様
pony側は当初ponydiffusionV7をSD3モデルとして作成し公開する予定でしたがどうもSDXL用のV6.9としてとりあえず一旦公開するとかしないとか・・・
StabilityAI社内部関係者の発言やPonyDiffusion側の発言など憶測も飛び交っているようなので気になる方はご自分で検索して確認してご自分で判断してください。
(正直AI関係は法の制定も解釈も追いついていない上に国ごとに対応が違い、さらにponyの特殊性(ケモノ&エロ&グロ)自体も欧米のポルノ問題や宗教観、さらに日本でも話題になった欧米発祥のエロ関係のカード決済問題、そもそもの版権問題、あと日本だけ馬鹿みたいに緩い児ポ関連、それらも絡んで有名になって表に出てくるほどどこも対応が難しそう(編集者の主観です))
とりあえずSD3は出たばかりでローカルで動かしている人もまだ少数のようですし今後どうなるかしばらく見守るしかないようです。
今のところ一般画像生成に関してはかなり凄いサンプル画像が出てきています。クラウド上で相当なリソース突っ込んでるであろうDALL-E3とローカルPCで動くものを比較しちゃいけないんでしょうが良い勝負になるかも?と思わせるぐらいには良い感じのサンプルが出始めています。
・2024年6月ハードウェア編
(かなり筆者の偏見と主観が入っていますので誤記や内容が気になる方は修正をお願いします)
(グラボ編)
4月から何か変わったかというと、生成AI入門用グラボと言われていた3060(12GB)のBTOなPCがほぼ無くなりました。一応3060の生産自体は止まってはいなさそうですが主流は4xxxシリーズであり後継の5xxxシリーズも年末には出るらしいとのことで入手性は悪化しているようです。実際単体でも正直この値段は・・・というぐらい高いモデルばかりしか残っていないようです。
また、forge版があれば最低限4060(8GB)でもなんとかなっていたのですがforge版の方針変更もありA1111版やSD3で考えると今後はVRAM8GBどころか12GBでも厳しい状況となってきました。
現在の環境(SDXL+Forge)のまま使うのならばVRAM8GBでもわりとどうにかなるのですがA1111版やまさに今月発表されたSD3となると微妙になってきそうです。まだどのくらいがVRAMのの最低ラインかは不明ですが・・・
今のところSD3はmedium版と言うことですがComfyUIで10〜12GB前後は使っているとのこと(LightとかHeavyとかで出たりして)
それと公式にも書かれていますがSD3medium版はAMDのサポート強化したとのこと(多分ROCm)。と言っても今のところスレで試した人もいなさそうな上にnVidiaにさらなる最適化したとも書かれているのでAMDでどの程度行けるようになったかは不明です。
まだやはりグラボを生成AI目的で買うなら今のところnVidia一強っぽいです。もしどなたかAMDのRXシリーズ等のグラボで試してそれなりに使えたらnVidia一強が崩れて予算内でVRAM多めのグラボ買えるようになるので是非報告をお願いしたいのですがスレでAMDのハイエンドグラボ持ってる人いなさそう。
SD3だとやはりVRAM使用量も増えそうなこととforgeの方針転換もあって生成AIメインでグラボを選ぶなら4060Ti(16GB)か4070TiS(16GB)、4080S(18GB)かハイエンド最強の4090(24GB)、運良く程度の言い3090の中古を安価で見つけられたら3090orTi(24GB)もありかも(ただし3090シリーズはLHR版が無いためマイニングで酷使された可能性が有り保証が短かったり素性がわからない中古は避けたが良い)
RTX5xxxシリーズに関しては正式発表も無くリーカー(笑)の憶測ばかりでなんともいえない状況です。年末に出るというのはほぼ確定ですが、RTX5090でもVRAMは以前噂があった32GBではなく28GBとかいう話が出ています。他にも32GBはあとからSかTiになって出るとかまぁ噂話を楽しんでる段階です。しかしnVidiaは同じGPUコアでもVRAMガン積みしてAシリーズとして業務向けで出荷するだけで10倍以上の値段で売れるのでコンシューマー向けにあまりVRAMを多く積みたいく無いと言われてます。(昔は業務向けQuadroシリーズとかチップ抵抗が2カ所違うだけとかだったぐらい適当だったのに)
おまけ?その1:3060(12BG)とか4060Ti(16GB)とかコア性能とVRAMの容量が全く釣り合いとれていない、特に後者は4070に近い、場合によっては超えてしまう強気価格でもお情けで出してやってる感が・・・株価も半端ないしコンシューマー無視しても株価逆に上がるぐらいの勢い・・・
おまけ?その2:生成AIに限らずいろいろと蚊帳の外っぽいIntel Arcシリーズですがひっそり3月頃にA1111版が公式対応していました(IPEX)。完全にネタ扱いですが最高級なArcA770(16GB)が3万円前後で投げ売りされていたので筆者がトンデモ環境(Ryzen3 4300GのAsrockDeskminiX300(ミニPC)にPCIE3.0*4を外に引っ張り出して接続)した結果、動けば3060〜70ぐらいの速度で生成は出来ましたがVRAM16GBも有るくせに半分も使わず生成失敗したりいろいろとネタ過ぎたので窓から投げ捨てたぐらいには未だに茨の道です。
(追記)AMD RadeonにしろIntel ArcにしろUbuntu環境だと割と行けるけど赤ちゃん向きではないので書いていませんでしたがタイムリーな記事が出たので興味があれば
(CPU編)
多分来月(7月)中にAMD Ryzenのデスクトップ向け新シリーズが出回るはずです。ソケットは現行のAM5のままのはず。そのため4月に爆上げしたAMDのCPUが少し値下がっています。が画像AI生成ではCPUはそこまで重要では無いのは変わっていないようです。チャット系テキスト生成ではCPUやメインメモリも結構使うようです。AMDの新CPUが出るものの正直旧世代のRyzen5700Xで十分な上に結構値下がりしてます。DDR4が使えるのでグラボに全振りしつつ5700X+DDR4でも十分戦えます。ゲームもやるとなったら5700X3D/5800X3Dという最終手段やCPUがっつりなら5950Xという手も。あくまで現状コスパが高いだけであって将来性はあまりないです。そのためか安価なBTOでは未だにRyzen5xxxシリーズが多く使われていますし実際性能は現状では問題ないです。
Intelは12/13/14世代のハイエンド帯のK付きCPU(いわゆるOC可能CPU)にうっかり?大電流を流して不安定になるという問題が出ています。正直IntelのCPUが12世代ぐらいからほとんど進化しておらず無理矢理電流流してクロック上げてAMDに対抗するようなところが有ったのですが、公式発表ではマザーボードメーカーのBIOS設定がうっかり許容値を超えていたとのこと。そのため過電流?を押さえる対応BIOSも出始めていますがまぁクロック上がらなくなるので性能も低下するというオチが。ただ、今のCPUでそこまでOCしないと行けないようなソフトはベンチマークやクソ重ゲーぐらいなので生成AIはあまり気にせずi5やi7で十分と思われます。
(メインメモリ編)
相変わらずDDR4なら16GB*2(32GB)が1万円以内でまだ買えるようです。DDR5もかなり落ち着いてきましたが今後はDDR5も5200や5600などクロックが高いものが主流になりそう?でDDR4に比べるとまだちょっと高い感じです。相変わらず相性問題も多少あるようでDDR4のように4枚差しでも安定とはなかなか行かないようです(増設しづらい?)
(SSD&HDD編)
相変わらず価格上昇中。激安そこそこ高性能で一世を風靡した?中国Hiksemi系SSDも値上げに次ぐ値上げの上にチップの過剰在庫が捌けたらしく品薄に。他のフラッシュメモリメーカーも一斉に値上げした上に相変わらず150円を軽く超える円安でかなり厳しい。6月17日?までのNTT-Xストアのクーポン(期間がピンポイント過ぎてすみません)や超Paypay祭で高還元率を誇るヤフーショップ内のジョーシンやコジマなどで運良く安価に買えるのを祈るような状況。
(BTO編)
ハードウェア編の頭に書いたように3060(12GB)のBTOPCやショップブランドPCがほとんど消滅したっぽいです。スレではとにかく低予算なら駿河屋PCやツクモの4060Ti(16GB)なんかが上がっていました。予算があるなら普通にそこそこハイスペックの4070TiSやDELLの4090alienware(通称?アリエンワー)などが上がったことも。今の時期なら各社ボーナスセールとかやってるのでお得では無いでしょうか?AMDは新CPU出るので型落ちになるかもしれない分値段下がってる感じがしないでも無いかも。
ただし格安のBTOやショップブランドはCPUがRyzen5xxxシリーズなのは良いとしてマザーがA520(PCI-Eが3.0までだったりNVMeSSDスロットが1本のみだったりメモリスロットも2本しか無かったり)B550でも最低限まで機能削った廉価版だったりで拡張性が犠牲になっているものもあります。ケースも古めの小さいmATXで電源も500Wなど物理的なサイズも電源も4070以上のグラボが入らないものも多いようです。パーツ相談は結構スレ民も答えてくれますが、結局予算と将来のアップグレードをどうするかで決まるような気がしないでも無いです。
20240615 「3060Ti(12GB)」→「3060(12GB)」に修正。
20240615 細かい誤字脱字を修正。Arcのおまけ記事を追加
(以下元々の2024年4月版)
(思い立って慌てて書いたんで誤字脱字や現状認識の間違いなど多々あるんで各自訂正してくれやで)
その後ローカルで同等(以上)の事が出来るようになりローカルの情報交換も盛んである。
もとはなんJだったが、現在は5chのなんでも実況Uが主な活動場所となっている。
そのAI画像生成のための教師データから作ったモデルが流出したり法的にグレーゾーンと言われつつ現在もサービスが続いている。
ただAIゆえになかなか思うような画像を生成できず、理想の絵を生成するテクニックを有志がをまとめたものがこのwiki。
いわゆるWebサービスで、スマホやタブレットでもお手軽に使えてNAI3(SDXL)にアップデートしてから結構な画像を手軽に生成できるため一番手っ取り早い。
また、他に比べて男女の性行為を学習しているので、今までの様な女性+男性器といったものより多様な構図ができるようになった。男女のエロを生成したいならこのサービス
ただし有料(10USD/月から)
詳しい説明(wikipedia)
NovelAIのトップページ(基本英語)
※米国企業のため児ポの生成は危険
AI生成のエンジン(Stable Diffusion)とそれを動かすための環境(Python,Git)、操作するためのUI(WebUIやComfyUI)に自分な好きなモデル(データセットからの学習結果)やLoRA(シチュエーションやキャラの特徴や画風などを再現する追加データのようなもの)を自分のPCにダウンロードして生成し放題。
多分impressのこの記事読めばだれでも環境構築できるはず。
ただし結構なスペックのPCが必要。相当な量のソフトウェアをダウンロードするのでそこそこの回線も必要。
生成用のモデルも一つ7GBとか有るので制限のあるモバイル回線ではキツイと思われる。
注:Python=プログラミング言語およびそれを動かすための環境。Git=バージョン管理システムのこと。いろんなソフトのバージョンを管理してくれる仕組みとその管理ソフト本体。
ここでおっさんからの忠告や
本当に初めてならその記事のその2からやろう。
先走っていろいろ入れそうになる前にまずはGitとPythonをインストールしてから。バージョンに注意!
ちなみにスレではグラボは最低3060(12GB)、余裕があるなら4090(24GB,30万円〜)が推奨。現実的な妥協点として4070Ti SUPER(16GB,13万円〜)がある。
先人のありがたい言葉「欲しいときが買い時」
あとVRAM少なめでも生成速度が速いforge版(WebUI)やLoRA作成を簡単にできるGUIなどのおかげで時間かかっても良いなら現行だと4060(8GBグラボのみ4万円〜)でも最低限なんとかなる
将来は知らんw
もし新規にPCやグラボ買うつもりなら絶対NVIDIAのRTXにするように。
RTX3060(12GB)からRTX4090(24GB)まで予算次第だが、推奨できないものもあるため注意。
宗教的な理由でRadeonやArcしか選べないなら生成AIは茨の道。
たまにネットでN100のPCで生成できますかというヤフー民の釣りみたいなのがいるがそういう民にはNAI勧めとけ
・手元にスマホやタブレットしかない→NAIへ
・PCなんてブラウザぐらいしか使ったこと無い。コマンドプロンプトなにそれ?勉強する気も無いよ?→NAIへ
・NAIに課金できるクレカやpaypalアカウントが無い→お試し的な画像生成AIやBing image creatorへ(ただしNSFW(いわゆるエロ)はほぼ無理。Bingは「anime」と入れただけで生成拒否されることも多く、悪質だと判断されると一発で利用制限を食らうこともあるので注意しよう
・高スペックPCや光回線などがすでにありローカル生成に興味がある→Impressの記事を参考にローカル(自分のPC)へWebUIをインストール。VRAMが8GBぐらいしか無い場合はforge版がおすすめ。
・PCは有るけどグラボが無い(CPU内蔵)やしょぼいorグラボがAMDのRadeon、いないと思うがグラボがIntel Arc→グラボ買い換えろorAMD,Intelで独自路線を貫け(面倒なので説明省略)
生成してみて自分のPCに限界を感じたらグラボ交換や交換できない場合は買い換えもあり得る。2024/4月頃のハードウェアについては下の方に
・PCは無いが買う気がある→予算次第だが下の方にある2024/4月頃のハードウェア編も読み流して吟味して欲しい
とりあえずPCにWebUIをインストールしたら(impressの記事その2の場合代表的なモデルの一つであるanimageneXL3.0もインストール済みになるはず)まずはcivitai(通称ちびたい)でモデルやLoRAを探してダウンロードする。civitaのトップ画面でいきなりやばいのが出てくる可能性も有るが運次第。(結構グロや奇形、ケモナーやホモ系など何でもありなのでそこら辺も注意)。
正直civitaiは使いづらいがとにかくいろんなモデルやLoRAが集まっている。もう一つ有名どころとしてhuggingface.coも有るがこちらはAI全般であり、真面目なサイトでエロ画像のサンプル表示なども禁止なためここを見て画像生成したいと思っているような赤ちゃんニキにはなじみが無いかもしれない。(ただしebaraはhuggingfaceにしか置いてない)
ここで言うモデルとは画像をAIが勉強しまくった画像生成の元になるデータの塊で、どんな画像を勉強したかで生成される画像も変わってくる。二次元系や三次元、ロリやおねーさんなどに特化したものも多い。もちろんホモやケモナー、奇形等もありあらゆる性癖の坩堝になっている。サンプル画像を見て自分が生成したいイメージに近いものをDLする。今ならばSDXL用のモデルがおすすめ。(ただし7GB前後とサイズが大きいものが多い)
次にLoRAだがこちらは生成する際に特定のキャラや画風、衣装、シチュなどで生成したい場合に使う追加データとでも考えてもらえば良いだろうか。civitaに大量にあるので正直探しづらい上に出来も千差万別だがモデル単体ではなかなか出せないものを生成できるので重宝する。ただしLoRAを作成する際にどのモデルを元にしたか明記されているものがほとんどなので、使用する際はその元になったモデルと一緒に使用することが望ましい。違うモデルとの組み合わせでもそれなりに使えたり、逆に生成自体が破綻したりもある。これらの使い方は結構ネット上に解説があるので各自でググって欲しい。そしてダウンロードして指定されたディレクトリに保存することでWebUIから利用できるようになる。
ここまで来たらこのwikiやネットにある一般的なWebUIの使い方説明を参考にWebUIで使いたいモデルを選び、promptに生成したい画像に含まれる単語、negative pormptに生成されたくない単語を入れてみよう。最初は訳わからないと思うがサンプリング方式にEuler_Aを選び、サンプリングステップは25、CFGスケールは6、SDXLなら(生成される画像の)幅と高さはともに1024を選び生成ボタンを押してみよう。これで画像が生成されればとりあえず一歩踏み出せたと思う。サンプリング方式やステップ、CFGスケール、promptの書き方などはモデルごとに推奨値がある。そこら辺はこの先自分で調べて欲しいのと好みによって変わってくる場合も多い。
この先説明するが今までのStableDiffusionによる画像生成の際のpromptのお約束事がSDXL時代になって(というかponyが現れてから)かなり変わってしまったこともあり慌ててこのページを作成しているともいえる。細かい機能などは豊富すぎるぐらい有るのであとは各自で調べて欲しい。あくまで赤ちゃんが第一歩を踏み出せるつもりでこの文章は作成している。
それまで1.5が主流だったが、SDXLリリースすぐはモデルが基本(sd_xl_base_1.0)のものしか無くていまいち(特にNSFW方面で)評判が良くなかった。
基礎解像度が512x512から1024x1024、パラメータ数も3倍以上になって高品質な画像を生成できるはずだが、学習のハードウェア要件が厳しすぎて個人には手を出せない代物だった。
そんな中現在主流になったAnimagine-XL-3.0と3.1やPony Diffusion V6 XLといったモデルが出始めて品質の高さから人気になった。そういうこともあり、今はもうほとんどのスレ民は1.5環境は使っていない。ほんの数ヶ月で移行した。そりゃwikiの編集も間に合わんわ(そもそも編集者がいないような)・・・
ちなみにStableDiffusionや呪文などで検索して上位に出てくるほとんどのサイトがエアプのアフィ系。書いてあることもコピペがほとんどで情報も1.5時代のものが多い。
(おまけ:Animagine作者はXLになってAnimagine-XL-3.0作るのに教師画像を集めてモデル生成するのに専用のAIサーバー(A100 80Gを二枚)を借りて500時間かかったとかなんとか
個人勢でもRTX3090を4枚とかの世界やからなかなかモデルが出なかったのもわかる)
それらのAnimagineやponyモデルが出始めるとcivitaiでは公開されてない派生の二次元向けebara_ponyやリアル系realpony等のモデルも広まり、過去のモデルは本当に過去のものになってしまった。大元のモデル作るのは個人では厳しいががその派生のマージモデルなら個人のハイエンドPCでなんとかできる。
そしてそこで問題になったのがPonyDiffusionV6XL(とその派生)だ。
元々AIに画像生成の指示を出すのにdanbooruタグという英語の2次元訛りみたいな単語を使っており、ここのwikiに掲載されている単語もほとんどがそう。
なぜそうなったかというと、モデルを作るのに必要な教師画像のキャプション(画像の説明文)の作成をするのだが、海外の巨大画像掲示板であるdanbooruではタグとしてそれを元々やっており教師画像集めるのに最適であり、その界隈の大手なためdanbooruタグが主流となっている。
ところがそこに彗星のように現れたPonyDiffusionV6XLというモデルがとても特殊で海外のMyLittlePony愛が強すぎる日本で言うケモナーが集まるe621という画像掲示板を学習元にしている。
ケモナー系や正直一般日本人にはきつすぎる画像が生成されやすく当初は敬遠されていたが特にNSFWに強い(強すぎ)ことや、神聖3文字事件等を経てNSFWならponyの声もあるほどだ。
ところが指示を出すのにこれまでのdanbooruとは文化の違うe621で学習しているため、ここのwikiで紹介されとる単語とは微妙に異なる。e621タグはいわばケモナー訛りの英語だがエロだけでなくグロも多くて本家e621で単語探るのも常人にはちょっときつい。
それでも元は英語でdanbooruタグもそこそこ通じるのと自然英語もなんとなく理解してくれるが正直ここのwikiの情報との相違も大きい。
特にpromptの作法が従来とはかなり違うために現在も手探り状態。
特徴としてはAnimagine系列は多くの版権キャラを内包しておりプロンプトだけでそれらのキャラを簡単に生成出来ることや背景含めきれいな絵柄で人気、いわゆる優等生。通称兄魔神、魔神。全年齢のイラスト生成に良い。
Pony系はそのままでは正直厳しい絵を生成するしシモの描写なども何でもありでNSFWにはとことん強い。が背景やメカに弱い(らしい)。学習元が一般的で無いため一般的で無いものを生成するときがある。プロンプトの書き方がかなり独特。
と言われている。
こんな感じでベースそのものが変わってしまったこともあって掲示板の住民たちは混乱している。
その中でも元々1.5時代でも正解はないと言われていたLoRA作成のセッティングもずっと議論されている。
今わかっていることは
また、教師画像の前処理から作成時の各種パラメーターも統一見解的なものはない。
もともとLoRAを作成するユーザーも
などで目指すものが違うため意見の相違がおさまらない。今のところ終わりの無い旅をしているようでもある。
ただ、結構な頻度でスレにLoRA投下している作成者やcivitaiに投稿している作成者はある程度設定値を固定している模様
-とりあえず作ってみる
まずはRedRayzニキのところの説明を読みつつ環境構築
このKohya_LoRA_GUIでLoRA作成のハードルめちゃくちゃ下がったのでこれでもわからないというPC赤ちゃんには厳しいかもしれないが
その説明でわからないようならまだ手を出すべきでは無いかもしれない
なんとGUI作者のRedRaysニキが自らLoRA赤ちゃん向けに解説を作ってくれたで!
stable DiffusionのLoRAのつくりかた
LoRA作成時のオプション検証など
(参考)もともとLoRA作成で有名なkohya-ss氏のsd-scriptsを日本語で使いやすいようにGUIを作ったのがRedRayz氏のKohya_LoRA_GUI
GUIで使いやすく設定値を保存、公開できるために結構な数の日本人ユーザーが存在すると思われる
必要になる教師画像やタグ付けは適宜ググって集めてRedRayzニキが公開しているサンプルプリセットを参考に作成や!
最初は教師画像10枚ぐらいのタグもWebUIのタグ付けにお任せ、設定もサンプルそのままでお試ししてみると雰囲気つかめると思う。
(参考:i5-12500H+RTX4060mobile(VRAM8GB)+MEM32GBのノートPCでお試し作成に約1時間ほど)
Kohya_LoRA_GUIはググるとそれなりに作成手順の解説なども出てくるんでそれらも参考に!
そして自分で生成したLoRAを使ってみて、納得がいかなかったらそこから教師画像の事前準備(画像厳選やサイズ調整や背景抜きなど)にタグ付け、プリセット値の見直しの旅のスタート!
ここから最初に書いた終わりの無い旅が始まる。大抵は自身のPC環境の限界や自分が上記のどの派閥に属してるのかで妥協してしまうところもあるがさらなる高みを目指してほしい
そしてこれだ!という環境が出来たらスレで報告したりここに情報を残して欲しい
(特にこのページを最初に書いたワイちゃんはLoRA作成に関しては赤ちゃんどころかまだマッマの子宮でやっとパッパの精子と出会ったぐらいなんや・・・スマンな
なんでLoRA関係は詳しいニキにお願いやで)
-おまけハードウェア編
スレとは違う?編集者主観のローカルPCのスペックについて
ローカルについては正直結構なゲーミングPC並のスペックがいるんでいきなり手を出すのはちょっとハードルが高いのが現状
最低限はBTO新品だと駿河屋10万円PCにメモリ増設(RTX4060-8GB)から上は4090で50万円超。さらにモニタや人によってはさらなるメモリ増設やSSD増設も必要。
スレではVRAM優先で3060(12GB)が最低ラインと言われているが旧製品であり新品BTO等では入手しづらくなっている。そのため普段使い(ゲームとか)と入手性を考えると4060が現時点のAI画像生成の本当の最低ラインでは無いかと思われる。またRTX4060はDLSS3(nVidiaのアップスケール、フレーム補間機能)が使えるため対応しているゲームにおいては3060よりFPS等が稼ぎやすい。AIだけなら将来的にはVRAM容量の最低ラインが上がると言われており後々8GBでは厳しいというのはネックではある。RTX4060Ti(16GB)という製品もあるがAI生成以外の性能は無印のRTX4060とそう変わらずVRAMが増えただけで価格が一気に8万前後となり悩ましい。4070シリーズはSとTiSという新しいラインが発売されVRAMもTiSならば16GBモデルがありAI以外の性能も評判が良いためここら辺が現実的ではあるが実売で13万円〜というのをどう見るかは使用者による。さらに上の4080Sシリーズ(VRAM16GBで18万円〜)になると今度は最強の4090が見えてくるため悩ましい。AIに限らずRTX4090ならば4K120Hzや8K60Hzでのゲーミングがギリギリ実用的になり、4080から大きなアドバンテージとなっている。逆に一つ下の4070TiSの評判が良いためそちらとの価格差も悩ましく判断が難しいものとなっている。結局は予算次第だがAIだけに絞るかほかの用途も考えるかですこし変わってくる。
CPUに関しては最近のもの、AI生成に限ればIntelなら12世代以降のi3やi5でも十分、AMDなら前世代のソケットAM4でRyzen5シリーズでも十分とのこと。ただしAI生成以外(ゲーム等)も考えるとグラボに合わせてCPUも良いものにしないとグラボの足を引っ張ることになる
HDDは8TBが13K円前後で買える時期が長かったが昨年から高騰を続けついには18K円を超える事態に
CPUも(特にAMD)は4月に爆上げしAM5のハイエンドは少しずつ価格が落ち着いていたものの発売時のご祝儀価格を超える急激な暴騰
肝心のグラボ(GPU)については元々日本国内はASK税やASKレートと言われる代理店のマージンがかなり大きく取られており海外との価格差が大きかった
ハイエンドのRTX4090は昨年夏頃に最安で25万円前後のものもあったが輸出規制の関係で海外客が購入しまくったと言われ在庫不足で最低ラインのものでも軽く30万を軽く超える事態に。一旦収まったが社会情勢によるものもあり現在また値上がり中(30万円〜)
ちょっと特殊だがロープロファイルの4060などはG社のものが実売5万円前後(実質で4万の時もあり)だったがほとんどの店で在庫がなくなり最近発売された後発のA社のものは店頭価格が6万円超となった。2024年末に出ると言われているRTX5090はVRAM32GB版が予定されており国内ではグラボ単体で50万円とかいう噂も出るほど
戦争や台湾地震、アメリカのインフレなどにより国内価格が高騰し続けているもののいきなり円高へ振れることもあるため正直将来の話は誰にもわからない
しかし2024/4から多くのパーツの価格改定(大幅上昇)が入ったのは事実であり正直今買うのは心情的にキツイものがある
それでもローカルにしか出来ないこと(外では生成や公開できない児ポ系や版権的にアウトなキャラや画風生成、世間的にマニアックなためNAIでは作成できないようなニッチな性癖やキャラ愛)などが多くローカルにこだわらざるを得ない場合が多いのも現状
PCやグラボはオンラインショップのブラックフライデーセール(11月末)や年末セールで大幅に値引きされることが多いので、この時期を待って購入するのも手
もう一つローカル生成の壁になるかもしれないのが生成するためのソフトウェア等を自分でPCにインストールする必要があること
コマンドラインを使うことがあるためPC赤ちゃんにはちょいと厳しいかもしれない
最近はDLしてbatファイル実行するだけでええもんを作ってくれてるZuntan03ニキやLoRA作成のハードルかなり下げてくれたRedRayzニキもいて以前に比べると相当簡単になったが知ってて当たり前的なPC知識前提なため初PC赤ちゃんには厳しいかもしれんない
説明通りやってるはずでも回線不調やサーバー側の不調でエラーが出たり前提ソフトのバージョンや他のソフトとの兼ね合いでエラーが出たりすることもあり、ここやとしあきのwikiのFAQを参考にして欲しい(としあきのとこは直リンはアカンから「としあき diffusion」でググってくれ)
(初期の編集者のワイちゃんは浦島太郎だったため旧環境の旧バージョンが残っており一見うまくいってそうなのに結構エラーが出て苦労した)
とりあえず赤ちゃん&浦島太郎むけに現状書いてみたが、ローカル環境で一番使われてるのは多分Stable Diffusion WebUI
ブラウザから操作できるんで直感的にいじりやすいのと拡張機能が多くweb上にも解説が多い
その派生版でforge版もあってPCのスペックがキツイっていうニキに人気がある。VRAM使用を効率化することで少ないVRAMでも高速に生成できるようになっているとのこと。ただし本家の機能が追いついた場合にはforge版は更新をやめると作者が明言している。
この二つについてはImpressの記事のリンクからサクッとインストールできるはずなので便利
またもう一つ人気があるComfyUIはかなり細かく生成時のパラメーターとかいじれるが、ちょっととっつきにくいため気になるニキはこのASCIIの記事見て参考にして欲しい
ここまで来て何かしら画像を生成できたら赤ちゃんからハイハイへの大きな一歩や!
ここやとしあきのwikiを見ながらLet's生成Lifeや!
基本的なpromptはここにあるもんで大体行けるで〜特殊性癖になるとスレに知っているニキがいるかもしれんので聞いてみるのも手や
-一歩を踏み出したニキへのお願い
ただ、モザイクを入れる際に一般的なペイントソフトではこの情報が消えてしまいます。一応消えないとしあき製モザイクツールがあるのですが現在公開されていないようです。
スレで誰か持ってない?って聞いたら誰かがupってくれるかもしれません(他力本願)
(便利なtips)
https://fate.5ch.net/test/read.cgi/liveuranus/1712...(なんJNVA部★382より引用)
https://github.com/EnArvy/Catboxer
これやな
C:\Users\PC\AppData\Roaming\Microsoft\Windows\SendTo に放り込めば右クリで猫箱に送り込める
テキスト作ってユーザーハッシュ張り付けてCatboxer.confにリネームしたのも一緒に置けば自分のとこにほうりこめるで
ただ1枚ずつしかできなかった
(引用終わり)
また最近のimgurは肌色画像を速効AI判定して削除しているようです。さらに海外なので児ポなんかはやべーはずです。
海外鯖だからモザ無しアップしてもええやろニキがたまにいるがその公開対象が日本国内(日本人向けの5chにリンクを張る等)だとアウトになる可能性が高いとのこと
モザイクはしっかりかけましょう。モザイクの基準は正直判断する警察や司法の担当者次第と言われている
児ポに関しては海外はもうめちゃくちゃ厳しくて(というか日本だけ異様に緩い)クラウドに保存していただけで永久垢バンや
そういう画像を海外鯖に貼るといろんなところに迷惑かかるので公開方法はよく考えて欲しい
著作権的にネットで厳しいと言われてるのは任天堂やコナミ、コエテクなど(実際の摘発例有り)
ファンアートなどは黙認されているが任天堂は子供向けコンテンツを金に汚い大人の歪んだ欲望によって世界観やブランドイメージを穢されることを非常に嫌っていると言われ(ポケモン同人事件当時の話)現行犯逮捕という恐ろしい実例がある
コエテクは自社ゲームの3Dデータをぶっこ抜かれてエロ動画を作られてしかも販売されてキレた
コナミは一時期商標ゴロみたいなムーブかましてた
角川や集英社が厳しいと言われているがそもそも版権を守ることは出版社として当たり前なので当然
いくら匿名に近い5chだからと言ってマナーは守りましょう
-困ったときは?
まずはここととしあきのFAQ、
こんな画像を出したい、この画像をこうしたいなどのプロンプト相談なんかはスレで結構教えてもらえます
構図や表情など一般的な英単語はここにあるようなもので大体e621でも共通です
特殊性癖がらみになるとe621で調べるしか無いかも?
なんで2024年4月時点での流れと簡単な導入方法説明するで
(注意)2024年6月現在、forge版路線変更とSD3についても発表がありました。4月版とはまた状況が変わっているので6月時点での注意点もここに少し書きましたので併せて読んでください!
6月時点での注意点
相変わらずワイちゃんが適当な知識で書いとるんで間違いや誤字脱字は各自修正お願いしますやで〜
・WebUIForge版について
VRAMが少なめの環境(特に8GB以下や使い方によっては12GB環境でも)で大きな支持を集めているWebUIのForge版ですが実は2ヶ月ほどアップデートが止まっていました。
とくに致命的なバグなどもなかったのですが6月に作者Lvmin Zhang氏(通称イリヤニキ・・・で良いのか?)から今後のアップデート方針が発表されました。
ざっと要約すると「本家のA1111版の性能も良くなったし、今後のアップデートは今までとの互換性がなくなる可能性が高い実験的な機能を追加していくことにしたからForge版はアップデートせずに元々の本家A1111版を使ってね。forge版は間違っても今後一般ユーザーはアップデートしないでね」とのこと。
掲示板ではイリヤニキと気軽に?勝手に呼んでいますが氏のgithubのページを見ればわかるようにforge版というかcontrolnetやfoocusなどの作者でもありガチの天才です。多分まだスタンフォードの博士課程在学中・・・?
(Forgeのバージョン間違って上げちゃ駄目問題は赤ちゃんには説明しづらいけどgitというバージョン管理システムを使っているのでローカルでいわゆるWindowsUpdateみたいな感じで手軽に最新版入れようとしたりアップデートしようとすると素人には手に負えない最新バージョンが勝手に入ってしまう可能性があると思っていてください)
そのためこれより下の本文?である赤ちゃん向け4月版に書いてある手順でサクッとインストールするとforge版に関しては説明通りには動かない最新版になる可能性があります。
(注)Impress記事中で紹介されているその2のZuntan03氏が作成しているインストーラーはちゃんと使える最後のバージョンで止まるようになっているはずです。
(筆者注)Forge版とA1111版と試すと確かに生成速度は変わらないぐらいA1111版も速くなっているのですがVRAM使用量についてはやはりForge版の方がかなり少ないです。アップスケールの限界もForge版が高いですし、環境に寄りますが、生成しながら動画やゲームする余裕がForge版ではあるのですがA1111版だと生成にリソースがっつり持って行かれて他の作業が厳しいです。個人的には現行のForge版で新規拡張機能などに対応するだけで良いので軽いアップデートを続けて欲しいというのが本音
・SD3について
StablityAI社からついにSDXLの次のバージョンであるSD3が予定通り公開されました。今のとこと対応しているローカル向けUIは有名どころではComfyUIとかで今のところ一番ユーザーが多いであろうWebUI(A1111版)やForge版は「6月中旬現在まだ対応していません」
公式はこちら
一応おおまかにSD1.5→2.0→XL→3.0とアップデートしているのでXLの次だけど3です
今のところ昨年のSDXL発表当初と同じく公式の純正モデルしか有りませんが使用した方の声をスレで見る限り「promptの応答性が非常に高い」「謎文字で無くアルファベットが文字として生成できる(日本語は無理?)」「(当たり前だけど)生成時の表現力が格段に上がっている」「自然言語で結構通じる」とのこと。
ただし、スレ民の多くが望んでいると思われるエロに関しては公式モデルだけ有ってXL発表時と同じく今のところ厳しいようです。
SDXLの時のようにAnimagineやponyなどのサードからのモデルが供給されるとまた変わってくるはずなのですが、StablityAI社とpony作者側とのライセンス等の話し合いは難航している模様
pony側は当初ponydiffusionV7をSD3モデルとして作成し公開する予定でしたがどうもSDXL用のV6.9としてとりあえず一旦公開するとかしないとか・・・
StabilityAI社内部関係者の発言やPonyDiffusion側の発言など憶測も飛び交っているようなので気になる方はご自分で検索して確認してご自分で判断してください。
(正直AI関係は法の制定も解釈も追いついていない上に国ごとに対応が違い、さらにponyの特殊性(ケモノ&エロ&グロ)自体も欧米のポルノ問題や宗教観、さらに日本でも話題になった欧米発祥のエロ関係のカード決済問題、そもそもの版権問題、あと日本だけ馬鹿みたいに緩い児ポ関連、それらも絡んで有名になって表に出てくるほどどこも対応が難しそう(編集者の主観です))
とりあえずSD3は出たばかりでローカルで動かしている人もまだ少数のようですし今後どうなるかしばらく見守るしかないようです。
今のところ一般画像生成に関してはかなり凄いサンプル画像が出てきています。クラウド上で相当なリソース突っ込んでるであろうDALL-E3とローカルPCで動くものを比較しちゃいけないんでしょうが良い勝負になるかも?と思わせるぐらいには良い感じのサンプルが出始めています。
・2024年6月ハードウェア編
(かなり筆者の偏見と主観が入っていますので誤記や内容が気になる方は修正をお願いします)
(グラボ編)
4月から何か変わったかというと、生成AI入門用グラボと言われていた3060(12GB)のBTOなPCがほぼ無くなりました。一応3060の生産自体は止まってはいなさそうですが主流は4xxxシリーズであり後継の5xxxシリーズも年末には出るらしいとのことで入手性は悪化しているようです。実際単体でも正直この値段は・・・というぐらい高いモデルばかりしか残っていないようです。
また、forge版があれば最低限4060(8GB)でもなんとかなっていたのですがforge版の方針変更もありA1111版やSD3で考えると今後はVRAM8GBどころか12GBでも厳しい状況となってきました。
現在の環境(SDXL+Forge)のまま使うのならばVRAM8GBでもわりとどうにかなるのですがA1111版やまさに今月発表されたSD3となると微妙になってきそうです。まだどのくらいがVRAMのの最低ラインかは不明ですが・・・
今のところSD3はmedium版と言うことですがComfyUIで10〜12GB前後は使っているとのこと(LightとかHeavyとかで出たりして)
それと公式にも書かれていますがSD3medium版はAMDのサポート強化したとのこと(多分ROCm)。と言っても今のところスレで試した人もいなさそうな上にnVidiaにさらなる最適化したとも書かれているのでAMDでどの程度行けるようになったかは不明です。
まだやはりグラボを生成AI目的で買うなら今のところnVidia一強っぽいです。もしどなたかAMDのRXシリーズ等のグラボで試してそれなりに使えたらnVidia一強が崩れて予算内でVRAM多めのグラボ買えるようになるので是非報告をお願いしたいのですがスレでAMDのハイエンドグラボ持ってる人いなさそう。
SD3だとやはりVRAM使用量も増えそうなこととforgeの方針転換もあって生成AIメインでグラボを選ぶなら4060Ti(16GB)か4070TiS(16GB)、4080S(18GB)かハイエンド最強の4090(24GB)、運良く程度の言い3090の中古を安価で見つけられたら3090orTi(24GB)もありかも(ただし3090シリーズはLHR版が無いためマイニングで酷使された可能性が有り保証が短かったり素性がわからない中古は避けたが良い)
RTX5xxxシリーズに関しては正式発表も無くリーカー(笑)の憶測ばかりでなんともいえない状況です。年末に出るというのはほぼ確定ですが、RTX5090でもVRAMは以前噂があった32GBではなく28GBとかいう話が出ています。他にも32GBはあとからSかTiになって出るとかまぁ噂話を楽しんでる段階です。しかしnVidiaは同じGPUコアでもVRAMガン積みしてAシリーズとして業務向けで出荷するだけで10倍以上の値段で売れるのでコンシューマー向けにあまりVRAMを多く積みたいく無いと言われてます。(昔は業務向けQuadroシリーズとかチップ抵抗が2カ所違うだけとかだったぐらい適当だったのに)
おまけ?その1:3060(12BG)とか4060Ti(16GB)とかコア性能とVRAMの容量が全く釣り合いとれていない、特に後者は4070に近い、場合によっては超えてしまう強気価格でもお情けで出してやってる感が・・・株価も半端ないしコンシューマー無視しても株価逆に上がるぐらいの勢い・・・
おまけ?その2:生成AIに限らずいろいろと蚊帳の外っぽいIntel Arcシリーズですがひっそり3月頃にA1111版が公式対応していました(IPEX)。完全にネタ扱いですが最高級なArcA770(16GB)が3万円前後で投げ売りされていたので筆者がトンデモ環境(Ryzen3 4300GのAsrockDeskminiX300(ミニPC)にPCIE3.0*4を外に引っ張り出して接続)した結果、動けば3060〜70ぐらいの速度で生成は出来ましたがVRAM16GBも有るくせに半分も使わず生成失敗したりいろいろとネタ過ぎたので窓から投げ捨てたぐらいには未だに茨の道です。
(追記)AMD RadeonにしろIntel ArcにしろUbuntu環境だと割と行けるけど赤ちゃん向きではないので書いていませんでしたがタイムリーな記事が出たので興味があれば
(CPU編)
多分来月(7月)中にAMD Ryzenのデスクトップ向け新シリーズが出回るはずです。ソケットは現行のAM5のままのはず。そのため4月に爆上げしたAMDのCPUが少し値下がっています。が画像AI生成ではCPUはそこまで重要では無いのは変わっていないようです。チャット系テキスト生成ではCPUやメインメモリも結構使うようです。AMDの新CPUが出るものの正直旧世代のRyzen5700Xで十分な上に結構値下がりしてます。DDR4が使えるのでグラボに全振りしつつ5700X+DDR4でも十分戦えます。ゲームもやるとなったら5700X3D/5800X3Dという最終手段やCPUがっつりなら5950Xという手も。あくまで現状コスパが高いだけであって将来性はあまりないです。そのためか安価なBTOでは未だにRyzen5xxxシリーズが多く使われていますし実際性能は現状では問題ないです。
Intelは12/13/14世代のハイエンド帯のK付きCPU(いわゆるOC可能CPU)にうっかり?大電流を流して不安定になるという問題が出ています。正直IntelのCPUが12世代ぐらいからほとんど進化しておらず無理矢理電流流してクロック上げてAMDに対抗するようなところが有ったのですが、公式発表ではマザーボードメーカーのBIOS設定がうっかり許容値を超えていたとのこと。そのため過電流?を押さえる対応BIOSも出始めていますがまぁクロック上がらなくなるので性能も低下するというオチが。ただ、今のCPUでそこまでOCしないと行けないようなソフトはベンチマークやクソ重ゲーぐらいなので生成AIはあまり気にせずi5やi7で十分と思われます。
(メインメモリ編)
相変わらずDDR4なら16GB*2(32GB)が1万円以内でまだ買えるようです。DDR5もかなり落ち着いてきましたが今後はDDR5も5200や5600などクロックが高いものが主流になりそう?でDDR4に比べるとまだちょっと高い感じです。相変わらず相性問題も多少あるようでDDR4のように4枚差しでも安定とはなかなか行かないようです(増設しづらい?)
(SSD&HDD編)
相変わらず価格上昇中。激安そこそこ高性能で一世を風靡した?中国Hiksemi系SSDも値上げに次ぐ値上げの上にチップの過剰在庫が捌けたらしく品薄に。他のフラッシュメモリメーカーも一斉に値上げした上に相変わらず150円を軽く超える円安でかなり厳しい。6月17日?までのNTT-Xストアのクーポン(期間がピンポイント過ぎてすみません)や超Paypay祭で高還元率を誇るヤフーショップ内のジョーシンやコジマなどで運良く安価に買えるのを祈るような状況。
(BTO編)
ハードウェア編の頭に書いたように3060(12GB)のBTOPCやショップブランドPCがほとんど消滅したっぽいです。スレではとにかく低予算なら駿河屋PCやツクモの4060Ti(16GB)なんかが上がっていました。予算があるなら普通にそこそこハイスペックの4070TiSやDELLの4090alienware(通称?アリエンワー)などが上がったことも。今の時期なら各社ボーナスセールとかやってるのでお得では無いでしょうか?AMDは新CPU出るので型落ちになるかもしれない分値段下がってる感じがしないでも無いかも。
ただし格安のBTOやショップブランドはCPUがRyzen5xxxシリーズなのは良いとしてマザーがA520(PCI-Eが3.0までだったりNVMeSSDスロットが1本のみだったりメモリスロットも2本しか無かったり)B550でも最低限まで機能削った廉価版だったりで拡張性が犠牲になっているものもあります。ケースも古めの小さいmATXで電源も500Wなど物理的なサイズも電源も4070以上のグラボが入らないものも多いようです。パーツ相談は結構スレ民も答えてくれますが、結局予算と将来のアップグレードをどうするかで決まるような気がしないでも無いです。
20240615 「3060Ti(12GB)」→「3060(12GB)」に修正。
20240615 細かい誤字脱字を修正。Arcのおまけ記事を追加
(以下元々の2024年4月版)
(思い立って慌てて書いたんで誤字脱字や現状認識の間違いなど多々あるんで各自訂正してくれやで)
- なんJNVA部
その後ローカルで同等(以上)の事が出来るようになりローカルの情報交換も盛んである。
もとはなんJだったが、現在は5chのなんでも実況Uが主な活動場所となっている。
- NovelAI(NAI)
そのAI画像生成のための教師データから作ったモデルが流出したり法的にグレーゾーンと言われつつ現在もサービスが続いている。
ただAIゆえになかなか思うような画像を生成できず、理想の絵を生成するテクニックを有志がをまとめたものがこのwiki。
いわゆるWebサービスで、スマホやタブレットでもお手軽に使えてNAI3(SDXL)にアップデートしてから結構な画像を手軽に生成できるため一番手っ取り早い。
また、他に比べて男女の性行為を学習しているので、今までの様な女性+男性器といったものより多様な構図ができるようになった。男女のエロを生成したいならこのサービス
ただし有料(10USD/月から)
詳しい説明(wikipedia)
NovelAIのトップページ(基本英語)
※米国企業のため児ポの生成は危険
- ローカル
AI生成のエンジン(Stable Diffusion)とそれを動かすための環境(Python,Git)、操作するためのUI(WebUIやComfyUI)に自分な好きなモデル(データセットからの学習結果)やLoRA(シチュエーションやキャラの特徴や画風などを再現する追加データのようなもの)を自分のPCにダウンロードして生成し放題。
多分impressのこの記事読めばだれでも環境構築できるはず。
ただし結構なスペックのPCが必要。相当な量のソフトウェアをダウンロードするのでそこそこの回線も必要。
生成用のモデルも一つ7GBとか有るので制限のあるモバイル回線ではキツイと思われる。
注:Python=プログラミング言語およびそれを動かすための環境。Git=バージョン管理システムのこと。いろんなソフトのバージョンを管理してくれる仕組みとその管理ソフト本体。
ここでおっさんからの忠告や
本当に初めてならその記事のその2からやろう。
先走っていろいろ入れそうになる前にまずはGitとPythonをインストールしてから。バージョンに注意!
ちなみにスレではグラボは最低3060(12GB)、余裕があるなら4090(24GB,30万円〜)が推奨。現実的な妥協点として4070Ti SUPER(16GB,13万円〜)がある。
先人のありがたい言葉「欲しいときが買い時」
あとVRAM少なめでも生成速度が速いforge版(WebUI)やLoRA作成を簡単にできるGUIなどのおかげで時間かかっても良いなら現行だと4060(8GBグラボのみ4万円〜)でも最低限なんとかなる
将来は知らんw
もし新規にPCやグラボ買うつもりなら絶対NVIDIAのRTXにするように。
RTX3060(12GB)からRTX4090(24GB)まで予算次第だが、推奨できないものもあるため注意。
宗教的な理由でRadeonやArcしか選べないなら生成AIは茨の道。
たまにネットでN100のPCで生成できますかというヤフー民の釣りみたいなのがいるがそういう民にはNAI勧めとけ
- 本当に生まれたての赤ちゃんのために
・手元にスマホやタブレットしかない→NAIへ
・PCなんてブラウザぐらいしか使ったこと無い。コマンドプロンプトなにそれ?勉強する気も無いよ?→NAIへ
・NAIに課金できるクレカやpaypalアカウントが無い→お試し的な画像生成AIやBing image creatorへ(ただしNSFW(いわゆるエロ)はほぼ無理。Bingは「anime」と入れただけで生成拒否されることも多く、悪質だと判断されると一発で利用制限を食らうこともあるので注意しよう
・高スペックPCや光回線などがすでにありローカル生成に興味がある→Impressの記事を参考にローカル(自分のPC)へWebUIをインストール。VRAMが8GBぐらいしか無い場合はforge版がおすすめ。
・PCは有るけどグラボが無い(CPU内蔵)やしょぼいorグラボがAMDのRadeon、いないと思うがグラボがIntel Arc→グラボ買い換えろorAMD,Intelで独自路線を貫け(面倒なので説明省略)
生成してみて自分のPCに限界を感じたらグラボ交換や交換できない場合は買い換えもあり得る。2024/4月頃のハードウェアについては下の方に
・PCは無いが買う気がある→予算次第だが下の方にある2024/4月頃のハードウェア編も読み流して吟味して欲しい
とりあえずPCにWebUIをインストールしたら(impressの記事その2の場合代表的なモデルの一つであるanimageneXL3.0もインストール済みになるはず)まずはcivitai(通称ちびたい)でモデルやLoRAを探してダウンロードする。civitaのトップ画面でいきなりやばいのが出てくる可能性も有るが運次第。(結構グロや奇形、ケモナーやホモ系など何でもありなのでそこら辺も注意)。
正直civitaiは使いづらいがとにかくいろんなモデルやLoRAが集まっている。もう一つ有名どころとしてhuggingface.coも有るがこちらはAI全般であり、真面目なサイトでエロ画像のサンプル表示なども禁止なためここを見て画像生成したいと思っているような赤ちゃんニキにはなじみが無いかもしれない。(ただしebaraはhuggingfaceにしか置いてない)
ここで言うモデルとは画像をAIが勉強しまくった画像生成の元になるデータの塊で、どんな画像を勉強したかで生成される画像も変わってくる。二次元系や三次元、ロリやおねーさんなどに特化したものも多い。もちろんホモやケモナー、奇形等もありあらゆる性癖の坩堝になっている。サンプル画像を見て自分が生成したいイメージに近いものをDLする。今ならばSDXL用のモデルがおすすめ。(ただし7GB前後とサイズが大きいものが多い)
次にLoRAだがこちらは生成する際に特定のキャラや画風、衣装、シチュなどで生成したい場合に使う追加データとでも考えてもらえば良いだろうか。civitaに大量にあるので正直探しづらい上に出来も千差万別だがモデル単体ではなかなか出せないものを生成できるので重宝する。ただしLoRAを作成する際にどのモデルを元にしたか明記されているものがほとんどなので、使用する際はその元になったモデルと一緒に使用することが望ましい。違うモデルとの組み合わせでもそれなりに使えたり、逆に生成自体が破綻したりもある。これらの使い方は結構ネット上に解説があるので各自でググって欲しい。そしてダウンロードして指定されたディレクトリに保存することでWebUIから利用できるようになる。
ここまで来たらこのwikiやネットにある一般的なWebUIの使い方説明を参考にWebUIで使いたいモデルを選び、promptに生成したい画像に含まれる単語、negative pormptに生成されたくない単語を入れてみよう。最初は訳わからないと思うがサンプリング方式にEuler_Aを選び、サンプリングステップは25、CFGスケールは6、SDXLなら(生成される画像の)幅と高さはともに1024を選び生成ボタンを押してみよう。これで画像が生成されればとりあえず一歩踏み出せたと思う。サンプリング方式やステップ、CFGスケール、promptの書き方などはモデルごとに推奨値がある。そこら辺はこの先自分で調べて欲しいのと好みによって変わってくる場合も多い。
この先説明するが今までのStableDiffusionによる画像生成の際のpromptのお約束事がSDXL時代になって(というかponyが現れてから)かなり変わってしまったこともあり慌ててこのページを作成しているともいえる。細かい機能などは豊富すぎるぐらい有るのであとは各自で調べて欲しい。あくまで赤ちゃんが第一歩を踏み出せるつもりでこの文章は作成している。
- 本題?(ここから下は上記ローカルの2024年4月-最新情報や)
それまで1.5が主流だったが、SDXLリリースすぐはモデルが基本(sd_xl_base_1.0)のものしか無くていまいち(特にNSFW方面で)評判が良くなかった。
基礎解像度が512x512から1024x1024、パラメータ数も3倍以上になって高品質な画像を生成できるはずだが、学習のハードウェア要件が厳しすぎて個人には手を出せない代物だった。
そんな中現在主流になったAnimagine-XL-3.0と3.1やPony Diffusion V6 XLといったモデルが出始めて品質の高さから人気になった。そういうこともあり、今はもうほとんどのスレ民は1.5環境は使っていない。ほんの数ヶ月で移行した。そりゃwikiの編集も間に合わんわ(そもそも編集者がいないような)・・・
ちなみにStableDiffusionや呪文などで検索して上位に出てくるほとんどのサイトがエアプのアフィ系。書いてあることもコピペがほとんどで情報も1.5時代のものが多い。
(おまけ:Animagine作者はXLになってAnimagine-XL-3.0作るのに教師画像を集めてモデル生成するのに専用のAIサーバー(A100 80Gを二枚)を借りて500時間かかったとかなんとか
個人勢でもRTX3090を4枚とかの世界やからなかなかモデルが出なかったのもわかる)
それらのAnimagineやponyモデルが出始めるとcivitaiでは公開されてない派生の二次元向けebara_ponyやリアル系realpony等のモデルも広まり、過去のモデルは本当に過去のものになってしまった。大元のモデル作るのは個人では厳しいががその派生のマージモデルなら個人のハイエンドPCでなんとかできる。
そしてそこで問題になったのがPonyDiffusionV6XL(とその派生)だ。
元々AIに画像生成の指示を出すのにdanbooruタグという英語の2次元訛りみたいな単語を使っており、ここのwikiに掲載されている単語もほとんどがそう。
なぜそうなったかというと、モデルを作るのに必要な教師画像のキャプション(画像の説明文)の作成をするのだが、海外の巨大画像掲示板であるdanbooruではタグとしてそれを元々やっており教師画像集めるのに最適であり、その界隈の大手なためdanbooruタグが主流となっている。
ところがそこに彗星のように現れたPonyDiffusionV6XLというモデルがとても特殊で海外のMyLittlePony愛が強すぎる日本で言うケモナーが集まるe621という画像掲示板を学習元にしている。
ケモナー系や正直一般日本人にはきつすぎる画像が生成されやすく当初は敬遠されていたが特にNSFWに強い(強すぎ)ことや、神聖3文字事件等を経てNSFWならponyの声もあるほどだ。
ところが指示を出すのにこれまでのdanbooruとは文化の違うe621で学習しているため、ここのwikiで紹介されとる単語とは微妙に異なる。e621タグはいわばケモナー訛りの英語だがエロだけでなくグロも多くて本家e621で単語探るのも常人にはちょっときつい。
それでも元は英語でdanbooruタグもそこそこ通じるのと自然英語もなんとなく理解してくれるが正直ここのwikiの情報との相違も大きい。
特にpromptの作法が従来とはかなり違うために現在も手探り状態。
特徴としてはAnimagine系列は多くの版権キャラを内包しておりプロンプトだけでそれらのキャラを簡単に生成出来ることや背景含めきれいな絵柄で人気、いわゆる優等生。通称兄魔神、魔神。全年齢のイラスト生成に良い。
Pony系はそのままでは正直厳しい絵を生成するしシモの描写なども何でもありでNSFWにはとことん強い。が背景やメカに弱い(らしい)。学習元が一般的で無いため一般的で無いものを生成するときがある。プロンプトの書き方がかなり独特。
と言われている。
- LoRA等
こんな感じでベースそのものが変わってしまったこともあって掲示板の住民たちは混乱している。
その中でも元々1.5時代でも正解はないと言われていたLoRA作成のセッティングもずっと議論されている。
今わかっていることは
- 教師画像はかなり少なくてもどうにかなる。(どうにでもなるわけでは無くそれなりに数はそろえた方が品質はもちろん上がる)
- 当たり前だが必要なハードウェア性能は上がっている(特にVRAMとメインメモリ)
また、教師画像の前処理から作成時の各種パラメーターも統一見解的なものはない。
もともとLoRAを作成するユーザーも
- 雰囲気が出ればOK派
- 原作忠実派
- 使わせてもらうだけだが一言申したい派
- その他
などで目指すものが違うため意見の相違がおさまらない。今のところ終わりの無い旅をしているようでもある。
ただ、結構な頻度でスレにLoRA投下している作成者やcivitaiに投稿している作成者はある程度設定値を固定している模様
-とりあえず作ってみる
まずはRedRayzニキのところの説明を読みつつ環境構築
このKohya_LoRA_GUIでLoRA作成のハードルめちゃくちゃ下がったのでこれでもわからないというPC赤ちゃんには厳しいかもしれないが
その説明でわからないようならまだ手を出すべきでは無いかもしれない
なんとGUI作者のRedRaysニキが自らLoRA赤ちゃん向けに解説を作ってくれたで!
stable DiffusionのLoRAのつくりかた
LoRA作成時のオプション検証など
(参考)もともとLoRA作成で有名なkohya-ss氏のsd-scriptsを日本語で使いやすいようにGUIを作ったのがRedRayz氏のKohya_LoRA_GUI
GUIで使いやすく設定値を保存、公開できるために結構な数の日本人ユーザーが存在すると思われる
必要になる教師画像やタグ付けは適宜ググって集めてRedRayzニキが公開しているサンプルプリセットを参考に作成や!
最初は教師画像10枚ぐらいのタグもWebUIのタグ付けにお任せ、設定もサンプルそのままでお試ししてみると雰囲気つかめると思う。
(参考:i5-12500H+RTX4060mobile(VRAM8GB)+MEM32GBのノートPCでお試し作成に約1時間ほど)
Kohya_LoRA_GUIはググるとそれなりに作成手順の解説なども出てくるんでそれらも参考に!
そして自分で生成したLoRAを使ってみて、納得がいかなかったらそこから教師画像の事前準備(画像厳選やサイズ調整や背景抜きなど)にタグ付け、プリセット値の見直しの旅のスタート!
ここから最初に書いた終わりの無い旅が始まる。大抵は自身のPC環境の限界や自分が上記のどの派閥に属してるのかで妥協してしまうところもあるがさらなる高みを目指してほしい
そしてこれだ!という環境が出来たらスレで報告したりここに情報を残して欲しい
(特にこのページを最初に書いたワイちゃんはLoRA作成に関しては赤ちゃんどころかまだマッマの子宮でやっとパッパの精子と出会ったぐらいなんや・・・スマンな
なんでLoRA関係は詳しいニキにお願いやで)
-おまけハードウェア編
スレとは違う?編集者主観のローカルPCのスペックについて
ローカルについては正直結構なゲーミングPC並のスペックがいるんでいきなり手を出すのはちょっとハードルが高いのが現状
最低限はBTO新品だと駿河屋10万円PCにメモリ増設(RTX4060-8GB)から上は4090で50万円超。さらにモニタや人によってはさらなるメモリ増設やSSD増設も必要。
スレではVRAM優先で3060(12GB)が最低ラインと言われているが旧製品であり新品BTO等では入手しづらくなっている。そのため普段使い(ゲームとか)と入手性を考えると4060が現時点のAI画像生成の本当の最低ラインでは無いかと思われる。またRTX4060はDLSS3(nVidiaのアップスケール、フレーム補間機能)が使えるため対応しているゲームにおいては3060よりFPS等が稼ぎやすい。AIだけなら将来的にはVRAM容量の最低ラインが上がると言われており後々8GBでは厳しいというのはネックではある。RTX4060Ti(16GB)という製品もあるがAI生成以外の性能は無印のRTX4060とそう変わらずVRAMが増えただけで価格が一気に8万前後となり悩ましい。4070シリーズはSとTiSという新しいラインが発売されVRAMもTiSならば16GBモデルがありAI以外の性能も評判が良いためここら辺が現実的ではあるが実売で13万円〜というのをどう見るかは使用者による。さらに上の4080Sシリーズ(VRAM16GBで18万円〜)になると今度は最強の4090が見えてくるため悩ましい。AIに限らずRTX4090ならば4K120Hzや8K60Hzでのゲーミングがギリギリ実用的になり、4080から大きなアドバンテージとなっている。逆に一つ下の4070TiSの評判が良いためそちらとの価格差も悩ましく判断が難しいものとなっている。結局は予算次第だがAIだけに絞るかほかの用途も考えるかですこし変わってくる。
CPUに関しては最近のもの、AI生成に限ればIntelなら12世代以降のi3やi5でも十分、AMDなら前世代のソケットAM4でRyzen5シリーズでも十分とのこと。ただしAI生成以外(ゲーム等)も考えるとグラボに合わせてCPUも良いものにしないとグラボの足を引っ張ることになる
- 2024/4時点でのローカル向けPCパーツ価格相場について(編集者の主観です)
HDDは8TBが13K円前後で買える時期が長かったが昨年から高騰を続けついには18K円を超える事態に
CPUも(特にAMD)は4月に爆上げしAM5のハイエンドは少しずつ価格が落ち着いていたものの発売時のご祝儀価格を超える急激な暴騰
肝心のグラボ(GPU)については元々日本国内はASK税やASKレートと言われる代理店のマージンがかなり大きく取られており海外との価格差が大きかった
ハイエンドのRTX4090は昨年夏頃に最安で25万円前後のものもあったが輸出規制の関係で海外客が購入しまくったと言われ在庫不足で最低ラインのものでも軽く30万を軽く超える事態に。一旦収まったが社会情勢によるものもあり現在また値上がり中(30万円〜)
ちょっと特殊だがロープロファイルの4060などはG社のものが実売5万円前後(実質で4万の時もあり)だったがほとんどの店で在庫がなくなり最近発売された後発のA社のものは店頭価格が6万円超となった。2024年末に出ると言われているRTX5090はVRAM32GB版が予定されており国内ではグラボ単体で50万円とかいう噂も出るほど
戦争や台湾地震、アメリカのインフレなどにより国内価格が高騰し続けているもののいきなり円高へ振れることもあるため正直将来の話は誰にもわからない
しかし2024/4から多くのパーツの価格改定(大幅上昇)が入ったのは事実であり正直今買うのは心情的にキツイものがある
それでもローカルにしか出来ないこと(外では生成や公開できない児ポ系や版権的にアウトなキャラや画風生成、世間的にマニアックなためNAIでは作成できないようなニッチな性癖やキャラ愛)などが多くローカルにこだわらざるを得ない場合が多いのも現状
PCやグラボはオンラインショップのブラックフライデーセール(11月末)や年末セールで大幅に値引きされることが多いので、この時期を待って購入するのも手
もう一つローカル生成の壁になるかもしれないのが生成するためのソフトウェア等を自分でPCにインストールする必要があること
コマンドラインを使うことがあるためPC赤ちゃんにはちょいと厳しいかもしれない
最近はDLしてbatファイル実行するだけでええもんを作ってくれてるZuntan03ニキやLoRA作成のハードルかなり下げてくれたRedRayzニキもいて以前に比べると相当簡単になったが知ってて当たり前的なPC知識前提なため初PC赤ちゃんには厳しいかもしれんない
説明通りやってるはずでも回線不調やサーバー側の不調でエラーが出たり前提ソフトのバージョンや他のソフトとの兼ね合いでエラーが出たりすることもあり、ここやとしあきのwikiのFAQを参考にして欲しい(としあきのとこは直リンはアカンから「としあき diffusion」でググってくれ)
(初期の編集者のワイちゃんは浦島太郎だったため旧環境の旧バージョンが残っており一見うまくいってそうなのに結構エラーが出て苦労した)
とりあえず赤ちゃん&浦島太郎むけに現状書いてみたが、ローカル環境で一番使われてるのは多分Stable Diffusion WebUI
ブラウザから操作できるんで直感的にいじりやすいのと拡張機能が多くweb上にも解説が多い
その派生版でforge版もあってPCのスペックがキツイっていうニキに人気がある。VRAM使用を効率化することで少ないVRAMでも高速に生成できるようになっているとのこと。ただし本家の機能が追いついた場合にはforge版は更新をやめると作者が明言している。
この二つについてはImpressの記事のリンクからサクッとインストールできるはずなので便利
またもう一つ人気があるComfyUIはかなり細かく生成時のパラメーターとかいじれるが、ちょっととっつきにくいため気になるニキはこのASCIIの記事見て参考にして欲しい
ここまで来て何かしら画像を生成できたら赤ちゃんからハイハイへの大きな一歩や!
ここやとしあきのwikiを見ながらLet's生成Lifeや!
基本的なpromptはここにあるもんで大体行けるで〜特殊性癖になるとスレに知っているニキがいるかもしれんので聞いてみるのも手や
-一歩を踏み出したニキへのお願い
- 生成画像にはプロンプト内容やモデル、seedなどの生成情報が埋め込まれています
ただ、モザイクを入れる際に一般的なペイントソフトではこの情報が消えてしまいます。一応消えないとしあき製モザイクツールがあるのですが現在公開されていないようです。
スレで誰か持ってない?って聞いたら誰かがupってくれるかもしれません(他力本願)
(便利なtips)
https://fate.5ch.net/test/read.cgi/liveuranus/1712...(なんJNVA部★382より引用)
https://github.com/EnArvy/Catboxer
これやな
C:\Users\PC\AppData\Roaming\Microsoft\Windows\SendTo に放り込めば右クリで猫箱に送り込める
テキスト作ってユーザーハッシュ張り付けてCatboxer.confにリネームしたのも一緒に置けば自分のとこにほうりこめるで
ただ1枚ずつしかできなかった
(引用終わり)
- あぷろだにimgurはできるだけ避けてください。
また最近のimgurは肌色画像を速効AI判定して削除しているようです。さらに海外なので児ポなんかはやべーはずです。
- 生成画像はデフォではpng形式ですがファイルサイズが大きめになります。
- センシティブな画像の扱い
海外鯖だからモザ無しアップしてもええやろニキがたまにいるがその公開対象が日本国内(日本人向けの5chにリンクを張る等)だとアウトになる可能性が高いとのこと
モザイクはしっかりかけましょう。モザイクの基準は正直判断する警察や司法の担当者次第と言われている
児ポに関しては海外はもうめちゃくちゃ厳しくて(というか日本だけ異様に緩い)クラウドに保存していただけで永久垢バンや
そういう画像を海外鯖に貼るといろんなところに迷惑かかるので公開方法はよく考えて欲しい
著作権的にネットで厳しいと言われてるのは任天堂やコナミ、コエテクなど(実際の摘発例有り)
ファンアートなどは黙認されているが任天堂は子供向けコンテンツを金に汚い大人の歪んだ欲望によって世界観やブランドイメージを穢されることを非常に嫌っていると言われ(ポケモン同人事件当時の話)現行犯逮捕という恐ろしい実例がある
コエテクは自社ゲームの3Dデータをぶっこ抜かれてエロ動画を作られてしかも販売されてキレた
コナミは一時期商標ゴロみたいなムーブかましてた
角川や集英社が厳しいと言われているがそもそも版権を守ることは出版社として当たり前なので当然
いくら匿名に近い5chだからと言ってマナーは守りましょう
-困ったときは?
まずはここととしあきのFAQ、
こんな画像を出したい、この画像をこうしたいなどのプロンプト相談なんかはスレで結構教えてもらえます
構図や表情など一般的な英単語はここにあるようなもので大体e621でも共通です
特殊性癖がらみになるとe621で調べるしか無いかも?
このページへのコメント
ポケモン同人誌事件についてはその同人誌事件本人が実録同人誌出しとる上で「海賊版同人誌を追跡した上での当時の京都府警でのハチャメチャな誤認逮捕」と言う話があったで
なおコレとかがあった事でnyとかのデジタル捜査課が発足したとかしないとか言う噂もあるくらい
初心者向けGPUで価格上位に常にいる4060tiはVRAMがよく懸念されてるけど言われてるほどキツいって思った事ないな。SD1.5は3秒くらいで生成できるしSDXLの生成も15秒くらいで遅いって思った事無いし。ADetailer沢山掛けたりLora生成とかやろうとするとキツいけど入門用としては充分だと思う。
としあき製のメタデータ保持モザイクツールはちゃんとあっちのサイトに置いてあるで。「よくある質問」内を「モザイクツール」で検索してみてや
pony派生は非ponyと同じ感覚で使えるんだが。
特殊性癖の話なのかな
e621なんて気にしたことねえわ
半年ぶりに来たら大きく環境が変わっていたので本当に助かりました!