画像生成AIの情報を纏めるWikiです。

×

Animaについて

https://huggingface.co/circlestone-labs/Anima
CircleStone LabsとComfy Orgが開発する、アニメイラストに特化したMMDiTモデル。NVIDIAのCosmos-Predict2がベースである。
まだ開発中だが、すでにSDXLのIllustrious-XLを全面的に上回っているように感じる。

パラメータ数は2Bと現代のMMDiTモデルの中では軽量な方で、VRAM8GBで快適に動作する(だが計算はSDXLより二倍遅い)。

現時点で1024x1024中心に学習したプレビュー3であり、リリース版は開発中。

SDXLに対するAnimaの強みは?

要約すると
  • 水平線やフェンスがずれたり曲がったりといった破綻が少ない。
  • 色綺麗だし明暗の表現がいい。Noob v-predより良い。
  • 細部の描写が良く目などが潰れにくい。
  • 自然言語による位置などの具体的な指示が可能。
  • メモリ使用量がSDXLより少ない。SDXLは6.9GB必要だがAnimaは5.6GBで済む。
    • 学習のコストがSDXLと同等かそれ未満で済む
拡散モデル
SDXLは畳み込みニューラルネットワークがベースのU-Netアーキテクチャだが、これは現在主流のTransformerベースのDiffusion Transformer(DiT)を採用する。
DiTは水平線や物体の構造の一貫性維持が比較的得意で破綻が少ない。
パラメータ数は2Bと現代のMMDiTモデルの中では軽量な方。SDXLは2.6B。
TE
Text Encoderは、Qwen3-0.6Bの出力をT5XXLにマッピングしており、SDXLのCLIP-L+Gより軽量で高性能。位置や文字などの具体的な情報を解釈できる。
CLIPよりは確実に良いがLLMとしては弱い方。ちなみにより大型のTEにしても元のTE(T5XXL)が弱いからあまり意味がないとか。
VAE
16チャネルのQwen3のものを使用し、色精度とディティールがとても良い。かさついた質感がない。preview2以前は学習解像度512x512であるにもかかわらず目がほとんど崩れない。
その他
メモリ使用量がSDXLより若干少ない。

欠点

  • DiTであるが故に計算が遅い。大体SDXLの二倍の時間がかかる。
  • 対応UIが少ない。Forge Neo以外のA1111系は非対応。
  • 知識やLoRAなどの資産が少ない。もちろんSDXLとの互換性はない。
  • 2026-04-02時点でプレビュー版である。
  • 学習解像度を大きく上回る解像度で生成すると出力がモザイク状になる(Cosmos-Predictの仕様)。特に縦長の比率で発生しやすい。
  • TEが軽量だが相応に弱く、文字の描写ととても複雑なプロンプトは苦手。
  • 学習解像度が低いためか指が溶けやすい。1024pxで学習するリリース版で修正されると思われる。
  • 名前があまりにも一般的でweb検索しづらい

対応UI

現時点でComfyUIとForge Neo。

使用方法(ComfyUI)

Hugging Faceリポジトリから次のファイルをDLして配置する。
ComfyUI/models/diffusion_modelsにanima-preview.safetensors
ComfyUI/models/text_encodersにqwen_3_06b_base.safetensors
ComfyUI/models/vaeにqwen_image_vae.safetensors

ComfyUIのテンプレートにAnimaがあるのでそこから生成を始めるといい。

推奨生成パラメータ

  • 解像度: 画素数が1024x1024や832x1216などの104万画素に近似する値
  • Steps: 30-50(実際には20ステップで十分)
  • Guidance Scale: 4-5

その他

公式には書いていないがこれらが良い感じ。
  • Sampler: RES Multistepが無難。ER SDE、Gradient Estimation、SA Solver、Eulerでもよい。
  • Scheduler: Simpleが無難。NormalやSGM UniformでもOK。
    • KarrasとExponentialは非対応(SDXL以前のepsilonモデル専用)。Flow MatchingのAnimaに最適なはずのLinear Quadraticは収束が遅いので微妙。

Euler ancestralは絵がぼやける傾向がSDXLより強い。

プロンプト

プロンプトはDanbooruタグと自然言語(英語)の両方が使える。位置指定や文字描写などの具体的な命令もOK。
しかし、TEが小型なため正確な位置、順番の指定や文字の描写などの複雑な命令はあまり得意ではない。

1grirl, 〜, outdoors, day...のような単調なプロンプトでは相応に単調な絵になる。ディティールを盛るなら、Danbooruタグと自然言語を組み合わせるのがベスト。
英文が苦手なら翻訳機で「これは~が~しているイラストです。~と~が背景にあります。このイラストは~な雰囲気です。」のような文章を英語にすればいい。チャットボットに考えてもらうのもいい。

タグは次の並びで学習している。これに従う必要はない(だが推奨)。
quality/meta/year/safety tags, 1girl/1boy/1other etc, character, series, artist, general tags

タグの区切りのコンマとスペースは必ず守ること。コンマだけだと隣接する単語の動作が変化する。

特殊タグ

品質タグや年代タグなど
品質タグ
  • 人間によるスコアベース
masterpiece, best quality, good quality, normal quality, low quality, worst quality
  • PonyV7のaesthetic modelベース
score_1〜score_9。Illustriousでいうaestheticタグに相当する?
高いスコアほど絵が美しくなるが、画風がSDXLのマージモデルのようなマスピ絵に近づく。
年代タグ
newest, recent, mid, early, old
またはyear 2020のように西暦で指定する。
レーティングタグ
左から順にDanbooruのgeneral, sensitive, questionable, explicitにあたる。
safe, sensitive, nsfw, explicit
アーティストタグ
"@big chungus"のように@を名前の頭につける。つけないと効果がかなり弱くなる。

強度指定

Text EncoderはSD1/SDXLで使用されるCLIPではなくQwen3(0.6B)というLLMだが、機能する(T5にマッピングしているから機能する?)。
しかし、SDXLほど効果は強くなく、15倍前後まで強くできる。大体70倍を超えると完全に壊れる。

Flow Shiftの値

低いほどディティールが増えるが不安定になる。高いほど安定するが、絵が平坦になる。
Animaのデフォルト値は3。解像度に合わせて高くするといいかも。
例えば1024x1024を1.5倍の1536x1536にアップスケーリングするなら4.5にするとか。

学習

diffusion-pipeまたはsd-scriptsのsd3ブランチでできる。
https://github.com/bluvoll/diffusion-pipe/tree/mai...
https://github.com/kohya-ss/sd-scripts/tree/sd3

ライセンス

CircleStoneLabsの独自ライセンス。独自と聞いて身構えるかもしれないが寛容なので安心しよう。
有料の生成サービスやモデルの販売などモデル自体の商用利用は禁止だが、出力は商用利用ができる。
モデルの使用は、違法または悪意のある目的を除き自由。

高速化

Spectrum

https://github.com/AdamNizol/ComfyUI-Anima-Enhance...
チェビシェフの多項式を用いて出力を予測して高速化する。劣化が比較的少ない。
注意
出力が常に変化するSDEソルバーでは効果がない。
途中でコンディショニング(プロンプト)を変えるとエラーになる。

EasyCache

ComfyUI内蔵の機能。出力をキャッシュして使い回す。
注意
出力が常に変化するSDEソルバーでは効果がない。
途中でコンディショニング(プロンプト)を変えても効果がなくなるかも。

DMD2

https://civitai.com/models/2466415/
蒸留LoRA。CFG1で使用する。
多様性を著しく低下させるが、わずか4ステップで収束する。
注意
ネガティブプロンプトは使えない(無視される)。
Anima対応版のNegPiPで代用すること。
https://github.com/pamparamm/ComfyUI-ppm

トラブルシューティング

画風が安定しない

ベースモデルで多様性が高いため仕様である。
画風を安定させるならアーティストタグを使うのが手っ取り早い。
あるいは画風LoRAを作って適用する。学習は素直で、作ったLoRAを適用すればネガティブ無しでも画風が安定する。

背景が単調

短いプロンプトでは単調になりがち。
ベースモデルで多様性が高い上Text Encoderが賢いLLMのため、書いていないものは生成しない傾向が強い。
Danbooruタグに加えて自然言語(英語)で具体的に指示することをお勧めする。

クロップされた画像が出る

Discrete Flow Shiftの値が小さすぎることが原因の一つ。
ComfyUIでModelSamplingAuraFlowノードを使用するなら、shift値はAnimaの初期値の3前後を推奨する。3でもたまに出るけど…

指が溶けたり数が多すぎたりする

学習解像度が低いpreview版の仕様。情報を統計的に処理しているだけのAIの宿命でもある。
手のポーズを指定すると緩和される。指定しないと平均的な手を出しておかしくなるのかも。
1024pxでFTされたものはこの問題が緩和されている。
しかし、1024pxで長い時間学習したとするpreview3はあまり緩和されていない気がする。

アップスケーリング(hires.fix)でアーティファクトが出る

ベースモデルのCosmos-Predictの仕様。
解像度を下げるか、Ultimate SD Upscaleなどでタイル生成をして回避する。

派生モデル

Anima Yume
https://civitai.com/models/2385278
preview版を1024pxでFine-Tuningしたもの。指の本数の誤りや構図の破綻が減少して扱いやすい。

Anima関連のツール類

Animaのスタイルエクスプローラ

https://thetacursed.github.io/Anima-Style-Explorer...
約二万人の絵師のスタイルが収録されている。

このページへのコメント

NAIv4のリリース当時と同じでプロンプトが混ざりにくい感じで、要素の両立が難しい場合はどれか一つだけが強く出やすい印象
後は背景の項目でも言われてるけど、指定してないものは勝手に描かない傾向故に目の情報が抜けるとhead out of frame的な構図になりやすいのも注意やね
解像度に関してはhiresには弱いけど素の入力サイズを1280x1280くらいまで盛るのは問題無く出力される感じやな(highres, absurdresを入れたりシフト値を上げた方がいい?)

1
Posted by 名無し(ID:KhNOq1q2Xg) 2026年02月14日(土) 07:22:20 返信

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Menu

table拡張js

どなたでも編集できます

広告募集中

メンバー募集!