最終更新:ID:zEIDipHhew 2026年04月08日(水) 18:15:59履歴
https://huggingface.co/circlestone-labs/Anima
CircleStone LabsとComfy Orgが開発する、アニメイラストに特化したMMDiTモデル。NVIDIAのCosmos-Predict2がベースである。
まだ開発中だが、すでにSDXLのIllustrious-XLを全面的に上回っているように感じる。
パラメータ数は2Bと現代のMMDiTモデルの中では軽量な方で、VRAM8GBで快適に動作する(だが計算はSDXLより二倍遅い)。
現時点で1024x1024中心に学習したプレビュー3であり、リリース版は開発中。
CircleStone LabsとComfy Orgが開発する、アニメイラストに特化したMMDiTモデル。NVIDIAのCosmos-Predict2がベースである。
まだ開発中だが、すでにSDXLのIllustrious-XLを全面的に上回っているように感じる。
パラメータ数は2Bと現代のMMDiTモデルの中では軽量な方で、VRAM8GBで快適に動作する(だが計算はSDXLより二倍遅い)。
現時点で1024x1024中心に学習したプレビュー3であり、リリース版は開発中。
要約すると
- 水平線やフェンスがずれたり曲がったりといった破綻が少ない。
- 色綺麗だし明暗の表現がいい。Noob v-predより良い。
- 細部の描写が良く目などが潰れにくい。
- 自然言語による位置などの具体的な指示が可能。
- メモリ使用量がSDXLより少ない。SDXLは6.9GB必要だがAnimaは5.6GBで済む。
- 学習のコストがSDXLと同等かそれ未満で済む
SDXLは畳み込みニューラルネットワークがベースのU-Netアーキテクチャだが、これは現在主流のTransformerベースのDiffusion Transformer(DiT)を採用する。
DiTは水平線や物体の構造の一貫性維持が比較的得意で破綻が少ない。
パラメータ数は2Bと現代のMMDiTモデルの中では軽量な方。SDXLは2.6B。
DiTは水平線や物体の構造の一貫性維持が比較的得意で破綻が少ない。
パラメータ数は2Bと現代のMMDiTモデルの中では軽量な方。SDXLは2.6B。
Text Encoderは、Qwen3-0.6Bの出力をT5XXLにマッピングしており、SDXLのCLIP-L+Gより軽量で高性能。位置や文字などの具体的な情報を解釈できる。
CLIPよりは確実に良いがLLMとしては弱い方。ちなみにより大型のTEにしても元のTE(T5XXL)が弱いからあまり意味がないとか。
CLIPよりは確実に良いがLLMとしては弱い方。ちなみにより大型のTEにしても元のTE(T5XXL)が弱いからあまり意味がないとか。
- DiTであるが故に計算が遅い。大体SDXLの二倍の時間がかかる。
- 対応UIが少ない。Forge Neo以外のA1111系は非対応。
- 知識やLoRAなどの資産が少ない。もちろんSDXLとの互換性はない。
- 2026-04-02時点でプレビュー版である。
- 学習解像度を大きく上回る解像度で生成すると出力がモザイク状になる(Cosmos-Predictの仕様)。特に縦長の比率で発生しやすい。
- TEが軽量だが相応に弱く、文字の描写ととても複雑なプロンプトは苦手。
- 学習解像度が低いためか指が溶けやすい。1024pxで学習するリリース版で修正されると思われる。
- 名前があまりにも一般的でweb検索しづらい
Hugging Faceリポジトリから次のファイルをDLして配置する。
ComfyUI/models/diffusion_modelsにanima-preview.safetensors
ComfyUI/models/text_encodersにqwen_3_06b_base.safetensors
ComfyUI/models/vaeにqwen_image_vae.safetensors
ComfyUIのテンプレートにAnimaがあるのでそこから生成を始めるといい。
ComfyUI/models/diffusion_modelsにanima-preview.safetensors
ComfyUI/models/text_encodersにqwen_3_06b_base.safetensors
ComfyUI/models/vaeにqwen_image_vae.safetensors
ComfyUIのテンプレートにAnimaがあるのでそこから生成を始めるといい。
- 解像度: 画素数が1024x1024や832x1216などの104万画素に近似する値
- Steps: 30-50(実際には20ステップで十分)
- Guidance Scale: 4-5
公式には書いていないがこれらが良い感じ。
Euler ancestralは絵がぼやける傾向がSDXLより強い。
- Sampler: RES Multistepが無難。ER SDE、Gradient Estimation、SA Solver、Eulerでもよい。
- Scheduler: Simpleが無難。NormalやSGM UniformでもOK。
- KarrasとExponentialは非対応(SDXL以前のepsilonモデル専用)。Flow MatchingのAnimaに最適なはずのLinear Quadraticは収束が遅いので微妙。
Euler ancestralは絵がぼやける傾向がSDXLより強い。
プロンプトはDanbooruタグと自然言語(英語)の両方が使える。位置指定や文字描写などの具体的な命令もOK。
しかし、TEが小型なため正確な位置、順番の指定や文字の描写などの複雑な命令はあまり得意ではない。
1grirl, 〜, outdoors, day...のような単調なプロンプトでは相応に単調な絵になる。ディティールを盛るなら、Danbooruタグと自然言語を組み合わせるのがベスト。
英文が苦手なら翻訳機で「これは~が~しているイラストです。~と~が背景にあります。このイラストは~な雰囲気です。」のような文章を英語にすればいい。チャットボットに考えてもらうのもいい。
タグは次の並びで学習している。これに従う必要はない(だが推奨)。
タグの区切りのコンマとスペースは必ず守ること。コンマだけだと隣接する単語の動作が変化する。
しかし、TEが小型なため正確な位置、順番の指定や文字の描写などの複雑な命令はあまり得意ではない。
1grirl, 〜, outdoors, day...のような単調なプロンプトでは相応に単調な絵になる。ディティールを盛るなら、Danbooruタグと自然言語を組み合わせるのがベスト。
英文が苦手なら翻訳機で「これは~が~しているイラストです。~と~が背景にあります。このイラストは~な雰囲気です。」のような文章を英語にすればいい。チャットボットに考えてもらうのもいい。
タグは次の並びで学習している。これに従う必要はない(だが推奨)。
quality/meta/year/safety tags, 1girl/1boy/1other etc, character, series, artist, general tags
タグの区切りのコンマとスペースは必ず守ること。コンマだけだと隣接する単語の動作が変化する。
- 人間によるスコアベース
masterpiece, best quality, good quality, normal quality, low quality, worst quality
- PonyV7のaesthetic modelベース
高いスコアほど絵が美しくなるが、画風がSDXLのマージモデルのようなマスピ絵に近づく。
左から順にDanbooruのgeneral, sensitive, questionable, explicitにあたる。
safe, sensitive, nsfw, explicit
Text EncoderはSD1/SDXLで使用されるCLIPではなくQwen3(0.6B)というLLMだが、機能する(T5にマッピングしているから機能する?)。
しかし、SDXLほど効果は強くなく、15倍前後まで強くできる。大体70倍を超えると完全に壊れる。
しかし、SDXLほど効果は強くなく、15倍前後まで強くできる。大体70倍を超えると完全に壊れる。
低いほどディティールが増えるが不安定になる。高いほど安定するが、絵が平坦になる。
Animaのデフォルト値は3。解像度に合わせて高くするといいかも。
例えば1024x1024を1.5倍の1536x1536にアップスケーリングするなら4.5にするとか。
Animaのデフォルト値は3。解像度に合わせて高くするといいかも。
例えば1024x1024を1.5倍の1536x1536にアップスケーリングするなら4.5にするとか。
diffusion-pipeまたはsd-scriptsのsd3ブランチでできる。
https://github.com/bluvoll/diffusion-pipe/tree/mai...
https://github.com/kohya-ss/sd-scripts/tree/sd3
https://github.com/bluvoll/diffusion-pipe/tree/mai...
https://github.com/kohya-ss/sd-scripts/tree/sd3
CircleStoneLabsの独自ライセンス。独自と聞いて身構えるかもしれないが寛容なので安心しよう。
有料の生成サービスやモデルの販売などモデル自体の商用利用は禁止だが、出力は商用利用ができる。
モデルの使用は、違法または悪意のある目的を除き自由。
有料の生成サービスやモデルの販売などモデル自体の商用利用は禁止だが、出力は商用利用ができる。
モデルの使用は、違法または悪意のある目的を除き自由。
https://github.com/AdamNizol/ComfyUI-Anima-Enhance...
チェビシェフの多項式を用いて出力を予測して高速化する。劣化が比較的少ない。
チェビシェフの多項式を用いて出力を予測して高速化する。劣化が比較的少ない。
ベースモデルで多様性が高いため仕様である。
画風を安定させるならアーティストタグを使うのが手っ取り早い。
あるいは画風LoRAを作って適用する。学習は素直で、作ったLoRAを適用すればネガティブ無しでも画風が安定する。
画風を安定させるならアーティストタグを使うのが手っ取り早い。
あるいは画風LoRAを作って適用する。学習は素直で、作ったLoRAを適用すればネガティブ無しでも画風が安定する。
短いプロンプトでは単調になりがち。
ベースモデルで多様性が高い上Text Encoderが賢いLLMのため、書いていないものは生成しない傾向が強い。
Danbooruタグに加えて自然言語(英語)で具体的に指示することをお勧めする。
ベースモデルで多様性が高い上Text Encoderが賢いLLMのため、書いていないものは生成しない傾向が強い。
Danbooruタグに加えて自然言語(英語)で具体的に指示することをお勧めする。
Discrete Flow Shiftの値が小さすぎることが原因の一つ。
ComfyUIでModelSamplingAuraFlowノードを使用するなら、shift値はAnimaの初期値の3前後を推奨する。3でもたまに出るけど…
ComfyUIでModelSamplingAuraFlowノードを使用するなら、shift値はAnimaの初期値の3前後を推奨する。3でもたまに出るけど…
学習解像度が低いpreview版の仕様。情報を統計的に処理しているだけのAIの宿命でもある。
手のポーズを指定すると緩和される。指定しないと平均的な手を出しておかしくなるのかも。
1024pxでFTされたものはこの問題が緩和されている。
しかし、1024pxで長い時間学習したとするpreview3はあまり緩和されていない気がする。
手のポーズを指定すると緩和される。指定しないと平均的な手を出しておかしくなるのかも。
1024pxでFTされたものはこの問題が緩和されている。
しかし、1024pxで長い時間学習したとするpreview3はあまり緩和されていない気がする。
ベースモデルのCosmos-Predictの仕様。
解像度を下げるか、Ultimate SD Upscaleなどでタイル生成をして回避する。
解像度を下げるか、Ultimate SD Upscaleなどでタイル生成をして回避する。
https://thetacursed.github.io/Anima-Style-Explorer...
約二万人の絵師のスタイルが収録されている。
約二万人の絵師のスタイルが収録されている。
このページへのコメント
NAIv4のリリース当時と同じでプロンプトが混ざりにくい感じで、要素の両立が難しい場合はどれか一つだけが強く出やすい印象
後は背景の項目でも言われてるけど、指定してないものは勝手に描かない傾向故に目の情報が抜けるとhead out of frame的な構図になりやすいのも注意やね
解像度に関してはhiresには弱いけど素の入力サイズを1280x1280くらいまで盛るのは問題無く出力される感じやな(highres, absurdresを入れたりシフト値を上げた方がいい?)