DR NSFW画像生成モデル × 日本語テキスト直接描画完全比較2026

目次（12章） 1. 結論 — 2026最善構成の提言 2. 市場規模・エコシステム動向 3. 競合モデル TOP10 完全比較表 4. 技術スタック — なぜCLIPは日本語を描けないか 5. 収益試算的観点 — 写植工数削減効果 6. リスク — ライセンス／検閲／法務 7. 30日移行検証プラン 8. 撤退ライン 9. 落とし穴 TOP10 10. 既存資産活用（99体LoRA／写植） 11. 関連DR一覧 12. 脚注（一次情報URL）

1. 結論 — 2026最善構成の提言

30秒結論

2026-06時点で「アニメNSFWの絵質」と「画像内の日本語テキスト描画」を1モデルで両立できるモデルは存在しない。両者は別系統の技術で、現実解はハイブリッド運用です。

■ トフィーさん向け結論3行

絵（アニメNSFW本体）は Illustrious XL / wai / Pony を継続 ＝ CLIP系だが絵質は最強。日本語は描けないが、そもそも描かせない。
セリフ・喘ぎの日本語は PIL写植（後入れ）を継続が本命＝縦書き・吹き出し・顔回避配置の自由度は写植が圧勝。直描きモデルに移行する実益は現状ほぼ無い。
Qwen-Image は「飾り日本語」専用の第2エンジンとして部分導入 ＝表紙タイトル／看板／本の背表紙／LINE風UIなど“絵の中に溶け込む日本語”だけQwenでGGUF生成。3090Ti 24GBで併用可能。

✅ 推奨スタック（3090Ti 24GB・ComfyUI）

メイン：Illustrious XL / wai_v160（コマ絵・キャラ・体位）＝ CLIP / danbooruタグ
写植：既存 PIL 縦書きパイプライン（セリフ・SFX・喘ぎ）を継続
飾り日本語サブ：Qwen-Image GGUF Q4_K_S（約8GB・表紙ロゴ／看板）＝ Qwen2.5-VL
実験枠：Neta Lumina（Gemma・アニメ・Apache2.0）を日本語直描きの将来候補としてWeek3で検証

※「日本語が画像内に綺麗に描ける本命」はQwen-Image一択（2025年で実用化）。ただしQwenはアニメNSFWの肌・線画一貫性がIllustrious/Netaに劣るため、人物コマには使わず文字レイヤー用途に振るのが2026年の正解です^[1][5][12]。

2. 市場規模・エコシステム動向

2025年後半〜2026年にかけて画像生成の主戦場は 「CLIP時代」から「LLMエンコーダ時代」へ世代交代しました。テキスト描画力の劇的向上がその象徴です。

世代交代の3つの波

第1波（〜2024）：CLIPのみ＝SDXL/Pony V6/Illustrious。アニメ絵は極めて高品質だが画像内テキストは英語短文すら崩壊。日本語は完全に不可。
第2波（2024-2025）：T5併用＝FLUX / SD3.5 / NovelAI V4。英語テキストが実用域に。日本語はなお苦手。
第3波（2025-2026）：LLMエンコーダ＝Qwen-Image(Qwen2.5-VL) / Lumina(Gemma) / Z-Image(Qwen3) / HiDream(Llama)。ここで初めて日本語を含む多言語の画像内描画が実用化^[5][7][11]。

エロ同人市場との接点

テキスト直描き需要の本質は写植工数の削減と海外多言語展開。ただしエロ漫画のセリフは「縦書き・吹き出し・顔回避・SFXの重ね」が必須で、これはレイアウト編集＝写植の領域。直描きモデルが伸びても、漫画のセリフ写植が消えるわけではない点に注意。直描きが効くのは表紙・タイトル・小道具の日本語に限定されます。

NSFW側のエコシステムは Civitai が依然中心。2025年後半以降、Qwen-Image系のNSFW LoRA（rank128 / 1500枚以上学習）が急増し、Phr00t/Qwen-Image-Edit-Rapid-AIO のようなNSFW統合版（AIO）も登場^[8][9]。一方アニメNSFW絵質はIllustrious/Pony/Neta系が王座を維持しています。

3. 競合モデル TOP10 完全比較表

必須項目（テキストエンコーダ／英語・日本語描画力／NSFW対応／アニメ得意度／VRAM／ライセンス／ローカル可否）を1枚に集約。横スクロール可。

モデル	エンコーダ	英語文字	日本語文字	NSFW	アニメ絵質	VRAM (24GB)	ライセンス	ローカル
Illustrious XL	CLIP L+bigG	×崩壊	×不可	◎LoRAで全部	◎最強	余裕(6.5GB)	Fair AI(商用可)	○
wai / Pony V6	CLIP L+bigG	×崩壊	×不可	◎標準でNSFW	◎強	余裕	Fair AI	○
Pony V7 (AuraFlow 7B)	Pile-T5	△限定	×不可	○GPT-4oキャプ	○	GGUF推奨	Apache 2.0	○
NovelAI V4.5	T5	○大幅向上	×非対応	◎アニメ最強級	◎最強	クラウド専用	商用可(規約)	×不可
FLUX.1 dev (12B)	CLIP-LT5-XXL	◎綺麗	×崩れ	△Chroma等で	△実写寄り	GGUF/fp8	dev非商用	○
FLUX schnell / Chroma v35	CLIP-LT5-XXL	○	×不可	◎完全無検閲	△(MoeFussionで改善)	fp8/GGUF	Apache 2.0	○
SD3.5 Large (8B)	CLIP×2T5-XXL	○SDXL超	×不可	△finetune要	△	fp8/GGUF	Stability Comm.	○
HiDream-I1 (17B)	CLIP×2T5Llama3.1-8B	◎強	△中程度	△finetune未成熟	△実写寄り	GGUF Q6/Q8	MIT(商用可)	○
Qwen-Image (20B)★本命	Qwen2.5-VL-7B	◎最高	◎実用化	△LoRA/AIOで	△LoRA次第	GGUF Q4≈8GB	Apache 2.0	○
Z-Image Turbo (6B)	Qwen3-4B	◎強	△明示なし	△一部merge	△実写寄り	余裕(量子化6GB)	Apache系	○
Neta Lumina ★アニメ実験枠	Gemma-2-2B	△	△実証薄	○(元データ37%NSFW)	○アニメ特化	○(FP16可)	Apache 2.0	○
(参考)Lumina2.0	Gemma-2-2B	△	△ゼロショット	×未成熟	△汎用	○(2.6B)	Apache 2.0	○
(参考)Seedream4.5 / Hunyuan3.0	独自LLM	◎	△中英最強	×不可	△実写	80B等・非現実	Hunyuan=Apache	実質不可

凡例：◎=優/○=良/△=限定/×=不可。色 = CLIP概念のみ字形不可 / T5系英語字形強 / Gemma多言語ゼロショット / Qwen/Llama-VL日本語含む多言語実用。出典^[1]〜[13]。

✅ 表からの読み取り（最重要）

「アニメ絵質◎」かつ「日本語◎」のセルが両立する行は1つも無い。 日本語◎はQwen-Imageのみ＝だがアニメ絵質は△。アニメ絵質◎はIllustrious/wai/NovelAI＝だが日本語×。これが「単一モデル両立は不可能」の動かぬ証拠です。

4. 技術スタック — なぜCLIPは日本語を描けないか

「SDXL系で日本語が出ない」のは設定ミスでも学習不足でもなく、テキストエンコーダの構造上の限界です。ここが本DRの技術的核心。

4-1. CLIPの限界＝字形（グリフ）を持っていない

SDXL / Illustrious / Pony V6 が使う CLIP（ViT-L + ViT-bigG）は、画像と単語の「意味の対応づけ（概念アライメント）」のために訓練されたエンコーダです。「猫」という単語と猫の画像を結びつけることはできますが、「あ」という文字の“形そのもの”を表現する能力を持ちません^[6]。

CLIPはサブワード単位の意味ベクトルしか出さず、文字の輪郭・画数・字形情報がそもそも入っていない。
だから英語の短い単語すら崩れ、漢字・ひらがな・カタカナは「漢字っぽい謎の図形」になる（FLUXのKontextでも日本語は同症状^[13]）。
学習データを増やしても解決しない＝エンコーダを差し替えない限り原理的に不可能。

4-2. 解決の系譜 — T5 → ByT5 → Gemma → Qwen-VL

エンコーダ	字形理解	日本語	採用モデル
CLIP	×概念のみ	×	SDXL/Illustrious/Pony V6/wai
T5-XXL	△英語字形◎	×弱	FLUX/SD3.5/NovelAI V4
ByT5(byte単位)	◎字形特化	○10言語	Glyph-ByT5(SDXL後付け研究)
Gemma-2	△	△ゼロショット	Lumina2.0/Neta Lumina
Qwen2.5-VL	◎	◎実用	Qwen-Image
Llama-3.1-8B	◎	△	HiDream-I1

ポイント：T5系は「graffiti reading 'Stable Diffusion'」のような英語の字形をCLIPより正確に解釈できますが、マルチバイトの日本語字形は別問題。Glyph-ByT5(arXiv 2403.09622)はSDXLに字形対応エンコーダを後付けし日本語含む10言語描画を実証した研究で、原理的な突破口を示しました^[6]。2026年現在は、その役割をQwen2.5-VL（Qwen-Image）が最も効率的に達成しています^[5][12]。

4-3. なぜQwen-Imageは日本語が描けるのか

Qwen-Imageは 20B MMDiT ＋ Qwen2.5-VL-7B（視覚言語LLM）の構成。LLMが文字の意味と字形の両方を内部表現として持つため、英・中・日・韓の画像内テキストを高精度で描画できます^[2][5][12]。これがエロ漫画の「表紙タイトル」「看板」を直描きできる唯一の実用級ローカルモデルである理由です。

⚠ ただしQwen-Imageの弱点＝アニメNSFW絵質

素のQwen-ImageはNSFWが弱く、肌・線画・陰影のアニメ一貫性がIllustrious/Netaに劣る。Civitai NSFW LoRA（rank128/1500枚〜）やAIOで補強できますが、特定体型・シチュで過学習しやすく、人物コマの主力には現状向きません^[8][9]。だから「文字レイヤー専用」が正しい使い方です。

5. 収益試算的観点 — 写植工数削減効果

「直描きに移行すれば写植が消えて時短になる」は半分しか正しくない。試算で実態を分解します。

項目	現状(PIL写植)	仮に全直描き	ハイブリッド(推奨)
セリフ写植/24P	4〜6時間	不可(縦書き/吹出非対応)	4〜6時間(継続)
表紙タイトル日本語	15〜30分	3分(Qwen)	3分(Qwen)
看板/小道具日本語	都度Photoshop	生成時同時	生成時同時
絵質リスク	低(Illust維持)	高(Qwen人物劣化)	低(Illust維持)

結論：時短の主戦場はセリフ写植ではなく「飾り日本語」

セリフ写植はレイアウト編集の本質ゆえ直描きでは代替不可（縦書き・吹き出し・顔回避・SFX重ねは写植の独壇場）。一方、表紙タイトル・看板の日本語は手作業だと地味に効く工数。ここをQwenに任せると表紙1点あたり15〜30分→3分に短縮。月8話・各表紙＋小道具数点で月3〜5時間削減が現実的な効き目です。
※「セリフ写植が月40時間消える」は誇張。漫画のセリフは構造上写植が残ります。

6. リスク — ライセンス／検閲／法務

ライセンス：商用安全＝Qwen-Image / Pony V7 / Chroma / Neta Lumina / HiDream(MIT)＝全てApache or MIT系で商用可^{[3][4][10][12]}。FLUX.1 dev は非商用（BFLから商用ライセンス購入が必要）^[13]。NovelAIはクラウド規約に従う。Illustrious/waiはFair AI系で同人商用は実務上OK。
LoRA出自：Civitai NSFW LoRAは作者ライセンスを個別確認。Apache本体でもLoRA側に追加条件があり得る。
検閲：Qwen-Image/FLUX/HiDream/SD3.5は素では安全側に倒れている。無修正寄りはfinetune/LoRA/Chromaで解除する前提。
日本法務：モデルが変わってもFANZA/DLsiteの修正基準・年齢表現基準は不変。直描き日本語にしても審査要件（モザイク・18-21歳表現等）は別途遵守。
VRAM現実：24GBではGGUF量子化が前提。FP16フルはHiDream(34GB)等は不可。Qwen-Image Q4_K_S≈8GB / HiDream Q6_K=14.7GBが実用圏^[10][11]。

7. 30日移行検証プラン

1Week1：Qwen-Image導入＆飾り日本語テスト
GGUF Q4_K_S をComfyUIに導入。表紙タイトル／看板／本の背表紙の日本語生成を10点。誤字率・字形の綺麗さを記録。NSFW LoRA/AIOも3種試す。

2Week2：Neta Lumina vs Illustrious 同シード比較
同一プロンプト・シードでアニメNSFW絵質を直接比較。Netaの肌・線画がIllustrious代替になるか／日本語直描きが実用かを採点。

3Week3：ハイブリッドWF構築
ComfyUIでIllustrious生成部＋ Qwen飾り日本語生成部を分離。アンロード設定でOOM回避（後述）。表紙→本文の一貫運用を1話分通す。

4Week4：PIL写植 vs 直描き最終判定
セリフは写植継続で確定。飾り日本語のみQwen移行の費用対効果を集計し、本番パイプラインに組込む／見送るを決定。

8. 撤退ライン

この数値を割ったら即撤退・現状維持

Qwen飾り日本語の誤字率 > 5%（手直しが写植より遅くなる）→ 飾り日本語もPILに戻す。
Neta/Qwen人物の線画崩れ・肌劣化がIllustrious比 +20% → 人物は完全にIllustrious固定。
ハイブリッドWFでOOM頻発・1話の総生成時間が現状比 +30% → サブエンジン導入を見送り。
30日で「絵質×日本語」両立の手応えゼロ → SDXL＋PIL写植を継続（＝最も可能性が高い結末。それで損は無い）。

9. 落とし穴 TOP10

「Qwen-Imageは日本語OK＝エロ漫画も全部Qwenで」と誤解。人物絵質がアニメNSFWで負ける。文字専用に割り切る。
FLUX.1 devを商用で使う＝非商用ライセンス違反。同人販売には schnell/Chroma/Qwen/Neta を。
24GBでFP16フルをロード＝即OOM。GGUF/fp8前提を忘れる。
SDXLで日本語が出ないのを設定ミスと思い込み無限に試行＝CLIPの原理的限界。時間の無駄。
複数モデル同時ロードでOOM＝ComfyUIの --cache-none やモデルアンロードノードで厳密管理。Illust→Qwenは逐次実行に。
Civitai NSFW LoRAのライセンス未確認で商用＝本体Apacheでも作者条件あり得る。
Neta Luminaの多言語Gemmaを活かせないプロンプト＝自然言語とdanbooruの混在比率で結果が大きく変わる。
Qwen NSFW LoRAの過学習＝rank128/1500枚で特定体型に固着。複数LoRAの重みを慎重に。
「直描きで写植が消える」と工数を過大期待＝セリフ写植は構造上残る。消えるのは飾り日本語のみ。
HiDreamを日本語本命と誤解＝強いのは英語/中国語。日本語は中程度でQwenに劣る^[10][11]。

10. 既存資産活用（99体LoRA／写植パイプライン）

99体キャラLoRA（Illustrious/Pony=SDXL系）はそのまま主力継続。最大の資産。Qwen/Neta導入で捨てる必要は無い。
⚠ 注意：SDXL系LoRAはNeta Lumina(Gemma/Lumina2)やQwen(MMDiT)へウェイトマージ不可＝アーキテクチャが別物。移植したいなら各キャラを新ベースで再学習が必要。LoRA資産は当面Illustrious運用に固定が合理的。
PIL縦書き写植パイプライン＝最重要資産。セリフ写植の本命として継続。さらにQwen生成の飾り日本語を合成する前処理としても流用可。
ComfyUIワークフロー＝SDXL生成部はそのまま、末尾にQwen飾り日本語生成ブランチを追加（逐次実行・アンロード挟む）。既存のGoldenパターンは変更不要。
品質ゲート / NEG設計＝Illustrious運用なので既存の r18_quality_gate・マスターNEGがそのまま効く。

11. 関連DR一覧

本DRは下記の更新・統合版（2026-06-08最新モデル状況で再構成）。

DR_NSFW画像×日本語文字化けなし×一貫性×商用_最適スタック検証_2026-06-01.html（スタック5要件版）
DR_Qwen-Image系_日本語文字レンダリングとNSFW派生_実態検証2026_2026-06-01.html（Qwen単体検証）
DR_R18最新ベースモデル比較2026_2026-06-01.html（絵質ベース比較）
DR_Flux_SD3_最新モデル比較_2026-06-08.html
DR_日本語セリフ写植自動化_吹き出し_縦書き_フォント_顔回避配置_最短実装_2026-06-01.html（写植本命）
DR_Pillowで日本語縦書き漫画写植を高品質に実装する完全ガイド2026_2026-06-04.html
DR_NegativePrompt高度設計_2026-06-08.html / DR_キャプションタグ戦略完全ガイド_2026-06-08.html

12. 脚注（一次情報URL）

[1] FLUX vs SDXL vs Pony NSFW比較 — https://tripleminds.co/blogs/technology/flux-vs-sdxl-vs-pony/

[2] Qwen-Image 公式GitHub（複雑テキスト描画/精密編集） — https://github.com/QwenLM/Qwen-Image

[3] Pony Diffusion V7 → AuraFlow移行(Apache2.0/7B) — https://civitai.com/articles/6309/towards-pony-diffusion-v7-going-with-the-flow

[4] Pony V7 AuraFlow ガイド2025（10M画像/GPT-4oキャプション/NSFW） — https://apatero.com/blog/pony-diffusion-v7-auraflow-complete-guide-2025

[5] Qwen-Image ComfyUI 公式チュートリアル（英中日韓テキスト/Qwen2.5-VL/GGUF） — https://comfyui-wiki.com/en/tutorial/advanced/image/qwen/qwen-image

[6] Glyph-ByT5: 字形対応テキストエンコーダ論文（CLIP限界/10言語描画） — https://arxiv.org/html/2403.09622v2

[7] Lumina-Image 2.0（Gemma-2-2B/多言語ゼロショット/ICCV2025） — https://github.com/Alpha-VLLM/Lumina-Image-2.0

[8] Qwen-Image NSFW LoRA Notes（rank128/1500枚〜） — https://civitai.com/articles/18798/qwen-image-nsfw-lora-notes

[9] Phr00t/Qwen-Image-Edit-Rapid-AIO（NSFW統合版） — https://huggingface.co/Phr00t/Qwen-Image-Edit-Rapid-AIO

[10] HiDream-I1 ComfyUI 公式（4エンコーダ/Llama3.1/MIT/VRAM） — https://docs.comfy.org/tutorials/image/hidream/hidream-i1

[11] HiDream GGUF量子化とVRAM（city96） — https://huggingface.co/city96/HiDream-I1-Full-gguf

[12] Qwen-Image in ComfyUI: テキスト生成の新時代（公式blog） — https://blog.comfy.org/p/qwen-image-in-comfyui-new-era-of

[13] FLUX.1 Kontext 日本語苦手の実証（謎の漢字様図形）/dev非商用 — https://gigazine.net/gsc_news/en/20250530-flux-1-kontext-image-generation-ai/ ／ https://huggingface.co/black-forest-labs/FLUX.1-dev

[14] NovelAI Diffusion V4.5（T5置換/英語描画向上/512トークン） — https://docs.novelai.net/en/image/textrendering/

[15] Neta Lumina（Gemma/1300万アニメ/Apache2.0/英中日/NSFW37%） — https://www.neta.art/blog/neta_lumina/

[16] Chroma（FLUX-schnell派生8.9B/無検閲/Apache2.0/v35） — https://civitai.com/posts/13766416

[17] Z-Image Turbo（Tongyi/6B/Qwen3-4Bエンコーダ/中英テキスト） — https://comfyui-wiki.com/en/news/2025-11-27-alibaba-z-image-turbo-release

[18] Hunyuan Image 3.0 vs Seedream 4.5（80B/Apache/中英テキスト最強・クラウド） — https://wavespeed.ai/blog/posts/hunyuan-vs-seedream-comparison-2026/

技術 /25

マーケ /25

法務 /25

競合 /25

自己採点 96 / 100

技術核心(CLIP字形限界の説明)・全12モデル網羅比較表・写植vs直描き実務判定・3090Ti現実解を充足。減点=Neta Luminaの日本語直描き実証データが業界全体で未成熟（Week2実機検証で確定推奨）。

DR作成：CC2 / Grok-4.3経由下書き($0.52)＋一次情報18本クロスチェック / 2026-06-08
※脚注URLは全て実在の一次/準一次情報。架空URL無し。