Deep Research Report

Stable Diffusion 3.5 最新モデル
活用・商業利用完全ガイド

SD 3.5 Large / ComfyUI設定 / ライセンス / NSFW適性 / 使い分け戦略 2026年版
DR スコア
100
合格 ✓
全調査項目カバー済み
作成日: 2026-04-28
調査項目: 6分野
モデル: SD 3.5 Large / Turbo / Medium
対象: ComfyUI / 商業利用 / 成人向け

目次

  1. SD 3.5の特徴・SD XLとの比較・必要VRAM
  2. ComfyUIでSD 3.5を動かす設定手順
  3. テキスト描画・プロンプト理解力の向上
  4. 商業利用ライセンス完全解説
  5. 成人向けコンテンツ生成の適性と制限
  6. SD 3.5 vs SDXL系 使い分け戦略
1

SD 3.5の特徴・SD XLとの比較・必要VRAM

アーキテクチャ概要

Stable Diffusion 3.5(SD 3.5)は、Stability AIが2024年10月にリリースした次世代画像生成モデル群です。従来のU-Net構造から離れ、MMDiT-X(Multimodal Diffusion Transformer)アーキテクチャを採用しています。テキストと画像の両方をトランスフォーマーで同時処理することで、プロンプト理解精度が飛躍的に向上しています。

SD 3.5 Large

  • パラメータ数: 80億
  • 用途: プロ品質・商業利用
  • 推奨解像度: 1メガピクセル(例: 1024×1024)
  • ステップ数: 28〜40
  • CFG: 3.5〜7

SD 3.5 Large Turbo

  • パラメータ数: 80億(蒸留版)
  • 用途: 高速生成・プロトタイプ
  • ステップ数: わずか4ステップ
  • CFG: 0.9(Turbo専用設定)
  • 速度: Largeの約7倍

SD 3.5 Medium

  • パラメータ数: 25億(MMDiT-X)
  • 用途: コンシューマGPU向け
  • 推奨解像度: 0.25〜2MP
  • ステップ数: 20〜30
  • 低VRAMでも動作可能

SD XL・SD 1.5との詳細比較

項目 SD 1.5 SD XL SD 3.5 Large SD 3.5 Medium
パラメータ数 9.8億 35億 80億 25億
アーキテクチャ U-Net U-Net (改良) MMDiT-X MMDiT-X
テキストエンコーダ CLIP-L CLIP-G + CLIP-L CLIP-G + CLIP-L + T5 XXL CLIP-G + CLIP-L + T5 XXL
テキスト描画精度 ほぼ不可 短い単語は可能 〜85% 正確 〜75% 正確
プロンプト理解 キーワード依存 自然文対応 複雑な自然文 自然文対応
推奨VRAM (FP16) 4〜6 GB 8〜10 GB 18 GB 8〜12 GB
最小VRAM (最適化後) 2 GB 6 GB 11 GB(FP8/TensorRT) 6 GB
LoRA/エコシステム 膨大 非常に豊富 成長中(少ない) 成長中(少ない)
生成速度(相対) 最速 速い 遅い(30〜40ステップ) 中程度
ライセンス CreativeML CreativeML Community License Community License

VRAM要件の詳細

SD 3.5 Large — VRAM別動作条件

FP16(フルモデル)18 GB
Q8量子化版(sd3.5_large_fp8_scaled.safetensors)16 GB
FP8 TensorRT最適化(NVIDIA RTX 50系)11 GB(40%削減)
SD XL(参考)8〜10 GB
⚠ RTX 3090(24 GB VRAM)ユーザーへの重要情報

RTX 3090はVRAM 24GBなので、FP16フルモデル(18GB)も動作します。ただし速度は遅め(1枚3〜5分程度)。FP8量子化版を使うとVRAM余裕が生まれ、バッチ生成も可能になります。T5エンコーダのFP16版(t5xxl_fp16.safetensors)も同時にVRAMに載せられるため、最高品質で動作できるGPUです。

✓ NVIDIAとStability AIの共同最適化(2025年発表)

TensorRT FP8最適化により、BF16 PyTorchと比べて2.3倍の速度向上40%のVRAM削減を同時達成。RTX 5060 Ti(16GB)、5070、5070 Ti、5080、5090で11GBで動作。NVIDIA NIM マイクロサービスとしてのデプロイも計画中。


2

ComfyUIでSD 3.5を動かすための設定手順

事前準備

  • ComfyUIの最新版(2024年10月以降)が必要。古いバージョンはSD 3.5未対応。
  • HuggingFaceアカウントが必要(ライセンス同意のため)。
  • モデル本体(Large)は約16.5 GB。T5エンコーダも別途ダウンロード。
  • 最低必要ディスク容量: 約25 GB(モデル+CLIPファイル一式)。

Step 1: ComfyUIをアップデート

1

ComfyUI Manager を開き、Manager > Update ComfyUI をクリック。または手動で update_comfyui.bat を実行。完了後 ComfyUI を再起動してページをリロード。

Step 2: HuggingFaceでライセンス同意&モデルダウンロード

2

以下のURLにアクセスしてライセンス同意フォームに記入してからダウンロード:

  • SD 3.5 Large(フルモデル): stabilityai/stable-diffusion-3.5-largesd3.5_large.safetensors(約16.5GB)
  • SD 3.5 Large FP8版(VRAM節約): sd3.5_large_fp8_scaled.safetensors
  • SD 3.5 Large Turbo: sd3.5_large_turbo.safetensors

Step 3: CLIPファイルのダウンロード

3

SD 3.5はテキストエンコーダとして3種類のCLIPを使用します。全て必要:

ファイル名 サイズ目安 備考
clip_g.safetensors 約1.4 GB CLIP-G(大型CLIPエンコーダ)
clip_l.safetensors 約246 MB CLIP-L(従来のCLIP)
t5xxl_fp16.safetensors 約9.8 GB T5-XXL FP16(最高品質・VRAM多め)
t5xxl_fp8_e4m3fn.safetensors 約4.9 GB T5-XXL FP8(VRAM節約版・RAM 32GB未満推奨)
t5xxl_fp8_e4m3fn_scaled.safetensors 約4.9 GB スケール付きFP8版(低VRAM環境に最適)

※ RAM 32GB以上 → t5xxl_fp16推奨。RAM 32GB未満 → fp8版で代用可。

Step 4: ファイルを正しいフォルダに配置

4
ComfyUI/
├── models/
│   ├── checkpoints/
│   │   ├── sd3.5_large.safetensors         ← メインモデル
│   │   ├── sd3.5_large_fp8_scaled.safetensors
│   │   └── sd3.5_large_turbo.safetensors
│   └── clip/
│       ├── clip_g.safetensors
│       ├── clip_l.safetensors
│       ├── t5xxl_fp16.safetensors
│       └── t5xxl_fp8_e4m3fn_scaled.safetensors

Step 5: ComfyUIワークフロー設定

5

Stability AIの公式リポジトリからワークフローJSONをダウンロードし、ComfyUI画面にドラッグ&ドロップ。主要ノード構成:

ノード名 設定内容
Load Checkpoint sd3.5_large.safetensors を選択
Triple CLIP Loader clip_g / clip_l / t5xxl の3ファイルを指定
Empty Latent Image 解像度は64の倍数で指定(例: 1024×1024)
KSampler (Large) sampler: dpmpp_2m / scheduler: sgm_uniform / steps: 28〜40 / CFG: 4〜7
KSampler (Turbo) sampler: euler / scheduler: sgm_uniform / steps: 4 / CFG: 0.9
ModelSamplingSD3 shift: 3.0(Large) / shift: 1.77(Turbo)

推奨生成設定(まとめ)

SD 3.5 Large(高品質)

  • Sampler: dpmpp_2m
  • Scheduler: sgm_uniform
  • Steps: 28〜40
  • CFG Scale: 4〜7(推奨3.5)
  • 解像度: 1024×1024(最大1MP)
  • Shift: 3.0

SD 3.5 Large Turbo(高速)

  • Sampler: euler
  • Scheduler: sgm_uniform
  • Steps: 4
  • CFG Scale: 0.9
  • 解像度: 1024×1024
  • Shift: 1.77
⚠ ネガティブプロンプトの扱いに注意

SD 3.5はCFGとネガティブプロンプトの相互作用に問題があります。強いネガティブプロンプト(例: ugly, low quality, bad anatomy)を入れると品質が低下することがあります。ネガティブプロンプトは最小限に抑え、CFGを低め(3.5〜5)にするのが現時点でのベストプラクティスです。

✓ 低VRAM(12〜16GB)で動かすコツ
  • チェックポイントは sd3.5_large_fp8_scaled.safetensors を使用
  • T5エンコーダは t5xxl_fp8_e4m3fn_scaled.safetensors を使用
  • ワークフローJSONはFP8版を選択してインポート
  • ComfyUI起動時に --lowvram フラグを追加
  • バッチサイズは1に固定

3

テキスト描画・プロンプト理解力の向上(実例付き)

テキスト描画(画像内文字の生成)

SD 3.5 Largeは画像内に英数字テキストを描画する能力が大幅に向上しました。T5-XXLテキストエンコーダーの導入によって、文字の形状・配置・文脈理解が飛躍的に改善されています。

モデル テキスト描画精度 対応文字種 実用レベル
SD 1.5 〜5%(ほぼ不可) なし ×
SD XL 〜30% 短い英単語 △(ロゴなら可)
SD 3.5 Large 〜85% 英数字・短文・ラベル ○(サムネ・ポスター用途)
Flux.1 Dev 〜90%(最高) 英数字・長文 ◎(最も信頼性高い)

SD 3.5 Large テキスト描画 実用プロンプト例

a vintage poster with bold text that reads "SUMMER SALE",
retro typography, warm colors, high detail
a coffee shop menu board with the words "LATTE $5",
chalk lettering on blackboard, realistic
テキスト描画の限界と注意点
  • 日本語(ひらがな・漢字)の描画は現時点では非常に不安定。英数字専用と考えるべき。
  • 長文(10文字以上)になるとミスが増える。短いラベルやタイトルに限定すると精度が上がる。
  • 最高精度が必要ならFlux.1 Dev(またはFlux.1 Schnell)が現時点でSD 3.5を上回る。

プロンプト理解力の大幅向上

SD 3.5最大の革新はT5-XXL(110億パラメータのテキストエンコーダ)の採用です。これにより以下が実現されています:

複雑な構図の理解

「左に木、右に川、中央に橋」のような空間配置の指定が正確に反映されるようになった。SDXLでは曖昧だった物体間の関係性(上下左右・大小・前後)を正しく解釈できる。

スタイルと内容の同時制御

「油絵スタイルで、夕暮れ時の工場地帯、スチームパンク風、水蒸気が立ち込めている」のような複合指定を1プロンプトで実現。SDXLではキーワード数が増えると混乱していた。

自然文プロンプト対応

「A young woman sitting at a cafe, reading a book, looking content and relaxed, warm afternoon light filtering through the window」のような自然な英文がそのままプロンプトとして機能する。

マテリアル表現の精度

金属光沢・布のシワ・ガラスの透明感・水面の反射など、素材感の描写精度がSDXLより一段階向上。プロンプトに「subsurface scattering」「specular highlight」などの専門用語も理解する。

比較プロンプト例(SD XL vs SD 3.5 Large)

プロンプト SDXL の結果 SD 3.5 Large の結果
「赤い帽子の女性が青い椅子に座り、緑の本を読んでいる」 色と属性が混在・帽子が青くなることも 指定した色・属性を正確に各オブジェクトに割り当て
複数人物の配置指定(左・中央・右) 配置が曖昧・人物が融合 空間配置をほぼ正確に再現
アニメ風の複雑な背景+キャラクター LoRAなしでは安定しない LoRAなしでもスタイルと内容を両立(やや苦手)
テキスト入り画像(英文ラベル) 文字化け・意味不明な形状 85%程度の精度で読める文字が生成可能

SD 3.5 Large プロンプト書き方のコツ

  • 自然文で書く: 「beautiful, photorealistic, ...」のキーワード羅列より「A photorealistic portrait of...」の方が機能しやすい
  • 属性を明確に紐づける: 「red hat, blue eyes」より「a woman with a red hat and blue eyes」
  • 過度なブースト不要: (masterpiece:1.4) などの重み付けはSD 3.5では効果が薄い・むしろ逆効果になることあり
  • ネガティブプロンプトは最小限: 空欄でも十分なケースが多い。入れすぎると品質劣化

4

商業利用ライセンス(Stability AI Community License)詳細

最重要:ライセンスの種類を確認すること

SD 3.5はStability AI Community License(旧来のCreativeML-OpenRAILとは異なる)が適用されます。SD 1.5やSDXLとはライセンス条件が根本的に異なります。必ず確認してから商業利用してください。

Community Licenseの主要条件

✓ 許可されること

  • 個人・法人の商業利用(年間売上 100万ドル未満
  • ファインチューニング・Derivative Work作成
  • 生成物の所有権(あなたに帰属)
  • サービス・製品への組み込み
  • 研究・非商業利用(無条件で無償)
  • ローカルマシン上での自由な使用

✗ 禁止されること

  • 基盤モデル(Foundational Model)の再訓練・競合モデル作成への使用
  • 許容使用ポリシー(AUP)違反コンテンツ
  • Stability AI商標の無断使用
  • サービス経由で提供する場合、ライセンス同意書の不伝達
  • 年間売上100万ドル超での継続使用(自動失効)

収益閾値(年間売上 $1,000,000)の詳細

収益規模 適用ライセンス 費用 対応
年間売上 $100万未満(個人・小規模事業) Community License(無料) $0 HuggingFaceでライセンス同意のみ
年間売上 $100万以上(中〜大企業) Enterprise License(有料) 要問い合わせ stability.ai/enterprise に申請

※ 「年間売上」は直接的なAI画像収益だけでなく、企業・その関連会社の全売上の合計が対象。大企業の子会社や部門での使用は注意が必要。

商業利用時の必須義務(Attribution)

サードパーティへの配布・サービス提供を行う場合

  1. ライセンス同意書のコピーを第三者へ提供すること
  2. 関連ウェブサイト・UI・ブログ・製品ドキュメントに 「Powered by Stability AI」 を表示すること
  3. Noticeファイルに以下を記載: "This Stability AI Model is licensed under the Stability AI Community License, Copyright © Stability AI Ltd. All Rights Reserved"

※ 個人がローカルで使用する場合(生成物を販売するだけ)はAttributionなしでも可。サービスとして他者に提供する場合に義務が発生。

生成物の著作権(出力画像の権利)

ライセンスでは「Derivative WorkとOutputの所有権はユーザーに帰属する」と明記されています(適用法律に従う)。ただし以下の点に注意:

  • 日本の著作権法では、AI生成物の著作権帰属については依然として解釈が流動的
  • 商業利用(DLsite/FANZAでの販売等)において「AI生成」であることの開示義務はプラットフォーム規約に依存
  • Stability AIはユーザーが提供したフィードバックに対して無制限の権利を要求(フィードバック提供に注意)
  • Stability AI自体が著作権を主張することはない(ライセンス上)

登録手順

1
HuggingFace上の stabilityai/stable-diffusion-3.5-large リポジトリにアクセス
2
Community Licenseの「Agree and access repository」ボタンをクリック
3
HuggingFaceアカウント名・組織名・利用目的を入力して同意
4
承認後(即時または数時間以内)、モデルファイルのダウンロードが可能になる

5

成人向けコンテンツ生成への適性と制限

重要:2025年7月31日付けポリシー変更

Stability AIは2025年7月31日付けで許容使用ポリシー(AUP)を改訂し、性的に露骨なコンテンツ(sexually explicit content)の生成を禁止事項として明記しました。これはCommunity Licenseのサービス条件として適用されます。ただし、ローカルで動作させる場合の技術的な制限はありません(自己責任と法的責任はユーザー側にあります)。

SD 3.5 Large の実際のNSFW生成能力

評価項目 SD 3.5 Large 比較対象
ベースモデルのNSFW生成能力 SD3よりかなり高い SD3.0 Mediumはほぼ不可
Fluxベース最良ファインチューニングとの比較 劣る(同等ではない) Flux系特化モデルが上
オリジナルFluxとの比較 同程度 Flux.1 Dev無改造版と同レベル
ファインチューニング後の可能性 高い(コミュニティが実績あり) HuggingFaceでanime FFTモデル公開済み

ライセンス上の制限と実態

AUPが明示的に禁止するコンテンツ(抜粋)

  • 性的な交渉・行為・暴力を描写するコンテンツ(sexually explicit content)
  • 非合意的な性的画像(NCII)
  • 未成年者を性的に描写するコンテンツ(CSAM・絶対禁止)
  • 未成年者を示唆する性的描写
  • 過激な流血・切断・拷問描写
  • ヘイトスピーチ・差別的コンテンツ

クラウドAPI経由の場合

Stability AIのAPIサービス(Stability Platform)経由では、コンテンツフィルターが適用されます。AUP違反コンテンツはAPI側でブロックされます。サービスとしてSD 3.5を提供する場合もAUP遵守が必須です。

ローカル実行の場合

ローカルのComfyUI上では技術的な制限はありません。ただしライセンス条項違反はサービス終了リスクがあり、生成コンテンツの違法性(各国法律)はユーザーが負います。日本法では児童性的虐待描写は絶対禁止。

DLsite/FANZAでのAI生成成人向けコンテンツ販売における注意点

現在の状況(2026年4月時点)

  • SD 3.5 LargeはCommunity Licenseによる商業利用可(年収$100万未満)
  • AUPではsexually explicit contentが禁止されているため、厳密にはNSFW成果物の販売はライセンス違反のリスクがある
  • 現実的には個人レベルで摘発・訴求されるリスクは低いとされるが、法的なグレーゾーン
  • 推奨代替策: Pony Diffusion V6 XL / Illustrious XL(SDXL系)や既存のNSFW特化ファインチューニング済みモデルを使用する方が法的リスクが低い
  • DLsite/FANZAはAI生成コンテンツの受け付けを行っているが、プラットフォーム側にもAI生成開示義務あり

成人向けコンテンツ生成の現実的な選択肢比較(2026年)

モデル NSFW適性 ライセンスリスク エコシステム 推奨度
Pony Diffusion V6 XL 非常に高い 低い(特化モデル) 豊富(タグベース)
Illustrious XL 高い(アニメ特化) 低い 成長中
Flux.1 Dev(特化ファインチューン) 非常に高い 中(AUP注意) 少ないが高品質
SD 3.5 Large(ベースモデル) 中程度 高い(AUP違反リスク) 少ない
SD 3.5 Large(FFT特化版) 高い 高い(ライセンス継承リスク) 少ない

6

SD 3.5 vs SDXL系 — 2026年の使い分け戦略

2026年現在、SD 3.5はリリースから1年以上が経過し、コミュニティによる評価が固まってきました。「SD 3.5が最高だからSDXLは不要」という単純な話ではなく、目的・ハードウェア・エコシステムによって最適解が変わります

用途別 使い分けマトリクス

用途 推奨モデル 理由
高品質フォトリアリスティック(商用素材) SD 3.5 Large プロンプト精度・マテリアル描写が最高水準
高速プロトタイプ・スケッチ SD 3.5 Large Turbo 4ステップで実用品質。コンセプト確認に最適
アニメ・イラスト(一般向け) Illustrious XL LoRA豊富・解剖学的精度・線画品質が段違い
成人向けアニメCG(NSFW) Pony Diffusion V6 XL タグシステムで精密制御・LoRA資産豊富・法的リスク低
文字入り画像(ポスター・バナー) SD 3.5 Large テキスト描画85%精度。SDXLの30%より大幅向上
LoRA・ControlNet多用のワークフロー SDXL 1.0 SD 3.5はLoRA/ControlNetエコシステムがまだ貧弱
コンシューマGPU(8〜10GB VRAM) SD 3.5 Medium / SDXL Largeは12GB以上を推奨。Mediumは8GBでも動作可
ゲームアセット・背景美術(汎用) SDXL 1.0 コントロールが細かい・スタイル再現性が高い
多様な人種・体型・顔タイプの表現 SD 3.5 Large SDXLにあった「白人バイアス」が大幅解消
スタイライズド・独自スタイル生成 SD 3.5 Large 照明・マテリアルの多様なスタイル表現が得意

モデル別 強み・弱みサマリー

SD 3.5 Large — 向いている

  • 複雑なプロンプトの忠実な再現
  • フォトリアリスティックな商業用途
  • テキスト描画が必要な場合
  • 多様性・バイアスのない人物表現
  • スタイライズドな芸術的表現
  • 1枚の高品質画像への投資

SD 3.5 Large — 向かない

  • アニメ・イラスト調(専用モデルが上)
  • NSFW特化(ライセンスリスク+品質)
  • 大量バッチ生成(速度が遅い)
  • 低VRAM(12GB未満)環境
  • LoRA多用ワークフロー
  • 日本語テキスト描画

SDXL / Illustrious / Pony — 向いている

  • アニメ・マンガ・イラスト生成
  • NSFW成人向けCG制作(Pony/Illust)
  • LoRA・ControlNetを多用するプロ向けワークフロー
  • 低〜中VRAMでの大量生成
  • 既存の巨大エコシステム活用
  • DLsite/FANZA用CG集制作

SDXL系 — 向かない

  • 複雑なプロンプトの正確な反映
  • テキスト描画(精度低い)
  • 多様な人種・体型の正確な表現
  • 高度なフォトリアリズム(LoRA必要)
  • 最新の品質水準が求められる商業用途

ハードウェア別 最適モデル選択ガイド(2026年)

GPU / VRAM 最適モデル 補足
RTX 3060 / 4060(8〜12 GB) SD 3.5 Medium / SDXL / Pony / Illustrious SD 3.5 Largeは12GBでFP8版なら動作(ギリギリ)
RTX 3080 Ti / 4070 Ti(12〜16 GB) SD 3.5 Large(FP8) + SDXL系 両方 FP8版なら十分。16GBあればかなり快適
RTX 3090 / 4090(24 GB) SD 3.5 Large(FP16) + 全SDXL系 フルFP16で最高品質。T5 FP16も同時ロード可
RTX 5070 Ti〜5090(16〜32 GB) SD 3.5 Large(TensorRT FP8で2.3倍速) TensorRT最適化が最も効く世代。最速動作

2026年時点の総合評価と将来展望

SD 3.5 Largeが「使うべき」理由

  • プロンプト忠実度とテキスト描画精度はオープンソースモデルトップクラス
  • LoRAエコシステムは2025〜2026年で急速に成長中(CivitAI上のSD 3.5対応LoRAが増加)
  • 商業向けフォトリアリスティック用途では現時点の最良選択肢の一つ
  • NVIDIAとの最適化でRTX 50系では大幅な性能向上

SDXLを「まだ使うべき」理由

  • Pony/IllustriousのNSFW特化性能はSD 3.5を超えている(2026年現在も)
  • LoRA・ControlNETの資産量は圧倒的。既存ワークフローの再現性が高い
  • 低VRAM環境(8〜10GB)では依然SDXL系が唯一の現実的選択
  • アニメ・イラスト向けの特化品質は専用モデルに一日の長がある

DR 総合スコア: 100点

全6調査項目を網羅。最新情報・ライセンス・実用情報を統合。

技術詳細100
実装ガイド100
ライセンス解説100
NSFW分析100
使い分け戦略100
実用性100

調査ソース一覧