Stable Diffusion 3.5(SD 3.5)は、Stability AIが2024年10月にリリースした次世代画像生成モデル群です。従来のU-Net構造から離れ、MMDiT-X(Multimodal Diffusion Transformer)アーキテクチャを採用しています。テキストと画像の両方をトランスフォーマーで同時処理することで、プロンプト理解精度が飛躍的に向上しています。
| 項目 | SD 1.5 | SD XL | SD 3.5 Large | SD 3.5 Medium |
|---|---|---|---|---|
| パラメータ数 | 9.8億 | 35億 | 80億 | 25億 |
| アーキテクチャ | U-Net | U-Net (改良) | MMDiT-X | MMDiT-X |
| テキストエンコーダ | CLIP-L | CLIP-G + CLIP-L | CLIP-G + CLIP-L + T5 XXL | CLIP-G + CLIP-L + T5 XXL |
| テキスト描画精度 | ほぼ不可 | 短い単語は可能 | 〜85% 正確 | 〜75% 正確 |
| プロンプト理解 | キーワード依存 | 自然文対応 | 複雑な自然文 | 自然文対応 |
| 推奨VRAM (FP16) | 4〜6 GB | 8〜10 GB | 18 GB | 8〜12 GB |
| 最小VRAM (最適化後) | 2 GB | 6 GB | 11 GB(FP8/TensorRT) | 6 GB |
| LoRA/エコシステム | 膨大 | 非常に豊富 | 成長中(少ない) | 成長中(少ない) |
| 生成速度(相対) | 最速 | 速い | 遅い(30〜40ステップ) | 中程度 |
| ライセンス | CreativeML | CreativeML | Community License | Community License |
RTX 3090はVRAM 24GBなので、FP16フルモデル(18GB)も動作します。ただし速度は遅め(1枚3〜5分程度)。FP8量子化版を使うとVRAM余裕が生まれ、バッチ生成も可能になります。T5エンコーダのFP16版(t5xxl_fp16.safetensors)も同時にVRAMに載せられるため、最高品質で動作できるGPUです。
TensorRT FP8最適化により、BF16 PyTorchと比べて2.3倍の速度向上と40%のVRAM削減を同時達成。RTX 5060 Ti(16GB)、5070、5070 Ti、5080、5090で11GBで動作。NVIDIA NIM マイクロサービスとしてのデプロイも計画中。
ComfyUI Manager を開き、Manager > Update ComfyUI をクリック。または手動で update_comfyui.bat を実行。完了後 ComfyUI を再起動してページをリロード。
以下のURLにアクセスしてライセンス同意フォームに記入してからダウンロード:
stabilityai/stable-diffusion-3.5-large → sd3.5_large.safetensors(約16.5GB)sd3.5_large_fp8_scaled.safetensorssd3.5_large_turbo.safetensorsSD 3.5はテキストエンコーダとして3種類のCLIPを使用します。全て必要:
| ファイル名 | サイズ目安 | 備考 |
|---|---|---|
clip_g.safetensors |
約1.4 GB | CLIP-G(大型CLIPエンコーダ) |
clip_l.safetensors |
約246 MB | CLIP-L(従来のCLIP) |
t5xxl_fp16.safetensors |
約9.8 GB | T5-XXL FP16(最高品質・VRAM多め) |
t5xxl_fp8_e4m3fn.safetensors |
約4.9 GB | T5-XXL FP8(VRAM節約版・RAM 32GB未満推奨) |
t5xxl_fp8_e4m3fn_scaled.safetensors |
約4.9 GB | スケール付きFP8版(低VRAM環境に最適) |
※ RAM 32GB以上 → t5xxl_fp16推奨。RAM 32GB未満 → fp8版で代用可。
ComfyUI/ ├── models/ │ ├── checkpoints/ │ │ ├── sd3.5_large.safetensors ← メインモデル │ │ ├── sd3.5_large_fp8_scaled.safetensors │ │ └── sd3.5_large_turbo.safetensors │ └── clip/ │ ├── clip_g.safetensors │ ├── clip_l.safetensors │ ├── t5xxl_fp16.safetensors │ └── t5xxl_fp8_e4m3fn_scaled.safetensors
Stability AIの公式リポジトリからワークフローJSONをダウンロードし、ComfyUI画面にドラッグ&ドロップ。主要ノード構成:
| ノード名 | 設定内容 |
|---|---|
| Load Checkpoint | sd3.5_large.safetensors を選択 |
| Triple CLIP Loader | clip_g / clip_l / t5xxl の3ファイルを指定 |
| Empty Latent Image | 解像度は64の倍数で指定(例: 1024×1024) |
| KSampler (Large) | sampler: dpmpp_2m / scheduler: sgm_uniform / steps: 28〜40 / CFG: 4〜7 |
| KSampler (Turbo) | sampler: euler / scheduler: sgm_uniform / steps: 4 / CFG: 0.9 |
| ModelSamplingSD3 | shift: 3.0(Large) / shift: 1.77(Turbo) |
dpmpp_2msgm_uniform3.0eulersgm_uniform1.77SD 3.5はCFGとネガティブプロンプトの相互作用に問題があります。強いネガティブプロンプト(例: ugly, low quality, bad anatomy)を入れると品質が低下することがあります。ネガティブプロンプトは最小限に抑え、CFGを低め(3.5〜5)にするのが現時点でのベストプラクティスです。
sd3.5_large_fp8_scaled.safetensors を使用t5xxl_fp8_e4m3fn_scaled.safetensors を使用--lowvram フラグを追加SD 3.5 Largeは画像内に英数字テキストを描画する能力が大幅に向上しました。T5-XXLテキストエンコーダーの導入によって、文字の形状・配置・文脈理解が飛躍的に改善されています。
| モデル | テキスト描画精度 | 対応文字種 | 実用レベル |
|---|---|---|---|
| SD 1.5 | 〜5%(ほぼ不可) | なし | × |
| SD XL | 〜30% | 短い英単語 | △(ロゴなら可) |
| SD 3.5 Large | 〜85% | 英数字・短文・ラベル | ○(サムネ・ポスター用途) |
| Flux.1 Dev | 〜90%(最高) | 英数字・長文 | ◎(最も信頼性高い) |
a vintage poster with bold text that reads "SUMMER SALE", retro typography, warm colors, high detail
a coffee shop menu board with the words "LATTE $5", chalk lettering on blackboard, realistic
SD 3.5最大の革新はT5-XXL(110億パラメータのテキストエンコーダ)の採用です。これにより以下が実現されています:
「左に木、右に川、中央に橋」のような空間配置の指定が正確に反映されるようになった。SDXLでは曖昧だった物体間の関係性(上下左右・大小・前後)を正しく解釈できる。
「油絵スタイルで、夕暮れ時の工場地帯、スチームパンク風、水蒸気が立ち込めている」のような複合指定を1プロンプトで実現。SDXLではキーワード数が増えると混乱していた。
「A young woman sitting at a cafe, reading a book, looking content and relaxed, warm afternoon light filtering through the window」のような自然な英文がそのままプロンプトとして機能する。
金属光沢・布のシワ・ガラスの透明感・水面の反射など、素材感の描写精度がSDXLより一段階向上。プロンプトに「subsurface scattering」「specular highlight」などの専門用語も理解する。
| プロンプト | SDXL の結果 | SD 3.5 Large の結果 |
|---|---|---|
| 「赤い帽子の女性が青い椅子に座り、緑の本を読んでいる」 | 色と属性が混在・帽子が青くなることも | 指定した色・属性を正確に各オブジェクトに割り当て |
| 複数人物の配置指定(左・中央・右) | 配置が曖昧・人物が融合 | 空間配置をほぼ正確に再現 |
| アニメ風の複雑な背景+キャラクター | LoRAなしでは安定しない | LoRAなしでもスタイルと内容を両立(やや苦手) |
| テキスト入り画像(英文ラベル) | 文字化け・意味不明な形状 | 85%程度の精度で読める文字が生成可能 |
(masterpiece:1.4) などの重み付けはSD 3.5では効果が薄い・むしろ逆効果になることありSD 3.5はStability AI Community License(旧来のCreativeML-OpenRAILとは異なる)が適用されます。SD 1.5やSDXLとはライセンス条件が根本的に異なります。必ず確認してから商業利用してください。
| 収益規模 | 適用ライセンス | 費用 | 対応 |
|---|---|---|---|
| 年間売上 $100万未満(個人・小規模事業) | Community License(無料) | $0 | HuggingFaceでライセンス同意のみ |
| 年間売上 $100万以上(中〜大企業) | Enterprise License(有料) | 要問い合わせ | stability.ai/enterprise に申請 |
※ 「年間売上」は直接的なAI画像収益だけでなく、企業・その関連会社の全売上の合計が対象。大企業の子会社や部門での使用は注意が必要。
※ 個人がローカルで使用する場合(生成物を販売するだけ)はAttributionなしでも可。サービスとして他者に提供する場合に義務が発生。
ライセンスでは「Derivative WorkとOutputの所有権はユーザーに帰属する」と明記されています(適用法律に従う)。ただし以下の点に注意:
stabilityai/stable-diffusion-3.5-large リポジトリにアクセスStability AIは2025年7月31日付けで許容使用ポリシー(AUP)を改訂し、性的に露骨なコンテンツ(sexually explicit content)の生成を禁止事項として明記しました。これはCommunity Licenseのサービス条件として適用されます。ただし、ローカルで動作させる場合の技術的な制限はありません(自己責任と法的責任はユーザー側にあります)。
| 評価項目 | SD 3.5 Large | 比較対象 |
|---|---|---|
| ベースモデルのNSFW生成能力 | SD3よりかなり高い | SD3.0 Mediumはほぼ不可 |
| Fluxベース最良ファインチューニングとの比較 | 劣る(同等ではない) | Flux系特化モデルが上 |
| オリジナルFluxとの比較 | 同程度 | Flux.1 Dev無改造版と同レベル |
| ファインチューニング後の可能性 | 高い(コミュニティが実績あり) | HuggingFaceでanime FFTモデル公開済み |
Stability AIのAPIサービス(Stability Platform)経由では、コンテンツフィルターが適用されます。AUP違反コンテンツはAPI側でブロックされます。サービスとしてSD 3.5を提供する場合もAUP遵守が必須です。
ローカルのComfyUI上では技術的な制限はありません。ただしライセンス条項違反はサービス終了リスクがあり、生成コンテンツの違法性(各国法律)はユーザーが負います。日本法では児童性的虐待描写は絶対禁止。
| モデル | NSFW適性 | ライセンスリスク | エコシステム | 推奨度 |
|---|---|---|---|---|
| Pony Diffusion V6 XL | 非常に高い | 低い(特化モデル) | 豊富(タグベース) | ◎ |
| Illustrious XL | 高い(アニメ特化) | 低い | 成長中 | ◎ |
| Flux.1 Dev(特化ファインチューン) | 非常に高い | 中(AUP注意) | 少ないが高品質 | ○ |
| SD 3.5 Large(ベースモデル) | 中程度 | 高い(AUP違反リスク) | 少ない | △ |
| SD 3.5 Large(FFT特化版) | 高い | 高い(ライセンス継承リスク) | 少ない | △ |
2026年現在、SD 3.5はリリースから1年以上が経過し、コミュニティによる評価が固まってきました。「SD 3.5が最高だからSDXLは不要」という単純な話ではなく、目的・ハードウェア・エコシステムによって最適解が変わります。
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 高品質フォトリアリスティック(商用素材) | SD 3.5 Large | プロンプト精度・マテリアル描写が最高水準 |
| 高速プロトタイプ・スケッチ | SD 3.5 Large Turbo | 4ステップで実用品質。コンセプト確認に最適 |
| アニメ・イラスト(一般向け) | Illustrious XL | LoRA豊富・解剖学的精度・線画品質が段違い |
| 成人向けアニメCG(NSFW) | Pony Diffusion V6 XL | タグシステムで精密制御・LoRA資産豊富・法的リスク低 |
| 文字入り画像(ポスター・バナー) | SD 3.5 Large | テキスト描画85%精度。SDXLの30%より大幅向上 |
| LoRA・ControlNet多用のワークフロー | SDXL 1.0 | SD 3.5はLoRA/ControlNetエコシステムがまだ貧弱 |
| コンシューマGPU(8〜10GB VRAM) | SD 3.5 Medium / SDXL | Largeは12GB以上を推奨。Mediumは8GBでも動作可 |
| ゲームアセット・背景美術(汎用) | SDXL 1.0 | コントロールが細かい・スタイル再現性が高い |
| 多様な人種・体型・顔タイプの表現 | SD 3.5 Large | SDXLにあった「白人バイアス」が大幅解消 |
| スタイライズド・独自スタイル生成 | SD 3.5 Large | 照明・マテリアルの多様なスタイル表現が得意 |
| GPU / VRAM | 最適モデル | 補足 |
|---|---|---|
| RTX 3060 / 4060(8〜12 GB) | SD 3.5 Medium / SDXL / Pony / Illustrious | SD 3.5 Largeは12GBでFP8版なら動作(ギリギリ) |
| RTX 3080 Ti / 4070 Ti(12〜16 GB) | SD 3.5 Large(FP8) + SDXL系 両方 | FP8版なら十分。16GBあればかなり快適 |
| RTX 3090 / 4090(24 GB) | SD 3.5 Large(FP16) + 全SDXL系 | フルFP16で最高品質。T5 FP16も同時ロード可 |
| RTX 5070 Ti〜5090(16〜32 GB) | SD 3.5 Large(TensorRT FP8で2.3倍速) | TensorRT最適化が最も効く世代。最速動作 |
全6調査項目を網羅。最新情報・ライセンス・実用情報を統合。