🤖 自律型NSFWコンテンツ制作エージェントシステム設計書 (2026年版)

ターゲットハードウェア: RTX 3090 (24GB VRAM) 完全ローカル 規約制限回避不要

⏱️ 30秒結論

2026年現在、大手クラウドAPI(OpenAI, Anthropic等)のセーフティフィルタは入力・出力の双方で厳格化されており、NSFWコンテンツの自律生成ループは高確率で遮断(API Ban)されます。これを回避する唯一の持続可能なアプローチは、「完全ローカルスタック」の構築です。
VRAM 24GBを搭載したRTX 3090(トフィー)環境において、「ローカルLLM(Dolphin-Llama3)+ローカルVision LLM(Qwen2-VL)+ComfyUI API+ローカルOS-World/Computer Use」を、VRAM動的排他制御パイプラインで連携させることで、外部規約に依存しない24時間365日の自律生成体制が確立可能です。

⚠️ 免責事項・設計前提:
本設計は、完全にローカル環境で動作する技術スタックの比較と実装アーキテクチャを提示するものです。クラウドサービスの利用規約をハックする「回避術(Jailbreak)」は扱いません。また、実在の人物、未成年、およびディープフェイクを対象としたコンテンツ生成は設計段階でシステムプロンプトおよびネガティブプロンプトにより厳格に排除されます。

📊 大手クラウドの規約制限とローカル無制限構成の比較

2026年時点における、商用APIとローカル環境のNSFW生成における決定的な差異です。

評価軸 大手クラウドAPI (OpenAI / Anthropic) 完全ローカル無制限構成 (本設計) 2026年現状と技術的背景
NSFW判定・規制 極めて厳格 (入力・出力双方で遮断) 制限なし (ローカルモデルの自己制御) 商用APIはマルチモーダル検知が高度化し、隠語も即座にフラグが立ちます。
アカウントリスク 高リスク (即時BAN、API利用停止) ゼロ (オフライン動作) 自律ループ中に1度でもフラグが立つと、システム全体が停止します。
推論コスト 従量課金 (自律ループを回すと高額化) 電気代のみ (RTX 3090稼働時: 約350W) 24時間連続稼働時のコストパフォーマンスはローカルが圧倒。
VRAM制約 (24GB) クラウド側処理のため制限なし 要最適化 (モデルの排他ロードが必須) RTX 3090の24GBは、量子化技術(GGUF/EXL2)の進歩により実用十分。

🏗️ RTX 3090 (24GB) 向け「動的VRAM排他制御」アーキテクチャ

RTX 3090の24GB VRAMに、LLM、Vision LLM、ComfyUI(画像生成)を同時に載せることは不可能です。本設計では、「状態遷移型VRAMスケジューラー」を導入し、プロセスごとにVRAMを完全に解放・ロードするパイプラインを採用します。

1. 企画・プロンプト生成 Llama-3-8B (Uncensored) VRAM使用: ~6GB (Q4) 2. 画像生成 (ComfyUI) Flux.1-Dev (GGUF Q4) VRAM使用: ~16GB 3. 検品・R18判断分離 Qwen2-VL-7B (Q4) VRAM使用: ~8GB NG時:プロンプト修正・再生成ループ

🧠 1. ローカルLLM (企画・命令生成)

推奨モデル: Dolphin-2.9-Llama3-8B (GGUF Q8_0)

  • 役割: コンテンツの構図設計、ComfyUI向けプロンプトの生成、エージェントの行動決定。
  • 特徴: アライメント(規制)が解除(Uncensored)されており、NSFWなコンテキストでも指示に従います。
  • VRAM管理: 推論終了後、直ちにAPIプロセスを休止(サスペンド)またはアンロードし、VRAMを解放します。

🎨 2. 画像生成エンジン (ComfyUI)

推奨モデル: Flux.1-Dev (GGUF Q4_K_S) + SDXL (精細化用)

  • 役割: 高解像度・高品質なNSFW画像の生成。
  • 特徴: ComfyUIのAPIモード(JSONペイロード送信)を利用し、ヘッドレスで実行。
  • VRAM管理: --lowvram または --novram オプションを併用し、生成時のみVRAMを占有。

👁️ 3. ローカルVision LLM (R18検品・フィードバック)

推奨モデル: Qwen2-VL-7B-Instruct (GGUF Q4_K_M)

  • 役割: 生成された画像の構図、破綻(手の崩れなど)、および倫理的境界(未成年要素の完全排除)の厳格な検品。
  • 特徴: 高精細な画像認識能力を持ち、指定したチェックリストに基づいてスコアリングを行います。
  • VRAM管理: 検品フェーズのみ起動。

🤖 4. Computer Use (自律運用・投稿)

推奨ツール: PyAutoGUI + Local OS-World Agent

  • 役割: 生成・検品が完了したコンテンツを、指定のローカルフォルダに整理、またはWeb UIを介して自動管理。
  • 特徴: 外部API(Anthropic Computer Use等)に依存せず、Pythonの画面制御ライブラリを用いてローカル環境で完結。

💻 自律制御パイプライン(擬似コード)

RTX 3090のVRAMを枯渇させずに、モデルのロード/アンロードを制御しながら自律ループを回すPython実装例です。

import time
import requests
import subprocess
import os

# 設定パラメータ
OLLAMA_API = "http://localhost:11434/api"
COMFYUI_API = "http://localhost:8188/prompt"

def manage_vram_service(service_name, action):
    """VRAM解放のためのローカルサービス制御 (2026年標準アプローチ)"""
    # 未確証: OSレベルでの動的VRAMスワップ(将来的なドライバー支援)
    if action == "start":
        print(f"[VRAM] {service_name} を起動します。")
        # サービス起動コマンド (例: systemctl または docker start)
    elif action == "stop":
        print(f"[VRAM] {service_name} を停止し、VRAMを完全に解放します。")
        # サービス停止および VRAM フラッシュ

def generate_prompt_by_llm():
    manage_vram_service("ollama", "start")
    payload = {
        "model": "dolphin-llama3:8b",
        "prompt": "Create a highly detailed prompt for a fantasy digital art piece. Style: cinematic, 8k.",
        "stream": False
    }
    response = requests.post(f"{OLLAMA_API}/generate", json=payload).json()
    manage_vram_service("ollama", "stop")
    return response['response']

def run_comfyui_generation(prompt_text):
    manage_vram_service("comfyui", "start")
    # ComfyUIのAPI用JSONを構築して送信
    comfy_prompt = {
        "client_id": "agent_01",
        "prompt": {
            "3": {
                "class_type": "KSampler",
                "inputs": {
                    "cfg": 8, "denoise": 1, "model": ["4", 0], 
                    "positive": ["6", 0], "seed": 42, "steps": 20
                }
            },
            # ... 省略 (Flux/SDXL用のパイプラインノード)
        }
    }
    response = requests.post(COMFYUI_API, json=comfy_prompt).json()
    # 画像生成完了を待機
    time.sleep(15) 
    manage_vram_service("comfyui", "stop")
    return "output_image.png"

def verify_image_by_vision(image_path):
    manage_vram_service("ollama", "start")
    # Vision LLMによる検品 (未成年要素の排除、品質チェック)
    # Qwen2-VL等を使用して画像を評価
    print(f"[検品] {image_path} を検証中...")
    is_valid = True  # 擬似判定
    manage_vram_service("ollama", "stop")
    return is_valid

# 自律ループ実行
def autonomous_loop():
    while True:
        print("--- 自律生成サイクル開始 ---")
        prompt = generate_prompt_by_llm()
        image = run_comfyui_generation(prompt)
        
        if verify_image_by_vision(image):
            print("🎉 検品合格: ローカルアーカイブに保存します。")
            # Computer Useエージェントを起動し、ファイル整理やローカルUI操作を実行
        else:
            print("❌ 検品不合格: プロンプトを修正して再試行します。")
        
        time.sleep(5) # インターバル

if __name__ == "__main__":
    # autonomous_loop() # 実行時にアンコメント
    pass

🚀 次のアクション:構築ロードマップ

RTX 3090搭載マシンでこのシステムを最短で構築するためのステップです。

フェーズ タスク 推奨ツール/コマンド 所要時間 (目安)
1. 環境準備 NVIDIA Container Toolkitの導入とDocker環境の整備 docker-compose を用いたコンテナ管理 1時間
2. 推論基盤の構築 OllamaのインストールとUncensoredモデルのプル ollama run dolphin-llama3:8b 30分
3. 生成エンジンの構築 ComfyUIのインストールとFlux.1-Dev (GGUF)の配置 ComfyUI-Manager + GGUFノード 2時間
4. 検品モデルの統合 Vision LLM (Qwen2-VL) のセットアップ Ollama経由でのロード 1時間
5. 制御スクリプト実装 上記PythonスクリプトによるVRAM排他制御の実装 Python 3.11 + requests 3時間