ターゲットハードウェア: RTX 3090 (24GB VRAM) 完全ローカル 規約制限回避不要
2026年現在、大手クラウドAPI(OpenAI, Anthropic等)のセーフティフィルタは入力・出力の双方で厳格化されており、NSFWコンテンツの自律生成ループは高確率で遮断(API Ban)されます。これを回避する唯一の持続可能なアプローチは、「完全ローカルスタック」の構築です。
VRAM 24GBを搭載したRTX 3090(トフィー)環境において、「ローカルLLM(Dolphin-Llama3)+ローカルVision LLM(Qwen2-VL)+ComfyUI API+ローカルOS-World/Computer Use」を、VRAM動的排他制御パイプラインで連携させることで、外部規約に依存しない24時間365日の自律生成体制が確立可能です。
2026年時点における、商用APIとローカル環境のNSFW生成における決定的な差異です。
| 評価軸 | 大手クラウドAPI (OpenAI / Anthropic) | 完全ローカル無制限構成 (本設計) | 2026年現状と技術的背景 |
|---|---|---|---|
| NSFW判定・規制 | 極めて厳格 (入力・出力双方で遮断) | 制限なし (ローカルモデルの自己制御) | 商用APIはマルチモーダル検知が高度化し、隠語も即座にフラグが立ちます。 |
| アカウントリスク | 高リスク (即時BAN、API利用停止) | ゼロ (オフライン動作) | 自律ループ中に1度でもフラグが立つと、システム全体が停止します。 |
| 推論コスト | 従量課金 (自律ループを回すと高額化) | 電気代のみ (RTX 3090稼働時: 約350W) | 24時間連続稼働時のコストパフォーマンスはローカルが圧倒。 |
| VRAM制約 (24GB) | クラウド側処理のため制限なし | 要最適化 (モデルの排他ロードが必須) | RTX 3090の24GBは、量子化技術(GGUF/EXL2)の進歩により実用十分。 |
RTX 3090の24GB VRAMに、LLM、Vision LLM、ComfyUI(画像生成)を同時に載せることは不可能です。本設計では、「状態遷移型VRAMスケジューラー」を導入し、プロセスごとにVRAMを完全に解放・ロードするパイプラインを採用します。
推奨モデル: Dolphin-2.9-Llama3-8B (GGUF Q8_0)
推奨モデル: Flux.1-Dev (GGUF Q4_K_S) + SDXL (精細化用)
--lowvram または --novram オプションを併用し、生成時のみVRAMを占有。推奨モデル: Qwen2-VL-7B-Instruct (GGUF Q4_K_M)
推奨ツール: PyAutoGUI + Local OS-World Agent
RTX 3090のVRAMを枯渇させずに、モデルのロード/アンロードを制御しながら自律ループを回すPython実装例です。
import time
import requests
import subprocess
import os
# 設定パラメータ
OLLAMA_API = "http://localhost:11434/api"
COMFYUI_API = "http://localhost:8188/prompt"
def manage_vram_service(service_name, action):
"""VRAM解放のためのローカルサービス制御 (2026年標準アプローチ)"""
# 未確証: OSレベルでの動的VRAMスワップ(将来的なドライバー支援)
if action == "start":
print(f"[VRAM] {service_name} を起動します。")
# サービス起動コマンド (例: systemctl または docker start)
elif action == "stop":
print(f"[VRAM] {service_name} を停止し、VRAMを完全に解放します。")
# サービス停止および VRAM フラッシュ
def generate_prompt_by_llm():
manage_vram_service("ollama", "start")
payload = {
"model": "dolphin-llama3:8b",
"prompt": "Create a highly detailed prompt for a fantasy digital art piece. Style: cinematic, 8k.",
"stream": False
}
response = requests.post(f"{OLLAMA_API}/generate", json=payload).json()
manage_vram_service("ollama", "stop")
return response['response']
def run_comfyui_generation(prompt_text):
manage_vram_service("comfyui", "start")
# ComfyUIのAPI用JSONを構築して送信
comfy_prompt = {
"client_id": "agent_01",
"prompt": {
"3": {
"class_type": "KSampler",
"inputs": {
"cfg": 8, "denoise": 1, "model": ["4", 0],
"positive": ["6", 0], "seed": 42, "steps": 20
}
},
# ... 省略 (Flux/SDXL用のパイプラインノード)
}
}
response = requests.post(COMFYUI_API, json=comfy_prompt).json()
# 画像生成完了を待機
time.sleep(15)
manage_vram_service("comfyui", "stop")
return "output_image.png"
def verify_image_by_vision(image_path):
manage_vram_service("ollama", "start")
# Vision LLMによる検品 (未成年要素の排除、品質チェック)
# Qwen2-VL等を使用して画像を評価
print(f"[検品] {image_path} を検証中...")
is_valid = True # 擬似判定
manage_vram_service("ollama", "stop")
return is_valid
# 自律ループ実行
def autonomous_loop():
while True:
print("--- 自律生成サイクル開始 ---")
prompt = generate_prompt_by_llm()
image = run_comfyui_generation(prompt)
if verify_image_by_vision(image):
print("🎉 検品合格: ローカルアーカイブに保存します。")
# Computer Useエージェントを起動し、ファイル整理やローカルUI操作を実行
else:
print("❌ 検品不合格: プロンプトを修正して再試行します。")
time.sleep(5) # インターバル
if __name__ == "__main__":
# autonomous_loop() # 実行時にアンコメント
pass
RTX 3090搭載マシンでこのシステムを最短で構築するためのステップです。
| フェーズ | タスク | 推奨ツール/コマンド | 所要時間 (目安) |
|---|---|---|---|
| 1. 環境準備 | NVIDIA Container Toolkitの導入とDocker環境の整備 | docker-compose を用いたコンテナ管理 |
1時間 |
| 2. 推論基盤の構築 | OllamaのインストールとUncensoredモデルのプル | ollama run dolphin-llama3:8b |
30分 |
| 3. 生成エンジンの構築 | ComfyUIのインストールとFlux.1-Dev (GGUF)の配置 | ComfyUI-Manager + GGUFノード | 2時間 |
| 4. 検品モデルの統合 | Vision LLM (Qwen2-VL) のセットアップ | Ollama経由でのロード | 1時間 |
| 5. 制御スクリプト実装 | 上記PythonスクリプトによるVRAM排他制御の実装 | Python 3.11 + requests |
3時間 |