ComfyUI自動化分析:API vs Computer Use (2026年実務レポート)

⚡ 30秒結論

2026年現在、画像生成ワークフローの自動化は「完全な適材適所」に収束しています。すべてを片方に寄せるのは非効率です。

🤖 生成プロセス = /api/prompt

  • 圧倒的な安定性:JSON送信のためUI変更に無風
  • ミリ秒単位の速度:画面描画やLLM推論の遅延ゼロ
  • 並列処理:複数インスタンスの同時制御が容易

🎨 仕上げ・外部連携 = Computer Use

  • クリスタ/Photoshop連携:API非対応アプリを直接操作
  • 人間ライクな微調整:スライダーやブラシの感覚的制御
  • シームレスな移行:生成画像をそのままペイントソフトへドラッグ

📊 3つの評価軸による徹底比較

評価項目 /api/prompt (API) Computer Use (GUI操作) 備考 (2026年事実)
安定性 (Stability) 🟢 極めて高い
スキーマが変わらない限り100%動作
🟡 中〜低
画面解像度、UI変更、ポップアップで破綻
Computer UseはVNC経由の座標ズレが依然として課題
処理速度 (Speed) 🟢 即時 (ミリ秒)
HTTPリクエストのみ
🔴 極めて遅い
LLMの画面認識+動作遅延(数秒〜数十秒)
APIはキュー詰まりもWebSocketで即時検知可能
自動化適性 🟢 バックエンド・バッチ処理向き 🟡 フロントエンド・対話型ワークフロー向き 大量生成はAPI一択。人間との協調作業はComputer Use
API未対応アプリ連携 不可能
相手側にAPIが必要
🟢 可能
クリスタ、ローカルフォルダ等を縦横無尽に操作
ペイントツールの自動化においてComputer Useが真価を発揮
消費リソース/コスト 🟢 極めて低コスト
ローカルCPU/メモリの消費は最小限
🔴 極めて高コスト
画面解析用VLM(Vision LLM)のトークン消費大
Computer Useは1アクションごとに画像トークンを消費

🔄 推奨されるハイブリッド・自動化パイプライン

実務で最も安定する、APIとComputer Useを組み合わせた2026年標準のパイプラインです。

1. パラメータ決定
LLM / MCP
2. 高速画像生成
/api/prompt
3. 仕上げ・レタッチ
Computer Use (クリスタ等)

🔌 ComfyUI MCP (Model Context Protocol) の現在地

MCP (Model Context Protocol) は、ClaudeなどのLLMがローカル環境のツールを直接呼び出すための2025〜2026年標準規格です。

🟢 実装されていること(事実)

⚠️ 限界と『未確証』要素

【未確証・発展途上の要素】
「複雑な新規カスタムノード同士の接続を、LLMがMCP経由でゼロからエラーなしで構築する」というタスクは、2026年現在も成功率が低く未確証です。実務では、あらかじめ作成した「テンプレート(API JSON)」のパラメータ(シード値、プロンプト、LoRA強度など)をMCP経由で書き換えて実行する手法が主流です。

💻 実装コスト・コード比較

1. /api/prompt (API) の実装コスト:極めて低い

ComfyUIのUI上で「Save (API Format)」で書き出したJSONを、PythonからPOSTするだけです。環境依存がなく、数行で完結します。

import requests
import json

# ComfyUI APIの基本エンドポイント
COMFYUI_URL = "http://127.0.0.1:8188/prompt"

# APIフォーマットで書き出したJSONを読み込み
with open("workflow_api.json", "r", encoding="utf-8") as f:
    prompt_data = json.load(f)

# プロンプトやシード値を動的に書き換え
prompt_data["6"]["inputs"]["text"] = "A futuristic city, cyberpunk style, 8k resolution" 
prompt_data["3"]["inputs"]["seed"] = 42

# API送信
response = requests.post(COMFYUI_URL, json={"prompt": prompt_data})
print("Queue UUID:", response.json().get("prompt_id"))

2. Computer Use の実装コスト:極めて高い

AnthropicのComputer Use APIやOSWorld等のフレームワークを導入する必要があります。画面のスクリーンショットを常時撮影し、VLMに座標を計算させ、OSレベルのマウスクリックをシミュレートするため、インフラ構築とプロンプトエンジニアリングに膨大なコストがかかります。

🎯 次のアクション推奨ロードマップ

ステップ 実施内容 使用技術 期待効果
Step 1 ComfyUIの設定で「Enable Dev mode」をONにし、APIフォーマットのJSONをエクスポートする。 ComfyUI 標準機能 API自動化のベースとなるJSONスキーマの確保。
Step 2 PythonスクリプトからAPI経由で画像生成を自動化する(バッチ処理の確立)。 Python (requests / websocket) 生成速度の極大化、UI操作からの脱却。
Step 3 Claude Desktop等にComfyUI MCPを導入し、チャットから生成を指示できるようにする。 Model Context Protocol (MCP) 非エンジニアでも自然言語で画像生成指示が可能に。
Step 4 生成後の画像をペイントソフト(クリスタ等)に渡し、特定のアクションを実行する部分のみ自動化する。 Computer Use / PyAutoGUI API非対応のクリエイティブ工程を含めた完全自動化。