Computer UseによるクリスタEX・ComfyUI自律操作システム設計書 (2026年版)

⏱️ 30秒結論

「APIで生成し、Computer Use(CU)で仕上げる」が2026年現在の最適解。

安定領域：ComfyUIのAPI経由の画像生成、クリスタEXでの「アクション実行」「書き出し」等の定型GUI操作。
危険領域：クリスタ上での複雑なブラシ描画、ComfyUIの新規ノード接続（座標ズレによる誤操作・無限ループ化）。
安全対策：ホストから隔離された「専用VM」、インターネット接続を制限する「ドメイン制限」、重要局面での「人間確認ゲート(HITL)」の3重防御が必須。

1. 安定動作と危険動作の仕分け

Claude 3.5 Sonnet (New) や OpenAI Operator などのComputer Use (OSWorldベンチマーク準拠) を用いた、各ツールの操作適正評価です。

🟢 安定して任せられる業務

ComfyUI: 既存ワークフロー(JSON)のロード、シード値やプロンプトのテキスト置換、Queue Promptボタンのクリック。
クリスタEX:
- 「ファイル」→「開く」から特定画像のインポート。
- 登録済み「クイックアクション」の実行（例：線画抽出、トーン化）。
- 「指定形式で書き出し」等の定型ダイアログ操作。
共通: ファイルシステムを介したアセットの移動、定型リネーム処理。

🔴 実行が危険・不安定な業務

ComfyUI: 画面上でのドラッグ＆ドロップによる新規ノード接続（VLMの空間座標認識の微小なズレにより、誤接続や切断が多発）。
クリスタEX:
- 投げ縄ツール等を用いた「感覚的な範囲選択」や「手描き修正」。
- レイヤー数が50を超える複雑なPSDでの、特定レイヤーの目視探索。
- ショートカットキーの高速連打（エージェントの入力遅延による取りこぼしが発生）。

2. 安全設計（セキュアな環境構築）

自律エージェントが意図しない挙動（ファイルの破壊、外部への機密流出、不正サイトへのアクセス）を行うのを防ぐための4重の防御壁です。

対策項目	具体的実装仕様	2026年時点の推奨技術
① 専用VM (Sandbox)	ホストOSから完全に隔離された仮想環境。クリスタEXのライセンス認証を通したWindows VM、またはComfyUI用のLinux Dockerコンテナを構築。	Proxmox VE / Windows Sandbox
② 機密非付与	VM内ブラウザにクレジットカード情報、GitHub/HuggingFaceのマスターキーを保存しない。APIキーは環境変数経由で最小権限(Read-only)のみ付与。	HCP Vault / AWS Secrets Manager
③ ドメイン制限	プロキシ（Squid等）を導入し、エージェントがアクセス可能なドメインをホワイトリスト化（例：`.github.com`, `.huggingface.co`, 自社APIサーバーのみ）。	Squid Proxy / ufw
④ 人間確認ゲート (HITL)	クリスタでの「上書き保存」「外部送信」、ComfyUIでの「カスタムノードの新規インストール」実行前に、Discord/Slackにスクショ付きで承認要求を送信。	Slack Bolt SDK / Langflow

3. 画像生成と仕上げの役割分担

すべての工程をComputer Use（画面操作）で行うのはAPIコストと速度の観点から非効率です。「バックエンド処理はAPI」「GUI操作が必要な仕上げのみComputer Use」というハイブリッド設計を採用します。

① ユーザー指示 (Slack等)

➡️

② ComfyUI API (高速画像生成)

➡️

③ Computer Use (クリスタ起動・配置)

➡️

④ 人間確認＆完成

具体的な分担モデル

API駆動（ComfyUI側）：
- プロンプト送信、ControlNet用ポーズ画像の流し込み、LoRAの切り替え、アップスケール処理。
- これらは画面を介さず、/prompt エンドポイントへJSONをPOSTすることでミリ秒単位で制御。
Computer Use駆動（クリスタEX側）：
- APIから出力されたPNG群を、クリスタの特定テンプレート（.clip形式のコマ割り・フキダシ配置済みファイル）の指定レイヤーフォルダにドラッグ＆ドロップ。
- 「スマート受信」や「レイヤーマスクの作成」など、クリスタ独自のGUIメニューをエージェントにクリックさせて実行。

4. 実装ステップとコスト

本システムを開発・運用する際のロードマップと、2026年現在の現実的なコスト試算です。

🛠️ 実装5ステップ

Step 1 (環境分離): Windows 11 Pro上で「Windows Sandbox」または「Hyper-V」を起動し、クリスタEX（ボリュームライセンス版）をインストール。
Step 2 (エージェント基盤整備): Anthropicの提供する computer-use-demo をベースに、OS操作用コンテナを起動。VMへのVNC/RDP接続を確立。
Step 3 (ComfyUI API連携): ComfyUIの「Save API Format」で出力したJSONをPythonから制御するスクリプトを記述。
Step 4 (クリスタ操作マクロの記述): クリスタ内の操作ショートカット（例：Ctrl+Shift+DでWeb書き出し等）をエージェントに学習させ、GUI認識用プロンプトを最適化。
Step 5 (HITLゲートの実装): エージェントが特定の「チェックポイント画像」を生成した際、DiscordのWebhook経由で「承認/却下」ボタン付きの通知を送る仕組みを構築。

💰 コスト試算（月額目安）

項目	内訳・仕様	想定月額コスト
LLM API利用料	Claude 3.5 Sonnet / GPT-4o (Computer Use用の画面キャプチャ送信：1アクションあたり約100k〜300kトークン消費) ※1日50回実行想定	約 $150 〜 $300
GPUサーバー (ComfyUI用)	RTX 4090搭載ローカルマシン、またはクラウドGPU (RunPod / Vast.ai)	約 $80 〜 $150 (従量課金)
クリスタEXライセンス	アップデートプラン、または複数デバイスプラン	約 ¥7,800/年 (月換算約 ¥650)
合計目安	自社インフラを活用する場合のランニングコスト	約 ¥35,000 〜 ¥65,000 / 月

5. 確証・未確証の明示

実務導入におけるリスク管理のため、技術的な「確実な事実」と「未だ不確実な領域」を切り分けます。

✅ 確証が得られている事実 (Proven)

AnthropicのComputer Use APIは、1024x768〜1280x800解像度において、標準的なWindows/Linux GUI要素（ボタン、入力欄）を90%以上の精度で認識・クリック可能。
ComfyUIは完全なAPI駆動が可能であり、Web GUIを介さずにバックエンドで画像生成を完結させる手法は確立されている。
DockerおよびVMを用いたOSレベルのサンドボックス化によるセキュリティ担保は、業界標準（OSWorld等）で実証済み。

⚠️ 未確証・注意が必要な事項 (Unproven/Experimental)

クリスタの独自UI認識率：クリスタEXのカラーホイールや、パレット内の微小なアイコン（レイヤーの鍵マークなど）は、解像度やテーマ（ダーク/ライト）の変更によってVLMが誤認識する確率が依然として残る（『未確証』：100%の自律稼働は困難であり、リトライ処理の実装が必要）。
ライセンス規約のグレーゾーン：セルシス（クリスタ開発元）の利用規約において、APIやスクリプトを介さない「画面エミュレーションによる自律操作」そのものを制限する明文規定は2026年現在存在しないが、マルチデバイスライセンスの同時起動制限に抵触する可能性がある。

次アクション表

導入に向け、本日より着手すべきステップです。

優先度	タスク名	具体的な作業内容	担当者
高 (即時)	PoC環境の分離構築	Windows SandboxまたはHyper-V上に、検証用のWindows 11環境を1台立ち上げ、クリスタEX（体験版でも可）をインストールする。	インフラ/開発
中 (今週)	Anthropic APIキーの取得とテスト	Anthropic Developer ConsoleからComputer Useが利用可能なモデル（Claude 3.5 Sonnet）のAPIキーを取得し、最小限のクリックテストを実行。	AIエンジニア
低 (来週)	ComfyUI APIワークフローの書き出し	ComfyUIで「Save (API Format)」を有効化し、Pythonからプロンプトを書き換えて画像が生成・ローカル保存されるかを確認。	プロンプトデザイナー