Computer UseによるクリスタEX・ComfyUI自律操作システム設計書 (2026年版)

⏱️ 30秒結論

「APIで生成し、Computer Use(CU)で仕上げる」が2026年現在の最適解。

1. 安定動作と危険動作の仕分け

Claude 3.5 Sonnet (New) や OpenAI Operator などのComputer Use (OSWorldベンチマーク準拠) を用いた、各ツールの操作適正評価です。

🟢 安定して任せられる業務

  • ComfyUI: 既存ワークフロー(JSON)のロード、シード値やプロンプトのテキスト置換、Queue Promptボタンのクリック。
  • クリスタEX:
    • 「ファイル」→「開く」から特定画像のインポート。
    • 登録済み「クイックアクション」の実行(例:線画抽出、トーン化)。
    • 「指定形式で書き出し」等の定型ダイアログ操作。
  • 共通: ファイルシステムを介したアセットの移動、定型リネーム処理。

🔴 実行が危険・不安定な業務

  • ComfyUI: 画面上でのドラッグ&ドロップによる新規ノード接続(VLMの空間座標認識の微小なズレにより、誤接続や切断が多発)。
  • クリスタEX:
    • 投げ縄ツール等を用いた「感覚的な範囲選択」や「手描き修正」。
    • レイヤー数が50を超える複雑なPSDでの、特定レイヤーの目視探索。
    • ショートカットキーの高速連打(エージェントの入力遅延による取りこぼしが発生)。

2. 安全設計(セキュアな環境構築)

自律エージェントが意図しない挙動(ファイルの破壊、外部への機密流出、不正サイトへのアクセス)を行うのを防ぐための4重の防御壁です。

対策項目 具体的実装仕様 2026年時点の推奨技術
① 専用VM (Sandbox) ホストOSから完全に隔離された仮想環境。クリスタEXのライセンス認証を通したWindows VM、またはComfyUI用のLinux Dockerコンテナを構築。 Proxmox VE / Windows Sandbox
② 機密非付与 VM内ブラウザにクレジットカード情報、GitHub/HuggingFaceのマスターキーを保存しない。APIキーは環境変数経由で最小権限(Read-only)のみ付与。 HCP Vault / AWS Secrets Manager
③ ドメイン制限 プロキシ(Squid等)を導入し、エージェントがアクセス可能なドメインをホワイトリスト化(例:*.github.com, *.huggingface.co, 自社APIサーバーのみ)。 Squid Proxy / ufw
④ 人間確認ゲート (HITL) クリスタでの「上書き保存」「外部送信」、ComfyUIでの「カスタムノードの新規インストール」実行前に、Discord/Slackにスクショ付きで承認要求を送信。 Slack Bolt SDK / Langflow

3. 画像生成と仕上げの役割分担

すべての工程をComputer Use(画面操作)で行うのはAPIコストと速度の観点から非効率です。「バックエンド処理はAPI」「GUI操作が必要な仕上げのみComputer Use」というハイブリッド設計を採用します。

① ユーザー指示 (Slack等)
➡️
② ComfyUI API (高速画像生成)
➡️
③ Computer Use (クリスタ起動・配置)
➡️
④ 人間確認 & 完成

具体的な分担モデル

4. 実装ステップとコスト

本システムを開発・運用する際のロードマップと、2026年現在の現実的なコスト試算です。

🛠️ 実装5ステップ

  1. Step 1 (環境分離): Windows 11 Pro上で「Windows Sandbox」または「Hyper-V」を起動し、クリスタEX(ボリュームライセンス版)をインストール。
  2. Step 2 (エージェント基盤整備): Anthropicの提供する computer-use-demo をベースに、OS操作用コンテナを起動。VMへのVNC/RDP接続を確立。
  3. Step 3 (ComfyUI API連携): ComfyUIの「Save API Format」で出力したJSONをPythonから制御するスクリプトを記述。
  4. Step 4 (クリスタ操作マクロの記述): クリスタ内の操作ショートカット(例:Ctrl+Shift+DでWeb書き出し等)をエージェントに学習させ、GUI認識用プロンプトを最適化。
  5. Step 5 (HITLゲートの実装): エージェントが特定の「チェックポイント画像」を生成した際、DiscordのWebhook経由で「承認/却下」ボタン付きの通知を送る仕組みを構築。

💰 コスト試算(月額目安)

項目 内訳・仕様 想定月額コスト
LLM API利用料 Claude 3.5 Sonnet / GPT-4o (Computer Use用の画面キャプチャ送信:1アクションあたり約100k〜300kトークン消費) ※1日50回実行想定 約 $150 〜 $300
GPUサーバー (ComfyUI用) RTX 4090搭載ローカルマシン、またはクラウドGPU (RunPod / Vast.ai) 約 $80 〜 $150 (従量課金)
クリスタEXライセンス アップデートプラン、または複数デバイスプラン 約 ¥7,800/年 (月換算 約 ¥650)
合計目安 自社インフラを活用する場合のランニングコスト 約 ¥35,000 〜 ¥65,000 / 月

5. 確証・未確証の明示

実務導入におけるリスク管理のため、技術的な「確実な事実」と「未だ不確実な領域」を切り分けます。

✅ 確証が得られている事実 (Proven)
⚠️ 未確証・注意が必要な事項 (Unproven/Experimental)

次アクション表

導入に向け、本日より着手すべきステップです。

優先度 タスク名 具体的な作業内容 担当者
高 (即時) PoC環境の分離構築 Windows SandboxまたはHyper-V上に、検証用のWindows 11環境を1台立ち上げ、クリスタEX(体験版でも可)をインストールする。 インフラ/開発
中 (今週) Anthropic APIキーの取得とテスト Anthropic Developer ConsoleからComputer Useが利用可能なモデル(Claude 3.5 Sonnet)のAPIキーを取得し、最小限のクリックテストを実行。 AIエンジニア
低 (来週) ComfyUI APIワークフローの書き出し ComfyUIで「Save (API Format)」を有効化し、Pythonからプロンプトを書き換えて画像が生成・ローカル保存されるかを確認。 プロンプトデザイナー