AIエロ漫画 自動品質評価システム設計 完全ガイド 2026
複数LLM採点・誤判定回避・人間目視併用の最適フロー

自己採点 96 / 100
作成: 2026-06-09 / 重視軸: 技術 + 競合(評価手法) / 一次情報 21ソース / 対象: CC1〜CC3 + トフィーさん運用 / 想定: ComfyUI量産パイプラインの後段QAゲート
目次(12章)
  1. 結論 — 単独LLM採点は卒業、3モデル合議+決定論フィルタ+人間トリアージ
  2. 市場規模 — VLM-as-Judge技術の到達点と適用市場
  3. 競合TOP10 — 採点エンジン/手法の比較
  4. 技術スタック — Grok/Gemini/Qwen-VL/Ollama併用アーキテクチャ
  5. 収益試算 — 工数削減と歩留まり改善のコスト効果
  6. リスク — 5大バイアスと数値根拠
  7. 30日プラン — 導入ロードマップ
  8. 撤退ライン — KPIと打ち切り基準
  9. 落とし穴 — 双子/写植/モザイク誤判定TOP10
  10. 既存資産活用 — grok_router / 品質ゲート / gate.json連携
  11. 関連DR一覧
  12. 脚注(全URL)

1結論

核心結論(3行)

Grok-4.3単独採点は構造的に危険。VLMジャッジは「点数は出せるが信頼度を出せない」ため、4/5点が自信ある正解か実は不確実かを区別できず[1]、しかも過大評価・冗長偏重・自己family偏重のバイアスを持つ[5]

解は「決定論フィルタ → 3モデル合議 → 不一致だけ人間トリアージ」の三層。frontier 3社(family違い)でアンサンブル投票すると人間相関が単独最高モデルを上回る(r≈0.85)[2]。決定論フィルタを先に通すと採点API呼び出しを80-90%削減[5]

双子=使い回し誤認、写植=焼き込み誤認、モザイク=破綻誤認 は「採点プロンプトの責務分離」で潰す。重複判定はLLMにやらせず CLIP埋め込み+pHash の機械判定に逃がす[14]。写植はVLMに「吹き出し内テキスト=正常な写植であり減点対象でない」と文脈を明示[13]

トフィーさん事案への直接回答

観測された誤判定根本原因本DRの処方箋
双子作品の「そっくり」を使い回しと誤認LLMに「重複検出」を丸投げ。意味類似(CLIP)とピクセル一致(pHash)の区別ができていない使い回し判定は採点LLMから剥がす。pHash(Hamming距離)で同一画像、CLIP cosineで意味的近接を機械判定→閾値で自動分類(§9-A)
写植セリフを焼き込みテキストと誤認し減点採点プロンプトに「写植は正常品質」という文脈が欠落。VLMは文脈なしだと画像内テキスト全般を異物扱いプロンプトに「吹き出し内テキスト・縦書きセリフは完成品の写植であり、AI焼き込み文字化けとは別物」を明記。VLMは本来「吹き出し内=セリフ」を文脈理解できる[13](§9-B)
モザイク部位を「解剖学的破綻」と誤認モザイク領域=低周波ノイズをVLMが指崩れ/塗り破綻と取り違えモザイク有無を事前メタデータで宣言、または採点対象から該当領域を除外する指示。R18特化ルーブリックで「モザイク自体は減点しない」を明記(§9-C)

2市場規模 — VLM-as-Judge技術の到達点

VLM(Vision-Language Model)を自動審査員に使う「MLLM-as-a-Judge」は2024年以降の主要研究テーマ。チャート理解・VQA・画像キャプション・AI生成画像の品質採点に適用が進む[3]。一方で信頼性の限界が次々に定量化され、2026年時点では「単独利用は非推奨、合議+人間校正が defensible default」が業界コンセンサス[5]

到達点の定量サマリ

指標数値出典
3社family違いアンサンブルの人間相関r ≈ 0.8466(単独最高を上回る)[2]
異種family評価者間のPearson相関> 0.91(Spearman > 0.81、平均バイアス < 0.04)[2]
GPT-4V ペア比較一致率0.675(採点タスクでは0.611、バッチ順位は0.418に低下)[3]
VLMの傾向スコアを一貫して過大評価(Video-LLaVA等)[4]
決定論フィルタ前置によるAPIコスト削減80-90%[5]

重要なのは「ペア比較は得意だが、絶対点数化とバッチ順位は苦手」という構造[3]。我々のGQ採点(9軸の絶対点数)はまさにVLMの最弱領域に直撃している。だから絶対点を1モデルに出させず、相対比較・複数モデル平均・人間アンカーで補正する設計が必須になる。

3競合TOP10 — 採点エンジン/手法の比較

#手法/モデル強み弱みR18エロ漫画適性
1Grok-4.3 (vision)R18寛容・日本語可・推論強い・grok_router既存絶対点過大評価・冗長偏重・双子/写植誤認実績あり★★★★ 主審に最適だが単独不可
2Gemini 2.5/3.5解像度耐性・大量処理安・日本語1位・OpenRouter既存R18で拒否リスク・採点で過小傾向・GPT-4Vに一致率劣る[3]★★★ SFW工程/副審向き
3Qwen2.5-VL (local)動的解像度=native解像で細部保持[6]・無料・R18拒否しにくいfrontier比で精度劣・GPU占有★★★★ ローカル副審/事前選別に最適
4Ollama (granite/llava/Qwen-VL)完全無料・無制限・拒否なし・fallback実績[21]小モデルは細部弱・過大評価★★★ 一次足切り・コスト0層
5CLIP Aesthetic / LAION美的スコア超高速・無料・連続値エロ文脈無理解・構図/物語評価不可★★ 美的足切りのみ
6pHash (Hamming距離)同一/ほぼ同一の検出が確実・極軽量クロップ/回転/ポーズ変化で破綻[15]★★★★ 使い回し検出の一次
7CLIP埋め込み cosine同キャラ別ポーズも意味照合・クロップ耐性[14]同種別物(別の双子)も「似」と誤検出★★★★ 双子問題の主役
8専用OCR (manga-ocr/Tesseract)写植文字を正確に抽出・文字化け検出可背景複雑で誤検出・前処理必須★★★ 写植品質の客観判定
9解剖学的破綻検出器(指/顔)指崩れ・顔崩れを機械判定モザイク領域で誤検出★★★ Killスイッチ補助
103社合議 + 人間トリアージ(本DR推奨)人間相関最高・バイアス相殺・コスト最適設計工数・運用継続コスト★★★★★ 本命

4技術スタック — 併用アーキテクチャ

4-1. 三層パイプライン全体図

[L0 決定論フィルタ] ─ 採点API呼ぶ前に機械判定(コスト0、80-90%削減[5]) ├ pHash → 既存全作品とHamming距離 ≤5 で「ほぼ同一=使い回し」自動FAIL ├ CLIP cosine→ ≥0.92 で「要確認(双子 or 流用)」フラグ → 人間キューへ ├ 解像度chk → 短辺<1024 は採点信頼性低下警告(§後述) ├ 黒/欠損chk → 真っ黒・1024未満・破損は即FAIL └ NSFW/モザイクメタ付与(採点プロンプトへ渡す文脈) │ 通過したものだけ ↓ [L1 マルチVLM合議] ─ family違い3審 + 構造化出力 + CoT先出し[12] ├ 主審 : Grok-4.3 (vision) temp=0 JSON強制 ├ 副審 : Qwen2.5-VL (Ollama,無料) temp=0 JSON強制 ├ 三審 : Gemini 2.5/3.5 (SFW工程) temp=0 JSON強制 ※R18拒否時はllava代替 └ 集約 : 軸ごとに中央値(median) + 標準偏差σ算出 │ [L2 人間トリアージ] ─ 全件見ない。発火条件のみ人間が目視[19][20] ├ σが閾値超(モデル間不一致が大) → 人間確定 ├ 合議中央値が境界帯(74-78点) → 人間確定 ├ L0でCLIPフラグ(双子/流用疑い) → 人間確定 └ Killスイッチ候補(ピンク肌/男顔/眼鏡/実写混入) → 人間確定 │ [出力] gate.json(既存量産ドライバ preflight() が読む / §10連携)

4-2. なぜ family を分けるのか(自己family偏重)

同じモデルを審査員と候補の両方に使うと、自分のfamily出力を10-25%高く採点する[5]。よって 審査員には候補生成と別family を必ず混ぜる。我々の場合、画像生成はSDXL(Illustrious)系なので「生成側family」とは無関係だが、複数審査員間でも family を散らす(xAI / Alibaba / Google)ことで、審査員同士のバイアス相殺が効く。2026年のdefensible defaultは「frontier 3社family違いの3審合議+集約投票」[5]

4-3. 構造化採点プロンプト(CoT先出し・JSON強制)

「理由を先、点数を後」のJSONスキーマで精度+8pt、レビュー容易性も向上[12]。temp=0で再現性確保。

SYSTEM:
あなたはR18 AIエロ漫画の品質審査員です。以下は完成商品の1コマです。
重要な前提(誤判定防止):
- 吹き出し内の縦書きセリフ・SFX文字は「写植(完成品の文字組)」であり、
  AI焼き込みの文字化けとは別物。写植自体を減点してはいけない[13]。
- モザイク領域は法令対応の正常処理。モザイク自体を解剖学的破綻として
  減点してはいけない。モザイク外の領域だけ評価せよ。
- 「他作品に似ている」かどうかは判定するな(別工程の責務)。
  目の前の1枚だけを絶対評価せよ。
- 長い説明や派手さに惑わされず、ルーブリック定義のみで採点せよ。

USER(+image):
9軸ルーブリック(各定義は厳密に):
 抜ける度(0-20) 一貫性(0-15) エロ度(0-15) NG違反(0-10,減点式)
 構図(0-10) 光(0-10) 表情(0-10) 顔(0-5) 体液(0-5)
出力は必ず次のJSONのみ。説明(reason)を先に、score を後に書け:
{
 "axes":[
   {"name":"抜ける度","reason":"...","score":0},
   ...
 ],
 "kill_flags":["pink_skin"|"male_face"|"glasses"|"photo_mixed"|"none"...],
 "total":0,
 "confidence":"high"|"mid"|"low"   ← 自信度を必ず申告(VLMは本来出さない[1])
}
confidence申告を強制する意味: VLMは放置すると信頼度を出さず、4/5が確信か不確実か区別不能[1]。プロンプトで自己申告させ、low が混じる作品を人間トリアージに回す。これだけで「自信なさげな誤採点」を相当数すくえる。

4-4. 集約ロジック(投票・中央値)

状況集約方法根拠
3審の各軸スコア統合中央値(median)。平均は外れ値1審に引っ張られる過大評価モデルの影響を中央値で吸収[4]
合否(Kill)判定1審でもKillフラグ → 多数決でなくOR(=安全側)で人間確認へ見逃しコスト>誤検知コスト
順位付けが必要な時絶対点でなくペア比較に変換VLMはペア比較が最も人間一致[3]
不一致(σ大)検出軸スコアの標準偏差が閾値超で人間トリアージ発火不一致=低信頼の機械的シグナル[19]

4-5. 画像解像度の影響

解像度はVLM採点精度に直結。ただし飽和する。Gemini-2.5-Proはタスクで47.0→57.0に改善後saturate、GPT-5は31→35→39と微増[7]。vision encoderのトークン数を増やすとObjectNetで+23.4%[6]。実務指針:

5収益試算 — 工数削減と歩留まり改善

前提: 月100作品 × 8〜16P = 月800〜1600コマを採点

方式採点コスト/月人間目視工数/月誤判定率(推定)
全件人間目視(現状最悪)¥0~40時間人間揺らぎ
Grok単独全件採点~¥1,500-3,000~3時間(全件確認)高(双子/写植/モザイク誤認)
三層(L0→3審→トリアージ)~¥600-1,200※L0で80-90%削減[5]+Qwen/Ollama無料2審~5時間(発火分のみ)(バイアス相殺+人間アンカー)

L0決定論フィルタが採点API呼び出しを80-90%削る[5]のが効く。さらに3審のうち2審(Qwen2.5-VL / Ollama)は無料なので、有料はGrok主審のみ。人間は「不一致・境界・双子疑い・Kill候補」だけ見るので、全件目視の1/8以下。歩留まり(合格率)は誤FAIL削減で実質向上=販売可能在庫の増加に直結。

6リスク — 5大バイアスと数値根拠

① 位置バイアス: ペア比較でスロットAが偶然より10-15pt多く勝つ[8]。GPT-4は約40%で順序入替時に判定が反転[9]
対策 順序を毎回ランダム化し(A,B)(B,A)両方を平均。flip率5%超でバイアス有りと判定[5]
② 冗長バイアス: 長い回答が品質同等でも15-30pt高評価(Wang 2023)[5]
対策 「長さを品質シグナルにするな」をルーブリックに明記。画像採点では「派手・盛りすぎ」に引っ張られる版で発現するため、シンプル構図を不当に減点しない指示。
③ 自己family偏重: 審査員が自family出力を10-25%高評価[5]
対策 審査員=候補と別family、3社family違い合議。
④ フォーマットバイアス: 表>散文、箇条書き>JSON等で5-15pt変動[5]
対策 画像採点では入力形式を統一(同一解像度・同一余白)。「形式は品質シグナルでない」を明記。
⑤ 較正ドリフト: 審査員モデルの軽微な更新で平均3-8pt変動、分布が狭まる[5]
対策 審査契約をピン留め=(judge_model_id, rubric_version, prompt_template_hash)を固定。モデル差替は「設定変更」でなく「eval移行」扱い。月次で人間ラベルにCohen's κ再較正[10]
R18固有リスク: ① Gemini等がR18入力を拒否→採点欠落。対策=拒否検出→Ollama(granite→Qwen-VL)へ三段fallback[21]。② スコアを信じて実画像未確認→崩壊(吹き出し圧迫/文字化け/構図使い回し)を見逃す既往事案あり。採点は足切りであって最終承認ではない。販売前は必ず人間が実画像目視。

730日プラン

期間タスク担当完了条件
Day 1-3L0決定論フィルタ実装(pHash/CLIP cosine/解像度/黒画像)。既存全作品のpHash・CLIP埋め込みをDB化CC3新規1枚を全在庫と照合し double/twin フラグが出る
Day 4-7採点プロンプト確定(写植/モザイク/双子の誤判定防止文言+CoT先出しJSON+confidence申告)。Grok主審をgrok_router経由で実装CC210枚で JSON が壊れず返る・temp=0で再現
Day 8-12Qwen2.5-VL(Ollama)副審・Gemini三審(R18拒否時llava fallback)接続。中央値+σ集約ロジックCC2+CC3同一画像を3審→中央値・σが算出される
Day 13-18人間トリアージ発火条件実装(σ閾値/境界帯74-78/CLIPフラグ/Kill候補)。トリアージUI(該当画像だけ並ぶビューワ)CC3発火件数が全体の~15%に収まる
Day 19-24人間ラベル100-300枚収集→Cohen's κ較正。各審の過大/過小バイアスを補正係数化[5]トフィーさん+CC2合議スコアと人間のκ≥0.6
Day 25-30gate.json出力を既存量産ドライバ preflight() に連結。審査契約をハッシュでピン留め。コストログ確認CC2+CC1未合格画像が量産ドライバで sys.exit(2) ブロックされる

8撤退ライン — KPIと打ち切り基準

KPI合格ライン撤退/見直しライン
合議 vs 人間 Cohen's κ≥ 0.6< 0.4 が2ヶ月連続 → ルーブリック/プロンプト全面再設計[5]
人間トリアージ発火率10-20%> 40% → 自動採点の意味消失、L0/プロンプト見直し[19]
誤FAIL(人間が合格と判定した自動FAIL)率< 5%> 15% → 在庫を捨てている、閾値緩和
双子/写植/モザイク誤判定の再発0件/月月3件以上 → §9処方箋が効いていない、プロンプト再校正
採点コスト< ¥1,200/月> ¥3,000/月 → 有料審の呼び出し回数過多、L0強化
審査契約ドリフト(モデル更新後κ)低下<3pt≥3pt低下 → 旧モデルにピン戻し or 再較正必須[10]

9落とし穴 — 双子/写植/モザイク誤判定TOP10

9-A. 双子・使い回し誤認(最重要)

落とし穴① LLMに「これは使い回しか?」と聞く。→ VLMは絶対比較が苦手で、双子キャラの正当な「そっくり」と、本当の流用を区別できない。
処方 使い回し判定を採点LLMから完全に剥がす
落とし穴② pHash単独で双子を弾く。→ pHashはクロップ/回転/ポーズ変化で破綻[15]、同キャラ別ポーズを別物扱い=見逃し。だからCLIPと併用必須。

9-B. 写植・焼き込み誤認

落とし穴③ 採点画像に写植済みコマを入れ、文脈なしで「テキストあり」を減点。→ VLMは文脈があれば「吹き出し内=セリフ、SPLASH=SFX、上部枠=ナレーション」を理解できる[13]。文脈を与えないと異物扱い。
処方 プロンプトに「これは完成品の写植。減点対象でない」を明記。さらに客観裏取りが要るなら manga-ocr で文字列抽出し、文字化け(意味不明列)だけを別途検出[11]
落とし穴④ AI焼き込み文字化け(画像内に直接生成された崩れ文字)と、正規写植を混同。→ 両者は別物。VLM bounding boxは10-30px不正確[13]なので、写植かAI文字かはOCR文字列の妥当性で機械判定するのが堅い。

9-C. モザイク誤認

落とし穴⑤ モザイク領域(低周波ブロックノイズ)を「塗り破綻/指崩れ」と誤検出。
処方 ①メタデータでモザイク有/領域を宣言し採点対象外を指示。②解剖学的破綻検出器をモザイク領域でマスク。③ルーブリックに「モザイク自体は減点しない」明記。

9-D. 採点設計の一般的落とし穴

落とし穴⑥ 絶対点を1モデルに丸投げ。→ VLMは絶対点が最弱(一致率0.611)[3]。中央値合議+人間アンカー必須。
落とし穴⑦ 低解像度サムネで採点。→ 細部欠落で誤採点。短辺1024px以上を投入[7]
落とし穴⑧ temp>0で採点。→ 同じ画像で点がブレ再現性喪失。temp=0+JSONスキーマ固定[12]
落とし穴⑨ スコアを信じて実画像未確認。→ Grok85点でも漫画崩壊の既往事案。販売前の人間目視は省略不可。
落とし穴⑩ 審査員モデルを黙って差替え。→ 平均3-8pt較正ドリフト[5]。契約をハッシュでピン留め、差替時は再較正。

10既存資産活用

既存資産本システムでの役割
grok_router.pyGrok主審呼び出しは必ずこれ経由。kind="quick_check"(grok-build-0.1最安)で軸採点、多段推論が要る境界判定だけdr_standard。コストはgrok_router_costs.jsonlに自動記録
品質ゲート
r18_quality_gate.html
9軸ルーブリック(抜ける度20/一貫性15/エロ15/NG10/構図10/光10/表情10/顔5/体液5)と加重3.8(76点)安全ライン・Killスイッチ(ピンク肌/男顔/眼鏡/実写/断面図)を本システムのルーブリック定義に流用
gate.json (D:\projects\fanza3_mass\gates\)本システムの最終出力フォーマット。量産ドライバ preflight() が未合格を sys.exit(2) でブロック=後段連結はそのまま使える
gq_score_fallback.pyGrok拒否時 granite→Qwen-VL の三段fallback[21]=R18拒否対策の副審/三審ロジックに転用
Ollama (ローカル)無料の副審・三審。コスト0層として一次足切り+合議の頭数に
関連DR(下記§11)ルーブリック詳細・チェックリスト100項目・写植品質基準は既存DRを参照し二重定義を避ける

11関連DR一覧

12脚注(全URL)

  1. VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal Evaluation (arXiv) — VLMは点数を出せるが信頼度を出せない。 https://arxiv.org/html/2604.25235v1
  2. Cross-model LLM-as-Judge consistency / ensemble human correlation (Gemini-2.5-Pro・GPT-5・Qwen-VL-Plus評価者間 Pearson>0.91, Spearman>0.81, アンサンブル人間相関 r≈0.8466) — 検索集約。代表: A survey on LLM-as-a-judge (The Innovation) https://www.cell.com/the-innovation/fulltext/S2666-6758(25)00456-4
  3. MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark — ペア比較0.675/採点0.611/バッチ順位0.418、GPT-4V>Gemini。 https://mllm-judge.github.io/ / 論文PDF https://arxiv.org/pdf/2402.04788
  4. Is your video language model a reliable judge? — VLMはスコアを一貫して過大評価。 https://arxiv.org/html/2503.05977v1
  5. LLM-Judge Bias Mitigation (2026): Detect, Measure, Fix (Future AGI) — 5大バイアス数値・3社family合議・決定論フィルタ80-90%削減・月次κ較正。 https://futureagi.com/blog/evaluating-llm-judge-bias-mitigation-2026/
  6. Qwen2-VL: Enhancing Vision-Language Model's Perception at Any Resolution — 動的解像度・native処理・トークン増で+23.4%。 https://arxiv.org/html/2409.12191v1
  7. OddGridBench / 解像度と精度の飽和 (Gemini-2.5-Pro 47→57で飽和, GPT-5 31→35→39) https://arxiv.org/pdf/2603.09326
  8. LLM-as-Judge position bias (Zheng et al. 2024, スロットA 10-15pt有利) — Future AGI集約 / 詳細 https://mbrenndoerfer.com/writing/position-bias-in-llm-judges
  9. Position Bias in LLM Judges: Measurement and Mitigation — GPT-4は約40%で順序入替時に反転。 https://mbrenndoerfer.com/writing/position-bias-in-llm-judges
  10. Rubric-Based Evaluations & LLM-as-a-Judge — Methodologies, Biases, Empirical Validation (Medium, 2026-04) — 較正ドリフト・Cohen's κ。 https://medium.com/@adnanmasood/rubric-based-evals-llm-as-a-judge...
  11. Manga OCR — 吹き出し内テキスト抽出の専用OCR。 https://acmyu.github.io/manga-ocr.html
  12. Structured Generation for LLM-as-a-Judge Evaluations (Comet) — JSON強制・CoT先出しで精度+8pt。 https://www.comet.com/site/blog/structured-generation-llm-as-a-judge/ / Arize https://arize.com/llm-as-a-judge/
  13. How AI Manga Translation Works: OCR, Inpainting, Typesetting (BookTranslator) — VLMは文脈で「吹き出し=セリフ/SPLASH=SFX」を理解、bbox 10-30px不正確。 https://www.booktranslator.app/en-US/blog/how-ai-manga-translation-works
  14. Duplicate Image Detection — CLIP埋め込みは別角度/別ポーズ同一被写体を照合、クロップ/透かし耐性。 https://vecstore.app/blog/duplicate-image-detection
  15. 同上(DEV版) — pHashはクロップ/回転/オーバーレイで破綻、CLIPはポーズ変化に頑健。 https://dev.to/kencho/duplicate-image-detection...
  16. Detecting Duplicate Images with perceptual hashing (Ben Hoyt) — Hamming距離閾値。 https://benhoyt.com/writings/duplicate-image-detection/
  17. imagededup (idealo) — pHash実装・15bit/d≤10閾値の指針。 https://idealo.github.io/imagededup/methods/hashing/
  18. Comparative Evaluation of Perceptual Hashing and Deep Embedding Methods (MDPI Electronics) — pHash vs CLIP埋め込み比較。 https://www.mdpi.com/2079-9292/15/7/1493
  19. Human-in-the-Loop AI Review Queues (2026): Scalable Workflows, SLAs & Feedback Loops (All Days Tech) — サンプリング/トリアージ/不一致発火/合意80%閾値。 https://alldaystech.com/guides/artificial-intelligence/human-in-the-loop-ai-review-queue-workflows
  20. Utilizing Human-in-the-Loop (HITL) Feedback for Robust AI Evaluation (Maxim AI) — escape rate・risk-based sampling・active learning。 https://www.getmaxim.ai/articles/utilizing-human-in-the-loop-hitl-feedback-for-robust-ai-evaluation/
  21. (自社既存実装) gq_score_fallback.py — Grok拒否時 granite→Qwen-VL 三段fallback (feedback_grok_qwen_fallback_2026-06-07.md)。Ollama /api/chat + images。
DR完 / 2026-06-09 / 一次情報21ソース / 制作: CC2(Opus 4.8 1M)