DR: AIエロ漫画自動品質評価システム設計 2026 — 複数LLM採点・誤判定回避・人間目視併用

核心結論（3行）

① Grok-4.3単独採点は構造的に危険。VLMジャッジは「点数は出せるが信頼度を出せない」ため、4/5点が自信ある正解か実は不確実かを区別できず^[1]、しかも過大評価・冗長偏重・自己family偏重のバイアスを持つ^[5]。

② 解は「決定論フィルタ → 3モデル合議 → 不一致だけ人間トリアージ」の三層。frontier 3社（family違い）でアンサンブル投票すると人間相関が単独最高モデルを上回る（r≈0.85）^[2]。決定論フィルタを先に通すと採点API呼び出しを80-90%削減^[5]。

③ 双子=使い回し誤認、写植=焼き込み誤認、モザイク=破綻誤認は「採点プロンプトの責務分離」で潰す。重複判定はLLMにやらせず CLIP埋め込み＋pHash の機械判定に逃がす^[14]。写植はVLMに「吹き出し内テキスト＝正常な写植であり減点対象でない」と文脈を明示^[13]。

トフィーさん事案への直接回答

観測された誤判定	根本原因	本DRの処方箋
双子作品の「そっくり」を使い回しと誤認	LLMに「重複検出」を丸投げ。意味類似(CLIP)とピクセル一致(pHash)の区別ができていない	使い回し判定は採点LLMから剥がす。pHash(Hamming距離)で同一画像、CLIP cosineで意味的近接を機械判定→閾値で自動分類（§9-A）
写植セリフを焼き込みテキストと誤認し減点	採点プロンプトに「写植は正常品質」という文脈が欠落。VLMは文脈なしだと画像内テキスト全般を異物扱い	プロンプトに「吹き出し内テキスト・縦書きセリフは完成品の写植であり、AI焼き込み文字化けとは別物」を明記。VLMは本来「吹き出し内=セリフ」を文脈理解できる^[13]（§9-B）
モザイク部位を「解剖学的破綻」と誤認	モザイク領域=低周波ノイズをVLMが指崩れ/塗り破綻と取り違え	モザイク有無を事前メタデータで宣言、または採点対象から該当領域を除外する指示。R18特化ルーブリックで「モザイク自体は減点しない」を明記（§9-C）

2市場規模 — VLM-as-Judge技術の到達点

VLM（Vision-Language Model）を自動審査員に使う「MLLM-as-a-Judge」は2024年以降の主要研究テーマ。チャート理解・VQA・画像キャプション・AI生成画像の品質採点に適用が進む^[3]。一方で信頼性の限界が次々に定量化され、2026年時点では「単独利用は非推奨、合議＋人間校正が defensible default」が業界コンセンサス^[5]。

到達点の定量サマリ

指標	数値	出典
3社family違いアンサンブルの人間相関	r ≈ 0.8466（単独最高を上回る）	[2]
異種family評価者間のPearson相関	> 0.91（Spearman > 0.81、平均バイアス < 0.04）	[2]
GPT-4V ペア比較一致率	0.675（採点タスクでは0.611、バッチ順位は0.418に低下）	[3]
VLMの傾向	スコアを一貫して過大評価（Video-LLaVA等）	[4]
決定論フィルタ前置によるAPIコスト削減	80-90%	[5]

重要なのは「ペア比較は得意だが、絶対点数化とバッチ順位は苦手」という構造^[3]。我々のGQ採点（9軸の絶対点数）はまさにVLMの最弱領域に直撃している。だから絶対点を1モデルに出させず、相対比較・複数モデル平均・人間アンカーで補正する設計が必須になる。

3競合TOP10 — 採点エンジン/手法の比較

#	手法/モデル	強み	弱み	R18エロ漫画適性
1	Grok-4.3 (vision)	R18寛容・日本語可・推論強い・grok_router既存	絶対点過大評価・冗長偏重・双子/写植誤認実績あり	★★★★ 主審に最適だが単独不可
2	Gemini 2.5/3.5	解像度耐性・大量処理安・日本語1位・OpenRouter既存	R18で拒否リスク・採点で過小傾向・GPT-4Vに一致率劣る^[3]	★★★ SFW工程/副審向き
3	Qwen2.5-VL (local)	動的解像度=native解像で細部保持^[6]・無料・R18拒否しにくい	frontier比で精度劣・GPU占有	★★★★ ローカル副審/事前選別に最適
4	Ollama (granite/llava/Qwen-VL)	完全無料・無制限・拒否なし・fallback実績^[21]	小モデルは細部弱・過大評価	★★★ 一次足切り・コスト0層
5	CLIP Aesthetic / LAION美的スコア	超高速・無料・連続値	エロ文脈無理解・構図/物語評価不可	★★ 美的足切りのみ
6	pHash (Hamming距離)	同一/ほぼ同一の検出が確実・極軽量	クロップ/回転/ポーズ変化で破綻^[15]	★★★★ 使い回し検出の一次
7	CLIP埋め込み cosine	同キャラ別ポーズも意味照合・クロップ耐性^[14]	同種別物(別の双子)も「似」と誤検出	★★★★ 双子問題の主役
8	専用OCR (manga-ocr/Tesseract)	写植文字を正確に抽出・文字化け検出可	背景複雑で誤検出・前処理必須	★★★ 写植品質の客観判定
9	解剖学的破綻検出器(指/顔)	指崩れ・顔崩れを機械判定	モザイク領域で誤検出	★★★ Killスイッチ補助
10	3社合議 + 人間トリアージ（本DR推奨）	人間相関最高・バイアス相殺・コスト最適	設計工数・運用継続コスト	★★★★★ 本命

4技術スタック — 併用アーキテクチャ

4-1. 三層パイプライン全体図

[L0 決定論フィルタ] ─ 採点API呼ぶ前に機械判定（コスト0、80-90%削減^[5]） ├ pHash → 既存全作品とHamming距離 ≤5 で「ほぼ同一=使い回し」自動FAIL ├ CLIP cosine→ ≥0.92 で「要確認(双子 or 流用)」フラグ → 人間キューへ ├ 解像度chk → 短辺<1024 は採点信頼性低下警告（§後述） ├ 黒/欠損chk → 真っ黒・1024未満・破損は即FAIL └ NSFW/モザイクメタ付与（採点プロンプトへ渡す文脈） │ 通過したものだけ ↓ [L1 マルチVLM合議] ─ family違い3審 + 構造化出力 + CoT先出し^[12] ├ 主審 : Grok-4.3 (vision) temp=0 JSON強制 ├ 副審 : Qwen2.5-VL (Ollama,無料) temp=0 JSON強制 ├ 三審 : Gemini 2.5/3.5 (SFW工程) temp=0 JSON強制 ※R18拒否時はllava代替 └ 集約 : 軸ごとに中央値(median) + 標準偏差σ算出 │ [L2 人間トリアージ] ─ 全件見ない。発火条件のみ人間が目視^[19][20] ├ σが閾値超(モデル間不一致が大) → 人間確定 ├ 合議中央値が境界帯(74-78点) → 人間確定 ├ L0でCLIPフラグ(双子/流用疑い) → 人間確定 └ Killスイッチ候補(ピンク肌/男顔/眼鏡/実写混入) → 人間確定 │ [出力] gate.json（既存量産ドライバ preflight() が読む / §10連携）

4-2. なぜ family を分けるのか（自己family偏重）

同じモデルを審査員と候補の両方に使うと、自分のfamily出力を10-25%高く採点する^[5]。よって 審査員には候補生成と別family を必ず混ぜる。我々の場合、画像生成はSDXL(Illustrious)系なので「生成側family」とは無関係だが、複数審査員間でも family を散らす（xAI / Alibaba / Google）ことで、審査員同士のバイアス相殺が効く。2026年のdefensible defaultは「frontier 3社family違いの3審合議＋集約投票」^[5]。

4-3. 構造化採点プロンプト（CoT先出し・JSON強制）

「理由を先、点数を後」のJSONスキーマで精度+8pt、レビュー容易性も向上^[12]。temp=0で再現性確保。

confidence申告を強制する意味: VLMは放置すると信頼度を出さず、4/5が確信か不確実か区別不能^[1]。プロンプトで自己申告させ、low が混じる作品を人間トリアージに回す。これだけで「自信なさげな誤採点」を相当数すくえる。

4-4. 集約ロジック（投票・中央値）

4-5. 画像解像度の影響

状況	集約方法	根拠
3審の各軸スコア統合	中央値(median)。平均は外れ値1審に引っ張られる	過大評価モデルの影響を中央値で吸収^[4]
合否(Kill)判定	1審でもKillフラグ → 多数決でなくOR(=安全側)で人間確認へ	見逃しコスト>誤検知コスト
順位付けが必要な時	絶対点でなくペア比較に変換	VLMはペア比較が最も人間一致^[3]
不一致(σ大)検出	軸スコアの標準偏差が閾値超で人間トリアージ発火	不一致=低信頼の機械的シグナル^[19]

解像度はVLM採点精度に直結。ただし飽和する。Gemini-2.5-Proはタスクで47.0→57.0に改善後saturate、GPT-5は31→35→39と微増^[7]。vision encoderのトークン数を増やすとObjectNetで+23.4%^[6]。実務指針:

5収益試算 — 工数削減と歩留まり改善

前提: 月100作品 × 8〜16P = 月800〜1600コマを採点

方式	採点コスト/月	人間目視工数/月	誤判定率(推定)
全件人間目視(現状最悪)	¥0	~40時間	人間揺らぎ
Grok単独全件採点	~¥1,500-3,000	~3時間(全件確認)	高(双子/写植/モザイク誤認)
三層(L0→3審→トリアージ)	~¥600-1,200※L0で80-90%削減^[5]+Qwen/Ollama無料2審	~5時間(発火分のみ)	低(バイアス相殺+人間アンカー)

L0決定論フィルタが採点API呼び出しを80-90%削る^[5]のが効く。さらに3審のうち2審(Qwen2.5-VL / Ollama)は無料なので、有料はGrok主審のみ。人間は「不一致・境界・双子疑い・Kill候補」だけ見るので、全件目視の1/8以下。歩留まり(合格率)は誤FAIL削減で実質向上＝販売可能在庫の増加に直結。

6リスク — 5大バイアスと数値根拠

① 位置バイアス: ペア比較でスロットAが偶然より10-15pt多く勝つ^[8]。GPT-4は約40%で順序入替時に判定が反転^[9]。
対策順序を毎回ランダム化し(A,B)(B,A)両方を平均。flip率5%超でバイアス有りと判定^[5]。

② 冗長バイアス: 長い回答が品質同等でも15-30pt高評価(Wang 2023)^[5]。
対策「長さを品質シグナルにするな」をルーブリックに明記。画像採点では「派手・盛りすぎ」に引っ張られる版で発現するため、シンプル構図を不当に減点しない指示。

⑤ 較正ドリフト: 審査員モデルの軽微な更新で平均3-8pt変動、分布が狭まる^[5]。
対策審査契約をピン留め=(judge_model_id, rubric_version, prompt_template_hash)を固定。モデル差替は「設定変更」でなく「eval移行」扱い。月次で人間ラベルにCohen's κ再較正^[10]。

R18固有リスク: ① Gemini等がR18入力を拒否→採点欠落。対策=拒否検出→Ollama(granite→Qwen-VL)へ三段fallback^[21]。② スコアを信じて実画像未確認→崩壊(吹き出し圧迫/文字化け/構図使い回し)を見逃す既往事案あり。採点は足切りであって最終承認ではない。販売前は必ず人間が実画像目視。

730日プラン

期間	タスク	担当	完了条件
Day 1-3	L0決定論フィルタ実装(pHash/CLIP cosine/解像度/黒画像)。既存全作品のpHash・CLIP埋め込みをDB化	CC3	新規1枚を全在庫と照合し double/twin フラグが出る
Day 4-7	採点プロンプト確定(写植/モザイク/双子の誤判定防止文言+CoT先出しJSON+confidence申告)。Grok主審をgrok_router経由で実装	CC2	10枚で JSON が壊れず返る・temp=0で再現
Day 8-12	Qwen2.5-VL(Ollama)副審・Gemini三審(R18拒否時llava fallback)接続。中央値+σ集約ロジック	CC2+CC3	同一画像を3審→中央値・σが算出される
Day 13-18	人間トリアージ発火条件実装(σ閾値/境界帯74-78/CLIPフラグ/Kill候補)。トリアージUI(該当画像だけ並ぶビューワ)	CC3	発火件数が全体の~15%に収まる
Day 19-24	人間ラベル100-300枚収集→Cohen's κ較正。各審の過大/過小バイアスを補正係数化^[5]	トフィーさん+CC2	合議スコアと人間のκ≥0.6
Day 25-30	gate.json出力を既存量産ドライバ preflight() に連結。審査契約をハッシュでピン留め。コストログ確認	CC2+CC1	未合格画像が量産ドライバで sys.exit(2) ブロックされる

8撤退ライン — KPIと打ち切り基準

KPI	合格ライン	撤退/見直しライン
合議 vs 人間 Cohen's κ	≥ 0.6	< 0.4 が2ヶ月連続 → ルーブリック/プロンプト全面再設計^[5]
人間トリアージ発火率	10-20%	> 40% → 自動採点の意味消失、L0/プロンプト見直し^[19]
誤FAIL(人間が合格と判定した自動FAIL)率	< 5%	> 15% → 在庫を捨てている、閾値緩和
双子/写植/モザイク誤判定の再発	0件/月	月3件以上 → §9処方箋が効いていない、プロンプト再校正
採点コスト	< ¥1,200/月	> ¥3,000/月 → 有料審の呼び出し回数過多、L0強化
審査契約ドリフト(モデル更新後κ)	低下<3pt	≥3pt低下 → 旧モデルにピン戻し or 再較正必須^[10]

9落とし穴 — 双子/写植/モザイク誤判定TOP10

9-A. 双子・使い回し誤認（最重要）

落とし穴① LLMに「これは使い回しか?」と聞く。→ VLMは絶対比較が苦手で、双子キャラの正当な「そっくり」と、本当の流用を区別できない。
処方使い回し判定を採点LLMから完全に剥がす。

pHash Hamming距離 ≤5=ほぼ同一ピクセル=本物の使い回し→自動FAIL^[16](15bit/d≤10も用途次第^[17])。
CLIP cosine ≥0.92=意味的に近い=「双子の正当な類似」か「構図流用」かは人間が見る。CLIPは同キャラ別ポーズも照合できる^[14]が、別の双子(別物)も「似」と出すため^[18]最終は人間。
pHash=低かつ CLIP=高 → 「同キャラだが別ポーズ=正常な双子作品」と機械的に切り分け、誤FAILを防ぐ。

9-B. 写植・焼き込み誤認

落とし穴③ 採点画像に写植済みコマを入れ、文脈なしで「テキストあり」を減点。→ VLMは文脈があれば「吹き出し内=セリフ、SPLASH=SFX、上部枠=ナレーション」を理解できる^[13]。文脈を与えないと異物扱い。
処方プロンプトに「これは完成品の写植。減点対象でない」を明記。さらに客観裏取りが要るなら manga-ocr で文字列抽出し、文字化け(意味不明列)だけを別途検出^[11]。

落とし穴④ AI焼き込み文字化け(画像内に直接生成された崩れ文字)と、正規写植を混同。→ 両者は別物。VLM bounding boxは10-30px不正確^[13]なので、写植かAI文字かはOCR文字列の妥当性で機械判定するのが堅い。

9-C. モザイク誤認

落とし穴⑤ モザイク領域(低周波ブロックノイズ)を「塗り破綻/指崩れ」と誤検出。
処方 ①メタデータでモザイク有/領域を宣言し採点対象外を指示。②解剖学的破綻検出器をモザイク領域でマスク。③ルーブリックに「モザイク自体は減点しない」明記。

既存資産	本システムでの役割
`grok_router.py`	Grok主審呼び出しは必ずこれ経由。`kind="quick_check"`(grok-build-0.1最安)で軸採点、多段推論が要る境界判定だけ`dr_standard`。コストは`grok_router_costs.jsonl`に自動記録
品質ゲート r18_quality_gate.html	9軸ルーブリック(抜ける度20/一貫性15/エロ15/NG10/構図10/光10/表情10/顔5/体液5)と加重3.8(76点)安全ライン・Killスイッチ(ピンク肌/男顔/眼鏡/実写/断面図)を本システムのルーブリック定義に流用
gate.json (D:\projects\fanza3_mass\gates\)	本システムの最終出力フォーマット。量産ドライバ `preflight()` が未合格を `sys.exit(2)` でブロック=後段連結はそのまま使える
gq_score_fallback.py	Grok拒否時 granite→Qwen-VL の三段fallback^[21]=R18拒否対策の副審/三審ロジックに転用
Ollama (ローカル)	無料の副審・三審。コスト0層として一次足切り＋合議の頭数に
関連DR(下記§11)	ルーブリック詳細・チェックリスト100項目・写植品質基準は既存DRを参照し二重定義を避ける

AIエロ漫画自動品質評価システム設計完全ガイド 2026
複数LLM採点・誤判定回避・人間目視併用の最適フロー

1結論

核心結論（3行）

トフィーさん事案への直接回答

2市場規模 — VLM-as-Judge技術の到達点

到達点の定量サマリ

3競合TOP10 — 採点エンジン/手法の比較

4技術スタック — 併用アーキテクチャ

4-1. 三層パイプライン全体図

4-2. なぜ family を分けるのか（自己family偏重）

4-3. 構造化採点プロンプト（CoT先出し・JSON強制）

4-4. 集約ロジック（投票・中央値）

4-5. 画像解像度の影響

5収益試算 — 工数削減と歩留まり改善

前提: 月100作品 × 8〜16P = 月800〜1600コマを採点

6リスク — 5大バイアスと数値根拠

730日プラン

8撤退ライン — KPIと打ち切り基準

9落とし穴 — 双子/写植/モザイク誤判定TOP10

9-A. 双子・使い回し誤認（最重要）

9-B. 写植・焼き込み誤認

9-C. モザイク誤認

9-D. 採点設計の一般的落とし穴

10既存資産活用

11関連DR一覧

12脚注（全URL）

AIエロ漫画 自動品質評価システム設計 完全ガイド 2026複数LLM採点・誤判定回避・人間目視併用の最適フロー

1結論

核心結論（3行）

トフィーさん事案への直接回答

2市場規模 — VLM-as-Judge技術の到達点

到達点の定量サマリ

3競合TOP10 — 採点エンジン/手法の比較

4技術スタック — 併用アーキテクチャ

4-1. 三層パイプライン全体図

4-2. なぜ family を分けるのか（自己family偏重）

4-3. 構造化採点プロンプト（CoT先出し・JSON強制）

4-4. 集約ロジック（投票・中央値）

4-5. 画像解像度の影響

5収益試算 — 工数削減と歩留まり改善

前提: 月100作品 × 8〜16P = 月800〜1600コマを採点

6リスク — 5大バイアスと数値根拠

730日プラン

8撤退ライン — KPIと打ち切り基準

9落とし穴 — 双子/写植/モザイク誤判定TOP10

9-A. 双子・使い回し誤認（最重要）

9-B. 写植・焼き込み誤認

9-C. モザイク誤認

9-D. 採点設計の一般的落とし穴

10既存資産活用

11関連DR一覧

12脚注（全URL）

AIエロ漫画自動品質評価システム設計完全ガイド 2026
複数LLM採点・誤判定回避・人間目視併用の最適フロー