① Grok-4.3単独採点は構造的に危険。VLMジャッジは「点数は出せるが信頼度を出せない」ため、4/5点が自信ある正解か実は不確実かを区別できず[1]、しかも過大評価・冗長偏重・自己family偏重のバイアスを持つ[5]。
② 解は「決定論フィルタ → 3モデル合議 → 不一致だけ人間トリアージ」の三層。frontier 3社(family違い)でアンサンブル投票すると人間相関が単独最高モデルを上回る(r≈0.85)[2]。決定論フィルタを先に通すと採点API呼び出しを80-90%削減[5]。
③ 双子=使い回し誤認、写植=焼き込み誤認、モザイク=破綻誤認 は「採点プロンプトの責務分離」で潰す。重複判定はLLMにやらせず CLIP埋め込み+pHash の機械判定に逃がす[14]。写植はVLMに「吹き出し内テキスト=正常な写植であり減点対象でない」と文脈を明示[13]。
| 観測された誤判定 | 根本原因 | 本DRの処方箋 |
|---|---|---|
| 双子作品の「そっくり」を使い回しと誤認 | LLMに「重複検出」を丸投げ。意味類似(CLIP)とピクセル一致(pHash)の区別ができていない | 使い回し判定は採点LLMから剥がす。pHash(Hamming距離)で同一画像、CLIP cosineで意味的近接を機械判定→閾値で自動分類(§9-A) |
| 写植セリフを焼き込みテキストと誤認し減点 | 採点プロンプトに「写植は正常品質」という文脈が欠落。VLMは文脈なしだと画像内テキスト全般を異物扱い | プロンプトに「吹き出し内テキスト・縦書きセリフは完成品の写植であり、AI焼き込み文字化けとは別物」を明記。VLMは本来「吹き出し内=セリフ」を文脈理解できる[13](§9-B) |
| モザイク部位を「解剖学的破綻」と誤認 | モザイク領域=低周波ノイズをVLMが指崩れ/塗り破綻と取り違え | モザイク有無を事前メタデータで宣言、または採点対象から該当領域を除外する指示。R18特化ルーブリックで「モザイク自体は減点しない」を明記(§9-C) |
VLM(Vision-Language Model)を自動審査員に使う「MLLM-as-a-Judge」は2024年以降の主要研究テーマ。チャート理解・VQA・画像キャプション・AI生成画像の品質採点に適用が進む[3]。一方で信頼性の限界が次々に定量化され、2026年時点では「単独利用は非推奨、合議+人間校正が defensible default」が業界コンセンサス[5]。
| 指標 | 数値 | 出典 |
|---|---|---|
| 3社family違いアンサンブルの人間相関 | r ≈ 0.8466(単独最高を上回る) | [2] |
| 異種family評価者間のPearson相関 | > 0.91(Spearman > 0.81、平均バイアス < 0.04) | [2] |
| GPT-4V ペア比較一致率 | 0.675(採点タスクでは0.611、バッチ順位は0.418に低下) | [3] |
| VLMの傾向 | スコアを一貫して過大評価(Video-LLaVA等) | [4] |
| 決定論フィルタ前置によるAPIコスト削減 | 80-90% | [5] |
重要なのは「ペア比較は得意だが、絶対点数化とバッチ順位は苦手」という構造[3]。我々のGQ採点(9軸の絶対点数)はまさにVLMの最弱領域に直撃している。だから絶対点を1モデルに出させず、相対比較・複数モデル平均・人間アンカーで補正する設計が必須になる。
| # | 手法/モデル | 強み | 弱み | R18エロ漫画適性 |
|---|---|---|---|---|
| 1 | Grok-4.3 (vision) | R18寛容・日本語可・推論強い・grok_router既存 | 絶対点過大評価・冗長偏重・双子/写植誤認実績あり | ★★★★ 主審に最適だが単独不可 |
| 2 | Gemini 2.5/3.5 | 解像度耐性・大量処理安・日本語1位・OpenRouter既存 | R18で拒否リスク・採点で過小傾向・GPT-4Vに一致率劣る[3] | ★★★ SFW工程/副審向き |
| 3 | Qwen2.5-VL (local) | 動的解像度=native解像で細部保持[6]・無料・R18拒否しにくい | frontier比で精度劣・GPU占有 | ★★★★ ローカル副審/事前選別に最適 |
| 4 | Ollama (granite/llava/Qwen-VL) | 完全無料・無制限・拒否なし・fallback実績[21] | 小モデルは細部弱・過大評価 | ★★★ 一次足切り・コスト0層 |
| 5 | CLIP Aesthetic / LAION美的スコア | 超高速・無料・連続値 | エロ文脈無理解・構図/物語評価不可 | ★★ 美的足切りのみ |
| 6 | pHash (Hamming距離) | 同一/ほぼ同一の検出が確実・極軽量 | クロップ/回転/ポーズ変化で破綻[15] | ★★★★ 使い回し検出の一次 |
| 7 | CLIP埋め込み cosine | 同キャラ別ポーズも意味照合・クロップ耐性[14] | 同種別物(別の双子)も「似」と誤検出 | ★★★★ 双子問題の主役 |
| 8 | 専用OCR (manga-ocr/Tesseract) | 写植文字を正確に抽出・文字化け検出可 | 背景複雑で誤検出・前処理必須 | ★★★ 写植品質の客観判定 |
| 9 | 解剖学的破綻検出器(指/顔) | 指崩れ・顔崩れを機械判定 | モザイク領域で誤検出 | ★★★ Killスイッチ補助 |
| 10 | 3社合議 + 人間トリアージ(本DR推奨) | 人間相関最高・バイアス相殺・コスト最適 | 設計工数・運用継続コスト | ★★★★★ 本命 |
「理由を先、点数を後」のJSONスキーマで精度+8pt、レビュー容易性も向上[12]。temp=0で再現性確保。
SYSTEM:
あなたはR18 AIエロ漫画の品質審査員です。以下は完成商品の1コマです。
重要な前提(誤判定防止):
- 吹き出し内の縦書きセリフ・SFX文字は「写植(完成品の文字組)」であり、
AI焼き込みの文字化けとは別物。写植自体を減点してはいけない[13]。
- モザイク領域は法令対応の正常処理。モザイク自体を解剖学的破綻として
減点してはいけない。モザイク外の領域だけ評価せよ。
- 「他作品に似ている」かどうかは判定するな(別工程の責務)。
目の前の1枚だけを絶対評価せよ。
- 長い説明や派手さに惑わされず、ルーブリック定義のみで採点せよ。
USER(+image):
9軸ルーブリック(各定義は厳密に):
抜ける度(0-20) 一貫性(0-15) エロ度(0-15) NG違反(0-10,減点式)
構図(0-10) 光(0-10) 表情(0-10) 顔(0-5) 体液(0-5)
出力は必ず次のJSONのみ。説明(reason)を先に、score を後に書け:
{
"axes":[
{"name":"抜ける度","reason":"...","score":0},
...
],
"kill_flags":["pink_skin"|"male_face"|"glasses"|"photo_mixed"|"none"...],
"total":0,
"confidence":"high"|"mid"|"low" ← 自信度を必ず申告(VLMは本来出さない[1])
}
| 状況 | 集約方法 | 根拠 |
|---|---|---|
| 3審の各軸スコア統合 | 中央値(median)。平均は外れ値1審に引っ張られる | 過大評価モデルの影響を中央値で吸収[4] |
| 合否(Kill)判定 | 1審でもKillフラグ → 多数決でなくOR(=安全側)で人間確認へ | 見逃しコスト>誤検知コスト |
| 順位付けが必要な時 | 絶対点でなくペア比較に変換 | VLMはペア比較が最も人間一致[3] |
| 不一致(σ大)検出 | 軸スコアの標準偏差が閾値超で人間トリアージ発火 | 不一致=低信頼の機械的シグナル[19] |
解像度はVLM採点精度に直結。ただし飽和する。Gemini-2.5-Proはタスクで47.0→57.0に改善後saturate、GPT-5は31→35→39と微増[7]。vision encoderのトークン数を増やすとObjectNetで+23.4%[6]。実務指針:
| 方式 | 採点コスト/月 | 人間目視工数/月 | 誤判定率(推定) |
|---|---|---|---|
| 全件人間目視(現状最悪) | ¥0 | ~40時間 | 人間揺らぎ |
| Grok単独全件採点 | ~¥1,500-3,000 | ~3時間(全件確認) | 高(双子/写植/モザイク誤認) |
| 三層(L0→3審→トリアージ) | ~¥600-1,200※L0で80-90%削減[5]+Qwen/Ollama無料2審 | ~5時間(発火分のみ) | 低(バイアス相殺+人間アンカー) |
L0決定論フィルタが採点API呼び出しを80-90%削る[5]のが効く。さらに3審のうち2審(Qwen2.5-VL / Ollama)は無料なので、有料はGrok主審のみ。人間は「不一致・境界・双子疑い・Kill候補」だけ見るので、全件目視の1/8以下。歩留まり(合格率)は誤FAIL削減で実質向上=販売可能在庫の増加に直結。
(judge_model_id, rubric_version, prompt_template_hash)を固定。モデル差替は「設定変更」でなく「eval移行」扱い。月次で人間ラベルにCohen's κ再較正[10]。| 期間 | タスク | 担当 | 完了条件 |
|---|---|---|---|
| Day 1-3 | L0決定論フィルタ実装(pHash/CLIP cosine/解像度/黒画像)。既存全作品のpHash・CLIP埋め込みをDB化 | CC3 | 新規1枚を全在庫と照合し double/twin フラグが出る |
| Day 4-7 | 採点プロンプト確定(写植/モザイク/双子の誤判定防止文言+CoT先出しJSON+confidence申告)。Grok主審をgrok_router経由で実装 | CC2 | 10枚で JSON が壊れず返る・temp=0で再現 |
| Day 8-12 | Qwen2.5-VL(Ollama)副審・Gemini三審(R18拒否時llava fallback)接続。中央値+σ集約ロジック | CC2+CC3 | 同一画像を3審→中央値・σが算出される |
| Day 13-18 | 人間トリアージ発火条件実装(σ閾値/境界帯74-78/CLIPフラグ/Kill候補)。トリアージUI(該当画像だけ並ぶビューワ) | CC3 | 発火件数が全体の~15%に収まる |
| Day 19-24 | 人間ラベル100-300枚収集→Cohen's κ較正。各審の過大/過小バイアスを補正係数化[5] | トフィーさん+CC2 | 合議スコアと人間のκ≥0.6 |
| Day 25-30 | gate.json出力を既存量産ドライバ preflight() に連結。審査契約をハッシュでピン留め。コストログ確認 | CC2+CC1 | 未合格画像が量産ドライバで sys.exit(2) ブロックされる |
| KPI | 合格ライン | 撤退/見直しライン |
|---|---|---|
| 合議 vs 人間 Cohen's κ | ≥ 0.6 | < 0.4 が2ヶ月連続 → ルーブリック/プロンプト全面再設計[5] |
| 人間トリアージ発火率 | 10-20% | > 40% → 自動採点の意味消失、L0/プロンプト見直し[19] |
| 誤FAIL(人間が合格と判定した自動FAIL)率 | < 5% | > 15% → 在庫を捨てている、閾値緩和 |
| 双子/写植/モザイク誤判定の再発 | 0件/月 | 月3件以上 → §9処方箋が効いていない、プロンプト再校正 |
| 採点コスト | < ¥1,200/月 | > ¥3,000/月 → 有料審の呼び出し回数過多、L0強化 |
| 審査契約ドリフト(モデル更新後κ) | 低下<3pt | ≥3pt低下 → 旧モデルにピン戻し or 再較正必須[10] |
| 既存資産 | 本システムでの役割 |
|---|---|
grok_router.py | Grok主審呼び出しは必ずこれ経由。kind="quick_check"(grok-build-0.1最安)で軸採点、多段推論が要る境界判定だけdr_standard。コストはgrok_router_costs.jsonlに自動記録 |
| 品質ゲート r18_quality_gate.html | 9軸ルーブリック(抜ける度20/一貫性15/エロ15/NG10/構図10/光10/表情10/顔5/体液5)と加重3.8(76点)安全ライン・Killスイッチ(ピンク肌/男顔/眼鏡/実写/断面図)を本システムのルーブリック定義に流用 |
| gate.json (D:\projects\fanza3_mass\gates\) | 本システムの最終出力フォーマット。量産ドライバ preflight() が未合格を sys.exit(2) でブロック=後段連結はそのまま使える |
| gq_score_fallback.py | Grok拒否時 granite→Qwen-VL の三段fallback[21]=R18拒否対策の副審/三審ロジックに転用 |
| Ollama (ローカル) | 無料の副審・三審。コスト0層として一次足切り+合議の頭数に |
| 関連DR(下記§11) | ルーブリック詳細・チェックリスト100項目・写植品質基準は既存DRを参照し二重定義を避ける |