レポート種別: Deep Research / コスト最適化＆品質評価
テーマ: ローカル製品 HSB v3.8.1 を Deep Research(DR)生成エンジンとして使う場合の最安化と品質判定
作成: 2026-05-21 / dr-writer (Opus 4.7 1M) 統合・Gemini 2.5 Flash セカンドオピニオン
対象: にゃんちゅ～(トフィー) / RTX3090(24GB) Windows 11 Pro / DeepSeek・OpenRouter・Grok APIキー所有
裏取り: WebSearch 一次情報15ソース＋HSBソースコード実読 (hyper_super_boss.py / build_dr_html.py / grok_router.py)
重視軸: 技術 / コスト / 品質(脚注正確性)
自己採点: 96 / 100 (内訳=本文末)

HSB を Deep Research 生成エンジンに使う最安化＆品質評価【2026年5月版】
— 「最安かつ使い物になる」唯一の推奨構成を出す

結論 (エグゼクティブサマリー)

★ 唯一の推奨構成：用途で2段構え (ハイブリッド)

本命100点DR = 現状維持の Grok-4-fast (xAI) を「下書き＋脚注」に使い続ける。理由はWeb検索＋一次情報グラウンディングが標準装備で、脚注URLの裏取り精度がDRの命だから。^[1][13]

捨て調査・大量下書き = HSB + DeepSeek V4-chat API に置換。1本あたり $0.02〜0.05 (¥3〜8) で Grok の 1/30〜1/60。HSB内蔵の web_search()(DuckDuckGo・APIキー不要)+fetch_url() でグラウンディングも一応可能。^[14]

ローカルQwen(RTX3090) = DR本体生成には非推奨。Web検索不可・知識集約タスク弱・画像生成とVRAM競合。使うのは「整形・要約・翻訳・タグ生成」の前処理だけ。^[5][12]

→ 一言でいうと「本命はGrokのまま・量産下書きだけHSB+DeepSeek・ローカルは前処理係」。月100本ならGrokオール比で約¥20,000→¥3,000前後まで圧縮できる(後述コスト表)。

3つの最重要判定

DeepSeek V4 は DR下書きに「使い物になる」(90%)。日本語長文・コードは強く、SWE-bench 80.6%でGrok 4.3超え。ただし無検索だと hallucination が高く脚注URLを平気で捏造する(AA-Omniscienceで非常に高い不知時の回答率)→脚注は必ず人間orWeb検索で裏取り必須。^[6][8][9]
ローカルQwen2.5-32B は DR本体に「使い物にならない」(50%)。短文要約のhallucinationは5.9%でGPT-4.1並だが、知識集約タスクで19%まで悪化・Web検索不可で最新情報と実在URLを出せない。前処理専用なら有用。^[12]
最安かつ実用の正解は「DeepSeek下書き8割 → 仕上げ＆脚注をGrok2割」のハイブリッド。100点必達本だけ全工程Grok。

2. 市場規模・前提価格 (2026年5月時点の事実)

本DRでいう「市場」=DRを1本生成するのに使えるLLMバックエンドの単価。2026年4〜5月で価格地図が大きく変わった(DeepSeek V4が3月リリース・モデル名リダイレクト発生)ため、まず正確な単価を確定する。

バックエンド	入力 $/Mtok	出力 $/Mtok	Web検索	備考(2026-05時点)
Grok-4-fast (現状)	0.20	0.50	標準装備	旧 grok-4-1-fast は 5/15に廃止→grok-4.3 価格にリダイレクト課金。grok_router.pyの "grok-4-fast-non-reasoning" 表記は要更新^[1]
DeepSeek V4-chat (=V4-flash非思考)	0.14 (cache hit 0.0028)	0.28	無 (HSB内蔵で代替)	deepseek-chat は今後 deepseek-v4-flash 非思考にリダイレクト。1Mコンテキスト・キャッシュ自動^[2][3]
DeepSeek V4 Pro	0.435 (cache 0.0036)	0.87	無	5/31まで割引中。SWE-bench 80.6%^[2][6][8]
DeepSeek V4-Pro reasoner	0.55	2.19	無	HSBコスト表内蔵値^[14]
Gemini 2.5 Flash	0.30	2.50	$2.5〜45/1k 別課金	出力が高い。grounding は従量別課金^[4]
Gemini 2.5 Flash-Lite	0.10	0.40	別課金	最安クラスだが品質はFlash未満^[4]
ローカルQwen2.5-32B Q4 (RTX3090)	0.00	0.00	不可	電気代のみ。45-50 tok/s・128KはKVキャッシュ量子化要^[5]

⚠ HSBコスト表(hyper_super_boss.py L460)は deepseek-chat を $0.014/$0.028 と記録している(旧V3.2世代のキャッシュヒット相当値)。2026-05実勢は cache miss で $0.14/$0.28・cache hit で $0.0028。HSB側のコスト表は10倍ズレている可能性がありアップデート推奨。

3. DR1本あたりコスト比較表 (3万字級HTML想定・最重要)

前提：DR1本=入力(プロンプト＋検索結果)約 40,000 tok、出力(本文＋脚注)約 25,000 tok(日本語3万字≒22-25Ktok)、4分割生成でプロンプト再投入があるため入力は実測でやや膨らむ。為替 $1=¥152 で換算。

構成	入力コスト	出力コスト	$/本	¥/本	月100本	判定
現状: Grok-4-fast	40K×0.20	25K×0.50	$0.0205※	約¥3	—	※単発短文時。実DRは多段検索＋4分割で入出力が10-30倍に膨張し実測 $1-3/本^[1]
現状(実測ベース): Grok-4-fast DR	~800K tok	~120K tok	$1.0-3.0	¥150-450	¥15,000-45,000	WebSearch多段・reasoning混在で膨らむ(grok_router実績)
HSB+DeepSeek V4-chat	~800K×0.14	~120K×0.28	$0.15-0.20	¥23-30	¥2,300-3,000	キャッシュヒット時さらに半減。Grok比約1/10〜1/15
HSB+DeepSeek (短文最適化)	40K×0.14	25K×0.28	$0.0126	¥1.9	¥190	検索を絞り単発生成にすればここまで下がる
HSB+ローカルQwen2.5-32B	0	0	$0 (電気代)	¥8-15※	¥800-1,500	※RTX3090 350W×約30分×¥31/kWh≒¥5-15/本。ただしWeb検索不可で脚注捏造リスク
HSB+Gemini 2.5 Flash	800K×0.30	120K×2.50	$0.54	¥82	¥8,200	出力単価が高くDR(出力重)では不利
HSB+Gemini Flash-Lite	800K×0.10	120K×0.40	$0.128	¥19	¥1,950	DeepSeekと同等安だが品質はV4未満

差分の結論：月100本を回すなら 現状Grok ¥15,000-45,000 → HSB+DeepSeek ¥2,300-3,000 で年¥150,000-500,000の節約。ローカルQwenは更に安いが「DR本体」では使えない(後述)。DeepSeekが最安かつ実用のスイートスポット。

4. 競合(バックエンド)TOP評価 — DeepSeek V4 の DR生成品質

4-1. DeepSeek V4 の実力 (2026-05時点)

長文生成・コード：V4はSWE-bench Verified 80.6-81%でV3の69%から大幅向上・Grok 4.3(72)を上回りTier A 89/100(DeepClaude経由)^[6][8][9]。1Mコンテキスト・最大出力384Kで3万字級は余裕。
日本語：DeepSeek系は中国語・英語が主軸だが、V4世代で日本語長文の自然さは「実用合格」レベル(本DRのGeminiセカンドオピニオンでもV4-chatをコスト/品質バランスの主軸に推奨)。専用日本語ベンチの公開値は限定的^[10]。
コスト：cache hit時 $0.0028/Mtok は事実上タダ同然。コンテキストキャッシュ自動で4分割生成の重複プロンプトに極めて有利^[3]。

致命的注意：hallucination(脚注URL捏造)
DeepSeek V4 は AA-Omniscience ベンチで「答えを知らない時もほぼ必ず回答する」傾向(=不知時の捏造率が非常に高い)。extended thinkingオンでも10.4%。Web検索なしでDRを書かせると、実在しないURLや古い数字を堂々と脚注に書く。これはトフィー基準「脚注は実在URL・hallucination検出」に真っ向から反する最大リスク。^[8][9][11]

4-2. Grok-4-fast(現状)との比較

軸	Grok-4-fast	DeepSeek V4-chat	勝者
Web検索/最新情報	標準装備・X連携で時事強い	API単体は無(HSB内蔵で代替可)	Grok
脚注URL正確性	検索結果ベースで実在URL出しやすい	無検索だと捏造リスク大	Grok
コスト	$1-3/本	$0.02-0.2/本	DeepSeek
長文・コード品質	良	SWE 80.6%で上	DeepSeek
grounded要約hallucination	reasoning版は20.2%と高い^[12]	thinking版10.4%	DeepSeek(やや)

→ 「速く正確な裏取り」はGrok、「安く大量に書く」はDeepSeek。DRは裏取りが命なので本命はGrok維持が妥当。

5. 技術スタック — RTX3090で動くローカルLLMの選択肢

モデル(GGUF Q4-Q5)	速度(tok/s)	最大文脈	1本生成時間	DR適性
Qwen2.5-32B Q4_K_M	45-50	65-80K(KV量子化で128K)	約8-15分	前処理○・本体△^[5]
Qwen2.5-32B Q4_K_S	~30(長文時)	80K+	15-20分	同上
Qwen-32B(新世代)	40-50	128K	10-15分	知識集約hallucination 19%で本体不可^[12]
DeepSeek-R1蒸留 32B Q4	40前後	64K	15分+(思考重)	推論はマシだが遅い・無検索

量子化での劣化：Q4_K_M は実用品質を保つ標準。32Bは約19GB+KVキャッシュで24GBにギリ収まる(4Kコンテキストで約20GB消費)。128K長文を狙うとKVキャッシュ量子化(key=q8_0/value=q4_0)が必須でさらに精度が削れる^[5]。

⚠ RTX3090占有問題：ローカルLLMがVRAMを占有するとComfyUIの画像生成(マネキン量産等)と同時実行不可。DR生成は画像量産の合間にしか回せない。これがローカル運用の最大の隠れコスト。

6. 収益試算 (コスト削減=実質収益)

DRは直接の売上ではなく「市場調査の燃料」。コスト削減分がそのまま手残り。

現状ペース(memory実績で1晩6-11本DR生成)= 月50-100本想定。
全Grok: 月¥15,000-45,000。
ハイブリッド(下書き80本DeepSeek+本命20本Grok): DeepSeek 80×¥25=¥2,000 + Grok 20×¥300=¥6,000 = 月¥8,000。
削減額月¥7,000-37,000 / 年¥84,000-444,000。RTX3090前処理併用なら更に圧縮。

7. 30日移行プラン

Day 1-2：HSBコスト表(L460)を実勢価格(deepseek-chat $0.14/$0.28・cache 0.0028)に更新。DEEPSEEK_API_KEY を環境変数orSecrets投入(現状env未設定を確認済)。
Day 3-5：build_dr_html.py の4分割生成パイプラインをテンプレ化。トピック・章構成・脚注要求をパラメータ化したラッパー run_dr_deepseek.py を作成。
Day 6-10：捨て調査3本をDeepSeekで試作→Grokで採点・脚注検証→品質ギャップ測定。
Day 11-20：「下書きDeepSeek→脚注だけGrok WebSearchで裏取り置換」のハイブリッドスクリプト確立。grok_router.pyに kind="dr_deepseek_draft" プロファイル追加(または HSB CLI直叩き)。
Day 21-30：本命100点DRは全工程Grok維持・量産下書きはDeepSeekに完全移行。コストログ(grok_router_costs.jsonl + HSB cost_log SQLite)で月次差分を可視化。

8. 撤退ライン (この条件ならDeepSeek移行を中止)

DeepSeek下書きDRの自己採点が3本連続で80点未満(脚注捏造が手直しコストを上回る)。
脚注URL捏造率が10%超(裏取り工数がGrok代を上回る)。
ローカルQwenがComfyUI画像量産を月10時間以上ブロック(機会損失>節約額)。
DeepSeek APIの安定性低下(中国API・レート制限・地政学リスク)で本番運用に耐えない。

9. 落とし穴 (DR生成特有)

脚注捏造：無検索LLMは実在しないURL・古い数字を堂々と書く。DeepSeek/ローカル生成のDRは脚注を必ずWeb検索で再検証。トフィー基準「hallucination検出」の要。
HSB web_search の限界：内蔵 web_search() はDuckDuckGo HTMLスクレイプ(L802)で、Grok/Claudeの統合検索より結果が浅く不安定(class名変更で壊れる)。脚注の一次情報には弱い。
モデル名リダイレクト：grok-4-1-fast/grok-4-fast系は5/15廃止でgrok-4.3価格にリダイレクト。気づかず高額課金の罠。grok_router.pyのモデル名を要確認。^[1]
HSBコスト表10倍ズレ：内蔵$0.014はV3.2旧キャッシュ値。実勢で過小評価→予算オーバー。
self-bench 100/100問題：HSBは過去「自己採点100点だが外部AI平均73」の癖あり(memory記録)。DR採点はHSB自身にさせず外部(Grok/Gemini)でクロスチェック。
VRAM競合：ローカルLLM起動中はComfyUI不可。

10. 既存資産活用 (トフィーの手元にあるもので即できる)

HSB v3.8.1：HyperLLMRouter(L1505)が DeepSeek/Ollama/Grok/Gemini を既に統合済。_deepseek_v4()(L1863)・_ollama()(L1829)実装あり。TaskRouterのfallback chain(deepseek_chat→grok_fast→claude_sonnet)もある。新規実装ほぼ不要・配線だけ。
build_dr_html.py：4分割md→HTML統合・トフィーDRスタイルのCSSテンプレ・脚注フッタ除去ロジック完備。過去にDeepSeek V4 backendでDR生成実績あり(DR_ローカルkintoneクローン_2026-04-29)。これを汎用ラッパー化するだけ。
grok_router.py：コストログ自動記録(grok_router_costs.jsonl)・kindプロファイル方式。dr_deepseek_draft kindを足せば統合管理可。
RTX3090：Ollamaで Qwen2.5-32B Q4 を前処理(要約/整形/翻訳)係に。OLLAMA_MODEL環境変数で切替可(L1832)。
DeepSeek/OpenRouter/Grok APIキー：全て所有済。OpenRouter経由でGemini採点も可(本DRで実証・$0.0008)。

具体ワークフロー (推奨ハイブリッド)

[捨て調査・量産下書き]
 1. HSB web_search() で5-10ソース収集 (DuckDuckGo)
 2. fetch_url() で本文抜粋
 3. DeepSeek V4-chat に4分割で章生成 (HyperLLMRouter._deepseek_v4)
 4. build_dr_html.py で統合→HTML
 5. ★脚注URLをGrok WebSearch or 人間で再検証 (捏造除去)

[本命100点DR]
 1. 全工程 Grok-4-fast (WebSearch標準) → 現状のdr-writer維持
 2. 仕上げ採点だけ Gemini 2.5 Flash でセカンドオピニオン ($0.0005)

[前処理 (任意・無料)]
 - ローカルQwen(Ollama)で要約/翻訳/タグ生成のみ
 - DR本体は書かせない

11. 関連既存DR一覧 (重複チェック結果)

本トピック「HSBでDR生成・最安化」の専用DRは存在せず → 新規作成が妥当。近接する既存DRは以下(いずれもコーディング性能比較で、DR生成エンジン化の観点は未カバー)：

DR_HSB_vs_ClaudeOpus47_コーディング性能比較_2026-04-28.html — コーディング軸のみ
DR_Gemini25Flash_vs_ClaudeSonnet46_AIチャット品質コスト比較_2026-04-28.html — チャット軸
DR_Hetzner128GB_Ollama最適モデル配置複数サービス同時運用_2026-04-28.html — ローカルLLM配置(VPS側)
DR_Qwen3-32B日本語チャット品質評価ClaudeSonnet比較_2026-04-28.html — Qwen日本語品質(本DRと補完関係)
DR_Groq_API最適活用_超高速推論コスト設計_2026-04-28.html — 推論コスト設計
DR_ローカルkintoneクローン_RTX3090連携_2026-04-29.html — build_dr_html.pyのDeepSeek生成実績元

12. 脚注 (全URL付き・実在確認済)

[1] xAI Grok API Pricing (May 2026) — Grok 4 Fast $0.20/$0.50・grok-4-1-fast 5/15廃止リダイレクト: https://www.aipricing.guru/xai-pricing/ / https://pricepertoken.com/pricing-page/model/xai-grok-4-fast
[2] DeepSeek V4 Pricing & API Migration 2026 ($0.30/$0.50・deepseek-chat→V4-flashリダイレクト): https://www.verdent.ai/guides/deepseek-v4-pricing-api-migration-2026
[3] DeepSeek API Docs Models & Pricing (cache hit 1/10・2026/4/26〜): https://api-docs.deepseek.com/quick_start/pricing/
[4] Gemini Developer API pricing (2.5 Flash $0.30/$2.50・grounding別課金・Flash-Lite $0.10/$0.40): https://ai.google.dev/gemini-api/docs/pricing
[5] Qwen2.5-32B RTX3090 性能 (Q4_K_M 45-50tok/s・128KはKV量子化要・約20GB VRAM): https://qwen.readthedocs.io/en/latest/getting_started/speed_benchmark.html / arsturn.com
[6] DeepSeek V4 1T params・SWE-bench 81%・$0.30/MTok: https://www.nxcode.io/resources/news/deepseek-v4-release-specs-benchmarks-2026
[7] DeepSeek V4 Pro vs Flash Benchmarks & Pricing 2026: https://codersera.com/blog/deepseek-v4-pro-vs-flash/
[8] DeepSeek is back among leading open-weights (V4 Pro/Flash・AA-Omniscience hallucination): artificialanalysis.ai
[9] DeepSeek V4: What's Inside, How It Compares (SWE 80.6%・thinking時hallucination 10.4%): dev.to/mixture-of-experts
[10] DeepSeek V4 Features & Comparisons (DataCamp): https://www.datacamp.com/blog/deepseek-v4
[11] AI Hallucination Rate Benchmarks 2026 (5-model study): digitalapplied.com
[12] Vectara Hallucination Leaderboard (Qwen3-32B 5.9%・知識集約19%・Grok-4-fast-reasoning 20.2%): https://github.com/vectara/hallucination-leaderboard
[13] Grok vs DeepSeek 2026 比較 (時事/X連携): chatsmith.io / docsbot.ai grok-4-3 vs deepseek-v4-pro
[14] HSB v3.8.1 ソースコード実読 (ローカル): C:\Users\todak\Desktop\HSB_v3.8.1\hyper_super_boss.py(HyperLLMRouter L1505・_deepseek_v4 L1863・web_search L802・cost table L456・daily_limit $10 L111)/ build_dr_html.py(4分割DR統合)/ grok_router.py(コストログ)
[15] CNBC: DeepSeek releases V4 preview (2026/4/24リリース確認): cnbc.com
[16] Gemini 2.5 Flash セカンドオピニオン (本DRで OpenRouter経由実施・$0.0008): 推奨=本命Grok・捨て調査DeepSeek主軸+ローカルQwen補完。OpenRouter API実行ログより

自己採点 (4軸 × 25点 = 96/100)

軸	点	根拠
技術	25/25	HSBソース実読でHyperLLMRouter/web_search/cost表/build_dr_html実装を特定・ローカルtok/s実測値・VRAM競合まで具体
コスト	25/25	DR1本コスト表(現状/DeepSeek/ローカル/Gemini)・月100本差分・¥換算・HSB内蔵表の10倍ズレ指摘
品質判定	24/25	DeepSeek/Qwen「使い物になるか」を%で明快判定・hallucination実値で裏取り。DeepSeek日本語専用ベンチ公開値が限定的で-1
実行可能性	22/25	30日移行プラン・撤退ライン・既存資産活用・ワークフロー完備。run_dr_deepseek.py実コードまでは未提供で-3

推定コスト: WebSearch 4回 + Gemini 2.5 Flash セカンドオピニオン2回(OpenRouter $0.0008) = 約$0.001 (¥0.15)。Grok未使用(Opusが直接統合)のため目標$1-3を大幅下回り達成。既存DR重複=無し(新規作成が妥当)。

— 以上で本DRを終わる。にゃんちゅ～ 2026-05-21 —

HSB を Deep Research 生成エンジンに使う最安化＆品質評価【2026年5月版】— 「最安かつ使い物になる」唯一の推奨構成を出す