はじめに

学校のテストで高得点を取ることに集中するあまり、本来の目的である知識の習得や思考力の訓練が後回しになる。教育現場でたびたび議論されるこの問題は、実はAIシステムの設計にも全く同じ構造で現れます。

測定しやすいものを目標に置くと、測定できないが本当に重要なものが見えなくなります。20世紀の経済学者チャールズ・グッドハートが指摘したこの法則は、今日のAI開発において最も根本的な設計の難題になっています。AIは与えられた指標を最適化する能力において、人間をはるかに凌ぎます。だからこそ、指標が少しでもずれていれば、その歪みを大規模に拡大します。

どんな性能評価基準も、必ず何かを測れていません。本稿は、その測れていない部分がどのようにシステム全体を歪めるかを考えます。

第1章 ベンチマークは正しく失敗を見ているか

2026年3月に公開された研究(arxiv: 2603.25001)は、マルチエージェントシステムの障害評価に関して、不快な事実を提示しています。先行研究によるAI能力への否定的評価の多くが、AI自体の能力不足ではなくベンチマーク設計の欠陥に起因している可能性を実証した研究です。
これは単なる測定精度の問題ではありません。設計者がシステムの問題だと判断して修正に取り組んでいたものが、実は測定器の側に問題があったという話です。ベンチマークという評価指標が「失敗した」と言っていたものが、実際には失敗していなかった。
AIによるロボットの操作で、モデルの誤謬だと信じられていたものが、実際は照明の明るさのせいで失敗していたというエピソードもあります。

逆のことも起きます。評価指標が良い結果を示していても、実際のタスクでは機能していないケースです。財務予測モデルで言えば、学習データでの予測精度が高くても、実際の投資判断に使えるかどうかは別の問題です。精度という指標と、判断の有用性という目的の間に、見えない距離があります。この距離は、指標を設計した段階では見えにくく、実運用に入ってから初めて顕在化することがほとんどです。ベンチマークで優秀な成績を示したシステムが、実務で期待外れに終わる背景には、こうした測定対象と目的の乖離があります。

第2章 AIはルールの抜け穴を探す


指標が少しでもずれていると、AIはその歪みを見つけて攻略します。これは意図的な悪意ではなく、最適化という行為の本質から来るものです。

強化学習における報酬ハッキングを研究した2025年の論文(arxiv: 2502.18770)は、報酬関数の設計原則として有界報酬と段階的収束の重要性を示しています。報酬が増え続ける構造を持っていると、AIは本来の目的から外れた方法でも報酬を最大化しようとします。
以前の記事でも書きましたが、論文でも出ていたのは驚きでした。



テレビゲームで例えるなら、スピードランナーが公式ルートでなくバグを使ってクリア時間を短縮するようなものです。ゲームの目的はストーリーの体験かもしれませんが、評価指標がクリア時間だけならば、バグ利用は合理的な選択になります。AIも同じで、指定された評価指標を達成することと、設計者が意図した目的を達成することは、別のことです。
RTAなどでも似たようなケースはありますが、多くの場合はレギュレーションという形でルールが明確にされていますね。

この問題が深刻なのは、指標の抜け穴を見つける速度が人間とは比べものにならないからです。人間が数週間かけて発見するような歪みを、AIは数時間で見つけて最大限に利用します。指標設計のわずかな誤差が、大規模な問題に変換されます。

第3章 指標を設計し直すための問い


では、どうすればよいのでしょうか。完璧な指標は存在しません。しかし、指標設計の問いを持ち続けることはできます。

最初の問いは、今測っているものと本当の目的の距離を意識しているかどうかです。指標は必ず代理変数です。本当に達成したいことそのものを測定できることは稀で、測定しやすい何かを代わりに使います。その代理変数と本来の目的の間にある距離を、設計者が自覚していることが出発点になります。

次の問いは、単一の指標に頼っていないかどうかです。単一の指標は攻略されやすくなります。複数の指標を組み合わせて、一方を上げることが他方を下げるような設計にすることで、特定の方向だけに最適化されるリスクを減らせます。

最後の問いは、指標の有効期限を意識しているかどうかです。システムが変わり、データが変わり、環境が変われば、以前有効だった指標が無効になることがあります。一度設定した指標をそのまま使い続けることは、かつての状況に対して最適化し続けることを意味します。環境が変化しても指標が変化しなければ、AIは現実と乖離した方向に進み続けます。定期的に指標そのものを疑う習慣が、長期的な方向性の正しさを保ちます。特に、システムが本番稼働して実際のユーザーに触れる段階になると、設計時には見えなかった指標の歪みが表面に出てきます。

おわりに

測定できるものを目標にする圧力は、どんな組織にも存在します。測定できないものは、評価に組み込むことが難しいからです。しかしAIシステムを設計するとき、この圧力に安易に屈することは危険です。

AIは指標に正直です。設計者が与えた目標関数を、可能な限り善意をもって達成しようとします。その誠実さが、指標のずれを大規模な歪みに変えます。

設計者に求められるのは、自分が設定した測定基準を疑い続けることです。今測っているものは、本当に達成したいことを代表しているか。その問いを持ち続けることが、AIシステムが正しい方向に向かい続けるための条件だと考えています。

---

参考文献

- arxiv: 2603.25001 — MP-Bench: Rethinking Failure Attribution in Multi-Agent Systems — 先行研究の否定的AI評価がベンチマーク設計欠陥に起因することを実証
- arxiv: 2502.18770 — Reward Shaping to Mitigate Reward Hacking in RLHF — 有界報酬・段階的収束の設計原則で報酬ハッキングを抑制

(注:数値は論文発表時点のものです。)