指標をめぐる認知バイアス

ダッシュボードの数字は伸びているのに、現場の手応えはどんどん悪くなる。営業のKPIは達成しているのに顧客は離れていく。コードレビューのコメント数を測り始めたら、本当に直すべき問題が指摘されなくなった。

こういう「指標を導入した結果、本来の目的が遠ざかる」現象には、別々の分野で別々の名前がついている。同じ話に聞こえるが、失敗の所在は違う。観察対象の選び方の偏りなのか、指標と目的の取り違えなのか、指標を目標化した結果なのか、制度全体への波及なのか。

街灯効果

観察の場所選択そのものに偏りが入る現象。鍵を街灯の下で探す酔っ払いの寓話に由来する。鍵を落としたのは街灯の下ではないと自分でも分かっているのに、「ここの方が明るいから」と街灯の下を探し続ける。観察可能性が探索範囲を決めてしまう。寓話自体は社会科学では Abraham Kaplan が1964年に "drunkard's search" として導入しており、ジャーナリストの David H. Freedman が2010年の著書 Wrong と Discover 誌記事 "The Streetlight Effect" で広く流通させた。近年では実証経済学でも Hoelzemann et al. 2024 が研究対象として扱っている。

具体事例:

独裁国家のGDP操作と夜間光。GDPは政府が操作しやすい指標、夜間衛星画像の光強度は操作しにくい代替指標。Martinez の世界銀行論文 "How Much Should We Trust the Dictator's GDP Estimates?" は、独裁度が高い国ほどGDP公表値と夜間光由来の推計が乖離することを実証した。「測りやすいGDPだけを見る」と、独裁国家の経済実態を体系的に見誤る

ソフトウェア開発の Lines of Code（コード行数）。測れるから測られてきた指標だが、機能性との相関は弱い。同じ機能を少ない行数で実現する熟達者の生産性を構造的に過小評価する

バニティメトリクス。Eric Ries が2009年の論考で、フォロワー数・PV・登録ユーザー数の累計のような「見栄えのよい増加数字」を、エンゲージメントやLTVといった本質指標と対比した。ただし Jeff Gothelf は "先行指標として有用な場面がある" と反論しており、虚栄かどうかはアウトカムへの因果距離によると読むのが穏当だろう

街灯効果は観察対象の選び方の偏りであり、後続の決定や報酬設計とは独立に発動する。観察対象が偏っていなくても他のバイアスは起きるし、観察対象が偏っていても他のバイアスが起きるとは限らない。

ホーソン効果

観察されていると被観察者が知った時点で、その事実だけで行動が変わる現象。指標化も報酬連動もなくても発動する。呼称はイリノイ州 Hawthorne Works での1924-1932年の照明実験に由来し、1953年に John R. P. French が "Hawthorne effect" として参照したのが命名の起点とされる。ただし元のHawthorne実験の解釈には強い反証があり、Levitt と List の2011年論文 "Was There Really a Hawthorne Effect at the Hawthorne Plant?" は再分析の結果、原データは効果を支持しないと結論している。原典の解釈は揺らいでいるが、観察が被観察者の行動を変える現象自体は他文脈で繰り返し実証されている。

具体事例:

病院の手指衛生コンプライアンス。Srigley らの2014年論文 "Quantification of the Hawthorne effect in hand hygiene compliance monitoring using an electronic monitoring system" は、医療従事者の手指衛生実施が、観察者の視界内では時間あたり21回、視界外では8回と約3倍の差があったと報告している

ICUの手指衛生。Hagel らの2015年論文 "Quantifying the Hawthorne Effect in Hand Hygiene Compliance Through Comparing Direct Observation With Automated Hand Hygiene Monitoring" では、教育キャンペーン前のICUで、隠れた観察と公然の観察を比べると手指衛生実施率が113%増加した

血圧治療の臨床研究。研究参加そのものが患者の服薬遵守を高め、観察1ヶ月で血圧が156/106から146/99 mmHgへ低下する例が報告されている。新薬の効果と区別がつかないため、臨床試験のデザイン上の主要な交絡要因として扱われる

マクナマラの誤謬

定量データだけを意思決定の根拠にし、定量化できない要素を入力から外してしまう誤り。量的誤謬とも呼ばれる。1971年に Daniel Yankelovich がマーケティング業界向けの講演で命名した。命名対象の Robert McNamara は1961年から1968年の米国防長官で、ベトナム戦争を死傷者数、出撃回数、敵兵死者カウント（body count）といった定量指標で管理した。

具体事例:

ベトナム戦争の body count。Andrew Krepinevich の1986年の歴史研究 [The Army and Vietnam https://archive.org/details/armyvietnam0000krep] は、search and destroy戦略でbody countを最大化することが、対反乱戦の本質である住民支持の獲得を妨げたと論じた。Douglas Kinnard が1977年の著書 The War Managers でベトナム戦争に従軍した173人の米陸軍将官に行った調査では、61%が body count は "grossly exaggerated" と回答している

医療の品質評価。Seamus O'Mahony の2017年論文 "Medicine and the McNamara fallacy"（Journal of the Royal College of Physicians of Edinburgh）は、病院死亡率、NHSターゲット、品質保証指標を例に、医療現場で定量化できない要素を切り捨てる傾向を指摘した

医学教育の能力評価。Marceau らの2022年論文 "Competency-based medical education and the McNamara fallacy" は、定量化可能な能力指標を評価対象にすると、定量化できない臨床判断や患者との関係性が周辺化される構造を指摘している

Yankelovich はマクナマラ的思考の段階を整理している。

第1段階: 測れるものを測る。これ自体は問題ない

第2段階: 測れないものを軽視する、または恣意的な数値を当てる。誤解を生む

第3段階: 測れないものは重要でないと考える。盲目さの始まり

第4段階: 測れないものは存在しないと考える。自殺的

街灯効果と混同されやすいが指している問題は違う。街灯効果は観察の場所選択の偏りであり、マクナマラの誤謬は観察結果のみで決定することの誤りである。観察対象が完全に正しくても、定性情報を入力から落とせばマクナマラは発動する。

サロゲーション

指標と、その指標が代理している構成概念を、認知の中で取り違える現象。会計学の Willie Choi、Gary Hecht、William B. Tayler が2011年の "Lost in Translation" で命名した。Choi らはJournal of Accounting Researchの2013年論文 "Strategy Selection, Surrogation, and Strategic Performance Measurement Systems" で、単一指標で報酬されるマネジャーほどサロゲーションが強まり、複数指標で報酬する設計は緩和することを実験的に示した。さらにマネジャー自身が戦略選択に関与するとサロゲーションが減る。戦略「熟議」に参加するだけでは減らず、当事者が選んだという意識が必要だという。

具体事例:

Wells Fargoのクロスセル戦略。「顧客との長期的な関係構築」が戦略構成概念、「顧客一人あたりの口座保有数」がその代理指標だった。経営陣がクロスセル数を戦略そのものと取り違えた結果、行員にも同じ取り違えが伝播し、350万件の不正口座開設と長期顧客関係の破壊につながった。Harris & Tayler の2019年HBR論考 "Don't Let Metrics Undermine Your Business" が、サロゲーション概念の代表事例として詳細に分析している

顧客満足度の代理指標であるNPSが、認知の中で「顧客満足度そのもの」に置き換わる現象は、サロゲーション研究で繰り返し挙げられる典型例。NPSスコアを上げる施策が本来の顧客満足とは独立に進行する

OKRのKey ResultsがObjectiveを置き換える。Objectiveは「ユーザーに価値を届ける」のような構成概念で、Key Resultsはその代理測度だが、四半期の中盤になると誰もObjectiveを参照せずKey Resultsの数字だけを追う

サロゲーションは指標を運用する側の認知の中で起きる取り違えである。指標自体が歪んでいなくても、報酬設計が変わっていなくても発動する。本人が「代理にすぎない」という意識を失ってしまうこと自体が問題で、指標応答の話とは別の現象である。

グッドハートの法則

指標を目標化すると、経済主体がその指標に応答して行動を変え、指標は良い測度でなくなる。

起源はイギリスの金融経済学者 Charles Goodhart が1975年に発表した金融政策論文。当時のGoodhartの定式化は "Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes" で、「目標になると測度でなくなる」というキャッチーな言い回しはのちの1997年に人類学者 Marilyn Strathern が論文 ''Improving ratings': audit in the British University system"（European Review 5巻3号）で整理したものである。多くの引用がこの言い回しを Goodhart 本人の言葉として帰属しているが、実際は Strathern の整理である。

似たものにルーカス批判がある

グッドハートの法則は、マクロ経済学のルーカス批判と混同されることが多い。Robert Lucas が1976年に "Econometric Policy Evaluation: A Critique" で示したルーカス批判は、「政策が変わると人々の期待や行動の仕方そのものが変わるので、過去のデータで作った経済モデルから政策の効果を予測しても当てにならない」というものである。

グッドハートは、このルーカス批判が指す現象のうち、特に「ある指標を政策のターゲットに据える」ケースを扱っていると読める。指標を狙うと人々はその指標に反応して行動を変える、というのはルーカスが言ったことを指標の場面に当てはめた話に近い。

Manheimのグッドハート四類型

近年、David Manheim と Scott Garrabrant が2018年論文 "Categorizing Variants of Goodhart's Law" で、グッドハートを4類型に分解する整理を提示した。AI Safety文脈で広く参照され、Scaling Laws for Reward Model Overoptimization などRLHF研究にも引き継がれている。

Regressional Goodhart（ノイズ混入型）

指標と目標に相関はあるが、指標にはノイズも乗っている。指標の上位を選ぶと、本当に目標が高い個体だけでなく「たまたまノイズで上振れした個体」も混ざる。結果、目標の実値は指標から素朴に期待される水準より下になる

例: コーディングテスト満点者を採用したら、平均より優秀ではあるが、テスト満点から期待されたほどの実務能力は出ない。当日の体調や問題との相性で上振れした候補者が混ざるため

Extremal Goodhart（外挿型）

普段の範囲では指標と目標が相関しているが、極端な領域では関係が成り立たなくなる。観測範囲外に外挿すると壊れる

例: コードカバレッジ。50%→80%は品質と相関するが、95%→100%を狙う領域では、意味のない assert やプライベートメソッドのテストばかり増え、カバレッジを上げても品質は上がらなくなる

Causal Goodhart（因果なし型）

指標と目標の間に因果関係がない、あるいは介入によって因果構造そのものが変わる。指標を動かしても目標が動かない

例: 「PRレビューのコメント数が多いPRは品質が低い」という相関を見て、コメント数を減らす運用を始めると、レビュアが指摘を控えるようになるだけでバグは減らない。最初の相関は「複雑なPRほどコメントもバグも多い」という共通原因の話で、コメント数自体に因果はなかった

Adversarial Goodhart（応答型）

規制者と違う目標を持つ別主体が、指標の存在を知った上で意図的に応答する。Manheim と Garrabrant はこの類型にキャンベルの法則とコブラ効果の両方を含めている

例: ベロシティ（ストーリーポイント消化量）でチームを評価すると、見積もりを大きめに付けるようになる。同じ機能でも翌四半期のポイントが膨らみ、生産性向上の指標として機能しなくなる

キャンベルの法則

指標が単一主体の行動を歪めるだけでなく、制度全体に副作用が波及する現象。社会心理学者・方法論者の Donald T. Campbell が1976年の論文で定式化した。原文は次のとおり。

The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.

グッドハートとの違いはどこにあるか。グッドハートが「指標が良い測度でなくなる」という測定論の話なのに対し、キャンベルは「指標が制度そのものを歪める」という社会論の話である。同じ現象を測定側から見るか社会側から見るかの違いで、命題としては同根に近い。Jeffery Rodamar が2018年に Significance 誌で書いた "There ought to be a law! Campbell versus Goodhart" は、Campbell が1969年時点で同種の現象を定式化していたとして、この種の「指標が制度を歪める」現象を Campbell's law と呼ぶのが妥当だと論じている。

具体事例:

米国のNo Child Left Behind法（2002）以降の標準テスト主義で、テスト点数を学校・教師の評価に直結させた結果、答案改竄、低成績生徒の登校阻止、テスト科目以外のカリキュラム削減が広範に発生した

アトランタ学区の答案改竄スキャンダル。2009年にAtlanta Journal-Constitution紙が統計的に不自然なスコア急上昇を報じて発覚、2011年のジョージア州捜査局報告で56校中44校での組織的不正と178人の関与を認定、2015年に元教員ら11人がジョージア州RICO法違反で有罪判決

英国NHSにおける救急部門の4時間対応目標。Bevan & Hood の2006年論文 "What's Measured Is What Matters: Targets and Gaming in the English Public Health Care System" は、目標値を導入された病院がA&E部門に4時間以内対応の見込みが立つまで患者を救急車内で待機させる戦術や、廊下のストレッチャーを「ベッド」と呼び換えて別の12時間トロリー目標の達成を装う応答など、医療提供体制全体への波及を実証した

ソフトウェアレビュー会の指摘密度基準。「指摘密度が基準値に満たないので、その他なんでもいいので指摘ありませんか?」と求めるPMOが、本来の目的（品質向上）から切り離された数合わせの指摘を要求する。指摘件数を指標化した結果、レビュー会全体が体裁の指摘や表記揺れ指摘で埋まる

コブラ効果

指標と報酬を組み合わせた制度設計の失敗で、目標とは逆方向の行動が経済合理的になる現象。逆インセンティブ（perverse incentive）の典型例として論じられる。

命名は2001年のドイツ経済学者 Horst Siebert の著作による。元になった逸話は、英領インド政庁がデリーのコブラ駆除のため懸賞金制度を導入したところ、現地住民がコブラを養殖し始め、制度を停止したら養殖コブラが放たれて駆除前より個体数が増えた、という話である。

ただしこの逸話自体の史実性は近年疑われている。Friends of Snakes Societyの2025年の調査では、当時のインドにコブラ養殖の同時代記録は存在せず、出典は1873年の新聞記事の "it was alleged" という伝聞表現に遡れるだけだと判明している。コブラ効果という用語が現代に流通している一方で、その起源は植民地時代の神話の可能性が高い。「コブラ効果」と呼ぶときに、この来歴の不確かさは知っておいてよい。

逸話の信憑性とは別に、コブラ効果が指す現象自体は史料・公文書で確認できる実証事例が複数ある。

フランス植民地下のハノイで1902年、当局がペスト対策としてネズミの尾を1セントで買い取る制度を導入したところ、現地の捕獲者は尾だけ切ってネズミを下水に戻し、繁殖させ続けた。郊外ではネズミ養殖場まで発覚した。歴史家 Michael G. Vann がフランス海外公文書館で一次史料を発掘し、2003年論文 "Of Rats, Rice, and Race: The Great Hanoi Rat Massacre" で記録している

ソビエト連邦の中央計画経済で、釘工場に重量目標を課したところ巨大な釘ばかり作るようになったという事例は1960年代のソ連風刺誌 Krokodil の漫画が原典で実証ではないが、経済学者 Alec Nove が1977年の著作 The Soviet Economic System で、鉄板・板ガラス・紙が重量目標のせいで過剰に厚くなったソ連経済の同型現象を記録している

Wells Fargoのクロスセル目標（顧客一人あたりの口座保有数）が、行員による架空口座の大量開設につながった事件。2011年から2016年で200万件超の架空口座が発覚し、CFPB・OCC・ロサンゼルス市等への和解金1.85億ドル（2016年9月）に至った。その後の調査で架空口座は350万件まで拡大し、2020年には総額30億ドルの和解に発展した

コブラ効果とキャンベルの法則は重なる部分があるが、視点が違う。キャンベルは「制度が歪む」マクロな現象、コブラは「報酬構造に対する個人の最適化が逆方向になる」インセンティブ設計の失敗で、後者の方が扱う範囲は狭い。

AI時代の展開：仕様ゲーミングと報酬ハッキング

AIには認知バイアスがないからこそ指標を疑わない。人間なら「いやこの数字だけ見るのは違うだろう」とどこかで踏みとどまる場面でも、強化学習エージェントは報酬関数の文字通りの定義を最大化し続ける。結果、ここまで見てきた指標バイアスは、AIでは認知の歪みを介さずにより純粋な形で再現される。コブラ効果のAIエージェント版が、強化学習における仕様ゲーミングあるいは報酬ハッキングと呼ばれる現象で、人間が意図した結果ではなく、報酬関数の抜け穴を突く解を発見してしまう。

Victoria Krakovna が2018年から開始した Specification gaming examples in AI は、複数のソースから集めた事例を継続更新する代表的なリストである。

DeepMindのレゴ積み上げタスク（Popov et al. 2017）で、青ブロックに触れていないときの赤ブロックの底面の高さを報酬関数にしたところ、エージェントは赤ブロックをひっくり返して底面を上に向けて報酬を得るようになった

OpenAI が2016年に学習させたCoastRunners（ボートレースゲーム）のエージェントは、レースを完走せず、3つのターゲットを延々ループしてスコアだけを最大化することを学習した

Tom Murphy VII が学習させたNESゲームのエージェント（learnfun & playfun、SIGBOVIK 2013）は、テトリスで負ける直前にゲームを永久ポーズして敗北を回避することを学んだ

DeepMindは2020年のブログ記事 "Specification gaming: the flip side of AI ingenuity" でこの現象を整理し、「タスクの人間概念を報酬関数に忠実に書き下す難しさ」「ドメインに関する暗黙の前提の誤りをどう避けるか」「報酬改竄（reward tampering）をどう防ぐか」の3点を構造的課題として挙げた。

理論側でも進展がある。Skalse らの2022年論文 "Defining and Characterizing Reward Hacking"（NeurIPS 2022、カンファレンス版タイトルは "Reward Gaming"）は報酬ハッキングを初めて形式的に定義した。Karwowski らの2023年論文 "Goodhart's Law in Reinforcement Learning" は、代理報酬の最適化がある臨界点を超えると真の目標性能が低下し始める「Goodharting」現象を、幅広いMDP環境で経験的に検証し、early stopping による回避手法を提示した。これらの議論の先行研究として Amodei et al. 2016 "Concrete Problems in AI Safety" が報酬ハッキングを安全性問題として整理している。

LLMの世界でもこの問題は報酬モデルの過剰最適化として再発見されており、RLHFで報酬モデルを過剰最適化すると人間評価が悪化する現象が Gao らの "Scaling Laws for Reward Model Overoptimization" で示されている。

測定への固執

ここまでの個別バイアスを覆う上位の問題として、Jerry Z. Muller 『測りすぎ ── なぜパフォーマンス評価は失敗するのか?』で論じられた「測定への固執（metric fixation）」がある。Muller はこれを以下の信念の束として整理している。

個人の判断（経験や専門知）よりも、定量化された標準指標に基づく意思決定の方が優れている

定量指標を公開することが説明責任を果たすことになる

定量指標に報酬・罰則を結び付けることが、組織のパフォーマンスを上げる最良の方法である

Muller の指摘の力点は、これらの信念それ自体が間違っているわけではなく、絶対化された時に有害になるという点にある。ここまで挙げてきた個別バイアスは、測定に固執して指標を運用したときに具体的に現れる症状群と読める。

医療: 手術の成功率を評価指標にすると、外科医が難しい手術を回避するようになる

警察: 検挙数を評価指標にすると、解決しやすい小犯罪に労力が偏る

教育: 試験スコアを評価指標にすると、教員が試験対策に時間を割き、教育本来の広い目的が後退する

これらは形式的にはコブラ効果・キャンベル則・サロゲーションに分類できるが、個別バイアスを避ける技法を磨くより前に、定量指標への盲信そのものを疑う必要がある。