指標をめぐる認知バイアス
ダッシュボードの数字は伸びているのに、現場の手応えはどんどん悪くなる。営業のKPIは達成しているのに顧客は離れていく。コードレビューのコメント数を測り始めたら、本当に直すべき問題が指摘されなくなった。
こういう「指標を導入した結果、本来の目的が遠ざかる」現象には、別々の分野で別々の名前がついている。同じ話に聞こえるが、失敗の所在は違う。観察対象の選び方の偏りなのか、指標と目的の取り違えなのか、指標を目標化した結果なのか、制度全体への波及なのか。
街灯効果
観察の場所選択そのものに偏りが入る現象。鍵を街灯の下で探す酔っ払いの寓話に由来する。鍵を落としたのは街灯の下ではないと自分でも分かっているのに、「ここの方が明るいから」と街灯の下を探し続ける。観察可能性が探索範囲を決めてしまう。寓話自体は社会科学では Abraham Kaplan が1964年に "drunkard's search" として導入しており、ジャーナリストの David H. Freedman が2010年の著書 Wrong と Discover 誌記事 "The Streetlight Effect" で広く流通させた。近年では実証経済学でも Hoelzemann et al. 2024 が研究対象として扱っている。 具体事例:
バニティメトリクス。Eric Ries が2009年の論考で、フォロワー数・PV・登録ユーザー数の累計のような「見栄えのよい増加数字」を、エンゲージメントやLTVといった本質指標と対比した。ただし Jeff Gothelf は "先行指標として有用な場面がある" と反論しており、虚栄かどうかはアウトカムへの因果距離によると読むのが穏当だろう 街灯効果は観察対象の選び方の偏りであり、後続の決定や報酬設計とは独立に発動する。観察対象が偏っていなくても他のバイアスは起きるし、観察対象が偏っていても他のバイアスが起きるとは限らない。
ホーソン効果
具体事例:
マクナマラの誤謬
定量データだけを意思決定の根拠にし、定量化できない要素を入力から外してしまう誤り。量的誤謬とも呼ばれる。1971年に Daniel Yankelovich がマーケティング業界向けの講演で命名した。命名対象の Robert McNamara は1961年から1968年の米国防長官で、ベトナム戦争を死傷者数、出撃回数、敵兵死者カウント(body count)といった定量指標で管理した。 具体事例:
医療の品質評価。Seamus O'Mahony の2017年論文 "Medicine and the McNamara fallacy"(Journal of the Royal College of Physicians of Edinburgh)は、病院死亡率、NHSターゲット、品質保証指標を例に、医療現場で定量化できない要素を切り捨てる傾向を指摘した 第1段階: 測れるものを測る。これ自体は問題ない
第2段階: 測れないものを軽視する、または恣意的な数値を当てる。誤解を生む
第3段階: 測れないものは重要でないと考える。盲目さの始まり
第4段階: 測れないものは存在しないと考える。自殺的
街灯効果と混同されやすいが指している問題は違う。街灯効果は観察の場所選択の偏りであり、マクナマラの誤謬は観察結果のみで決定することの誤りである。観察対象が完全に正しくても、定性情報を入力から落とせばマクナマラは発動する。
サロゲーション
具体事例:
Wells Fargoのクロスセル戦略。「顧客との長期的な関係構築」が戦略構成概念、「顧客一人あたりの口座保有数」がその代理指標だった。経営陣がクロスセル数を戦略そのものと取り違えた結果、行員にも同じ取り違えが伝播し、350万件の不正口座開設と長期顧客関係の破壊につながった。Harris & Tayler の2019年HBR論考 "Don't Let Metrics Undermine Your Business" が、サロゲーション概念の代表事例として詳細に分析している サロゲーションは指標を運用する側の認知の中で起きる取り違えである。指標自体が歪んでいなくても、報酬設計が変わっていなくても発動する。本人が「代理にすぎない」という意識を失ってしまうこと自体が問題で、指標応答の話とは別の現象である。
グッドハートの法則
指標を目標化すると、経済主体がその指標に応答して行動を変え、指標は良い測度でなくなる。
起源はイギリスの金融経済学者 Charles Goodhart が1975年に発表した金融政策論文。当時のGoodhartの定式化は "Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes" で、「目標になると測度でなくなる」というキャッチーな言い回しはのちの1997年に人類学者 Marilyn Strathern が論文 ''Improving ratings': audit in the British University system"(European Review 5巻3号)で整理したものである。多くの引用がこの言い回しを Goodhart 本人の言葉として帰属しているが、実際は Strathern の整理である。 似たものにルーカス批判がある
グッドハートの法則は、マクロ経済学のルーカス批判と混同されることが多い。Robert Lucas が1976年に "Econometric Policy Evaluation: A Critique" で示したルーカス批判は、「政策が変わると人々の期待や行動の仕方そのものが変わるので、過去のデータで作った経済モデルから政策の効果を予測しても当てにならない」というものである。 Manheimのグッドハート四類型
Regressional Goodhart(ノイズ混入型)
指標と目標に相関はあるが、指標にはノイズも乗っている。指標の上位を選ぶと、本当に目標が高い個体だけでなく「たまたまノイズで上振れした個体」も混ざる。結果、目標の実値は指標から素朴に期待される水準より下になる
例: コーディングテスト満点者を採用したら、平均より優秀ではあるが、テスト満点から期待されたほどの実務能力は出ない。当日の体調や問題との相性で上振れした候補者が混ざるため
Extremal Goodhart(外挿型)
普段の範囲では指標と目標が相関しているが、極端な領域では関係が成り立たなくなる。観測範囲外に外挿すると壊れる
例: コードカバレッジ。50%→80%は品質と相関するが、95%→100%を狙う領域では、意味のない assert やプライベートメソッドのテストばかり増え、カバレッジを上げても品質は上がらなくなる
Causal Goodhart(因果なし型)
指標と目標の間に因果関係がない、あるいは介入によって因果構造そのものが変わる。指標を動かしても目標が動かない
例: 「PRレビューのコメント数が多いPRは品質が低い」という相関を見て、コメント数を減らす運用を始めると、レビュアが指摘を控えるようになるだけでバグは減らない。最初の相関は「複雑なPRほどコメントもバグも多い」という共通原因の話で、コメント数自体に因果はなかった
Adversarial Goodhart(応答型)
規制者と違う目標を持つ別主体が、指標の存在を知った上で意図的に応答する。Manheim と Garrabrant はこの類型にキャンベルの法則とコブラ効果の両方を含めている
例: ベロシティ(ストーリーポイント消化量)でチームを評価すると、見積もりを大きめに付けるようになる。同じ機能でも翌四半期のポイントが膨らみ、生産性向上の指標として機能しなくなる
キャンベルの法則
指標が単一主体の行動を歪めるだけでなく、制度全体に副作用が波及する現象。社会心理学者・方法論者の Donald T. Campbell が1976年の論文で定式化した。原文は次のとおり。 The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.
グッドハートとの違いはどこにあるか。グッドハートが「指標が良い測度でなくなる」という測定論の話なのに対し、キャンベルは「指標が制度そのものを歪める」という社会論の話である。同じ現象を測定側から見るか社会側から見るかの違いで、命題としては同根に近い。Jeffery Rodamar が2018年に Significance 誌で書いた "There ought to be a law! Campbell versus Goodhart" は、Campbell が1969年時点で同種の現象を定式化していたとして、この種の「指標が制度を歪める」現象を Campbell's law と呼ぶのが妥当だと論じている。 具体事例:
米国のNo Child Left Behind法(2002)以降の標準テスト主義で、テスト点数を学校・教師の評価に直結させた結果、答案改竄、低成績生徒の登校阻止、テスト科目以外のカリキュラム削減が広範に発生した
アトランタ学区の答案改竄スキャンダル。2009年にAtlanta Journal-Constitution紙が統計的に不自然なスコア急上昇を報じて発覚、2011年のジョージア州捜査局報告で56校中44校での組織的不正と178人の関与を認定、2015年に元教員ら11人がジョージア州RICO法違反で有罪判決 コブラ効果
指標と報酬を組み合わせた制度設計の失敗で、目標とは逆方向の行動が経済合理的になる現象。逆インセンティブ(perverse incentive)の典型例として論じられる。
ただしこの逸話自体の史実性は近年疑われている。Friends of Snakes Societyの2025年の調査では、当時のインドにコブラ養殖の同時代記録は存在せず、出典は1873年の新聞記事の "it was alleged" という伝聞表現に遡れるだけだと判明している。コブラ効果という用語が現代に流通している一方で、その起源は植民地時代の神話の可能性が高い。「コブラ効果」と呼ぶときに、この来歴の不確かさは知っておいてよい。 逸話の信憑性とは別に、コブラ効果が指す現象自体は史料・公文書で確認できる実証事例が複数ある。
ソビエト連邦の中央計画経済で、釘工場に重量目標を課したところ巨大な釘ばかり作るようになったという事例は1960年代のソ連風刺誌 Krokodil の漫画が原典で実証ではないが、経済学者 Alec Nove が1977年の著作 The Soviet Economic System で、鉄板・板ガラス・紙が重量目標のせいで過剰に厚くなったソ連経済の同型現象を記録している
コブラ効果とキャンベルの法則は重なる部分があるが、視点が違う。キャンベルは「制度が歪む」マクロな現象、コブラは「報酬構造に対する個人の最適化が逆方向になる」インセンティブ設計の失敗で、後者の方が扱う範囲は狭い。
AI時代の展開:仕様ゲーミングと報酬ハッキング
AIには認知バイアスがないからこそ指標を疑わない。人間なら「いやこの数字だけ見るのは違うだろう」とどこかで踏みとどまる場面でも、強化学習エージェントは報酬関数の文字通りの定義を最大化し続ける。結果、ここまで見てきた指標バイアスは、AIでは認知の歪みを介さずにより純粋な形で再現される。コブラ効果のAIエージェント版が、強化学習における仕様ゲーミングあるいは報酬ハッキングと呼ばれる現象で、人間が意図した結果ではなく、報酬関数の抜け穴を突く解を発見してしまう。 測定への固執
個人の判断(経験や専門知)よりも、定量化された標準指標に基づく意思決定の方が優れている
定量指標を公開することが説明責任を果たすことになる
定量指標に報酬・罰則を結び付けることが、組織のパフォーマンスを上げる最良の方法である
Muller の指摘の力点は、これらの信念それ自体が間違っているわけではなく、絶対化された時に有害になるという点にある。ここまで挙げてきた個別バイアスは、測定に固執して指標を運用したときに具体的に現れる症状群と読める。
医療: 手術の成功率を評価指標にすると、外科医が難しい手術を回避するようになる
警察: 検挙数を評価指標にすると、解決しやすい小犯罪に労力が偏る
教育: 試験スコアを評価指標にすると、教員が試験対策に時間を割き、教育本来の広い目的が後退する
これらは形式的にはコブラ効果・キャンベル則・サロゲーションに分類できるが、個別バイアスを避ける技法を磨くより前に、定量指標への盲信そのものを疑う必要がある。