大学のIRにおける「統計的検定は不要」論を考える
hr.icon
これまでのIR担当者間の議論の中で、次のような質問を耳にしたことはありませんか?
「大学のIRで扱う学生データが全数であれば、統計的に有意な差があるかどうかの検定は不要ではないか?」 という質問です。
実は、筆者はこれまでに2,3度、この議論を目撃したことがあるのですが、いずれも簡単なやり取りを経て「そのとおりだ」という回答や結論に落ち着いていました。しかし、果たしてそう簡単に結論づけてよいものでしょうか?上記質問の「であれば」という仮定の部分の詳細や、IR実践上の経験を踏まえて考察を重ねると、安易に「全数=検定不要」という結論は導けないように思います。
本稿では、冒頭の問いが設定している仮定とIR実践の文脈で考慮すべき内容を3つに分けて考察し、統計的検定の要・不要、または有意味・無意味についての筆者の考えを共有したいと思います。
1.母集団の想定ーIR担当者や情報の受け手が関心をもつ対象は誰?
統計学の標準的な教科書に記されている統計的検定を行う目的を端的に表現すれば、得られた「標本」から関心のある「母集団」における仮説を検証すること、あるいは母集団の特性を推定することが目的といえます。たとえば、前者は、A群よりB群のほうがテストスコアは低いといった仮説、後者は、関心のある集団のテストスコアの平均値・中央値・分散などはどのくらいか、といったものです。 もし、IR担当者や情報の受け手が関心をもつ学生や教員の集団(「母集団」)と、得られた学生データ(「標本」)の集合が完全に一致しているのであれば、「(関心対象の)全数データである」という前提を満たし標本標準誤差は発生しないため、標本と母集団とのズレを懸念しての検定は不要になります。しかし、大学のIRの場面をいくつか思いかえすと、関心をもつ母集団が曖昧なまま分析をしたり、「想定母集団と標本との間にずれがあるのでは?」と感じたりする機会が時折あります(※2)。 たとえば、教学IRのよくある分析では、ある単年度の全入学生のデータを集め、その後の成績との関係を見たりします。 このとき、元々関心のある母集団がその年度の入学生のみであれば確かに全数となります。しかし、そうではなく、関心のある母集団の想定が、実は「20○○年以降の現カリキュラム下で学んでいる学生」ということになると、ある単年度の入学生は関心をもつ学生集団の一部でしかなくなります。カリ変後4年間の学生を母集団として想定すれば、ある単年度学生はその25%の学生しか含まないデータとなってしまい標本標準誤差が発生しますし、さらにいえば、特定年度の学生というかなり偏った標本になってしまいます(また、その特定年度学生と他学年との異質性が小さければまだよいのですが、特定年度のみ特殊な災害や感染症等のショックがあったなどの理由でそれによるアンケート回答や成績への影響が憂慮される場合、特定年度の結果から他学年も含めた傾向を見ることの適切性を保証するのはより困難になります)。
2.測定誤差の想定―分析で扱う目的変数の質は?
仮に、関心のある母集団と完全一致した全数データが入手できたとします。この場合、上記1.の前提は満たすので、それだけを考えれば検定は不要です。しかし、属性別に何かしらの目的変数の相違や差を考えるとき、使用する目的変数に測定誤差(非標本誤差に含まれる誤差の一つ)があれば、検定を行うことが無意味ではなくなります。 たとえば、教学IRにおける、英語外部テストのスコア比較分析を考えてみましょう。英語外部テストとしてよく使われるTOEICテストのリスニング・スコアは測定誤差が約25点(95%信頼区間は±50点)、TOEFL PBTは測定誤差が約13点(95%信頼区間は±25点)という情報があります(※3)。このような目的変数の場合、全数調査だからという理由だけで誤差を考慮せず比較を行う(点推計のみで高低や優劣を考える)と、誤った結論を導く恐れがあります。 3.検定結果を用いた情報コミュニケーションの想定ー情報交換者と段階は?
前置きすると、この3つ目のみ、理論的な意見ではなく同業者との議論や実務経験に基づく意見であり、上記1.と2.よりも固有文脈に依拠して考える必要があるものです。標題の情報コミュニケーションを細分化し、情報交換者とコミュニケーション段階の2つに分けて考えます。
まず、情報交換者についてですが、情報の送り手・受け手の専門分野、統計リテラシーによっては、検定結果およびそれに付随する情報(サンプルサイズ、p値、信頼区間など)をもとに、レポーティングされた分析の課題や、次のステップの分析を考えたりします。このような情報交換者の場合、検定結果という情報を参考に話を進めることが円滑なコミュニケーションの実現に繋がり、本質的には無意味と考えられた検定結果が有意味になる場合があります。 そして、2つ目のコミュニケーション段階というのも、この情報交換者の存在と強く関係します。近年、統計教育で示される「PPDAC」(※4)といったサイクルのように、IRも1回の情報交換で完結する分析は少なく、課題→計画→収集→分析→結論のサイクルが何周か続くことがあります(もう一つ補足すると、必ずしもこの順番どおりとはならず、始点は様々です)。そして、この情報を扱うサイクルの中で、当初は曖昧であった先述の1.と2.の想定が明確になり、検定をする必要が出てくる、あるいは、検定結果を先に共有することで1.と2.の問題が明確になり、その後の具体的な分析に繋がる、といったことが起こります。 ただし、この3.は、IR実務なり、研究の途中経過発表なり、共同研究なりで、情報交換対象の違いや時点による変化を経験したことがある人でないと共感しにくいかもしれません。しかし、もし、今後のレポーティングで「検定結果は?」と情報の受け手が尋ねてくることがあれば、この3.のコミュニケーションツールとしての検定結果、という考え方を思い出してください。その情報の受け手は、検定結果を参考に分析結果を吟味したい人かもしれません。
(もちろん結果を提示すると同時に、1.の相互の想定範囲を明確したり、2.の想定を共有したりすることは重要です。)
4.おわりに
以上、本稿では大学のIRにおける「統計的検定不要」論について、個人的な考察結果をまとめました。
ちなみに、筆者の場合、レポーティングの初期段階では、情報の受け手から求められない限り、統計的検定はしないで集計結果を提示するケースがほとんどです。というのも、結果を見てもわからない人がいるかもしれない細かな分析に時間をかけるよりも、ざっくりした集計結果を早く届けることの優先度のほうが高いと思いますし、情報の送り手と受け手の間の母集団の想定などが曖昧なまま統計的検定をしても、あまり効果的で無いと考えるためです。もちろん、個人的に条件設定をして「こんな分析したらどうなるんだろう?」と試すことはよくありますが、その結果をコミュニケーション初期段階のレポーティングではほとんど使いません。
もし、全国のIR担当者が同じような問いに直面した時、本稿がその答えを考える参考になれば幸いです。
※1)蛇足ながら、個人的に省察した結果の詳説が本稿の目的であり、冒頭の発言者の評価を貶めようという意図はありません(おそらく、冒頭の議論をした方々の中では共通認識だと思っています)。
※2)「とりあえずやってみよう」とトライアル的に分析をしたり、「分かっているけどこの点をネチネチ議論していたらIRが進まない」と考えていたりするIR担当者は少なくないと思いますので、これら「IR黎明期要因」(仮称)の影響もあると思います。
その他、参考として以下の資料もあります。
*リンク先は、いずれも2020年7月11日アクセス
https://gyazo.com/afc298f14c7fc30b5ae3b66552ff447c
※当コラムの文責及び著作権は、すべて投稿者に帰属します。