妥当性
妥当性とは,その研究が目的としている事象を適確に捉えられているか,言い換えれば見たいものがきちんと見ることができているかということを指します.研究においては,バイアスによる誤差が少なければ,その研究は妥当性が高いといえます.また,研究そのものの妥当性は内的妥当性,その研究が一般集団,あるいは個人へ当てはまるかどうかの妥当性は外的妥当性と呼ばれています.内的妥当性は,研究デザイン,データの収集と解析などを批判的吟味しながら判断します.ランダム化比較試験(RCT)は,最も内的妥当性が高い臨床研究として有名ですが,研究の対象となる人が限定されることから,外的妥当性は低いとの指摘もあります.一方,全数調査をするようなコホート研究では,ランダム化比較試験(RCT)より外的妥当性は高いが内的妥当性は低いといわれています.
さらに,妥当性に関する用語として,ある測定が他の確立された基準尺度と関連しているかどうかを表す基準関連妥当性や個々の因子を組み合わせたときに測定項目全体が意図するものを測っているかどうかを表す構成概念妥当性などがあげられます.
内的妥当性 internal validity (reproduction 再生可能か) 同じデータや環境で、同じ分析や実験を行って、同じ結果が得られるか
独立変数と従属変数の因果関係の確からしさ
比較可能か Comparability
異なるデータや環境で、同じ分析や実験を行って、同じ結果が得られるか
獲得した知見を、どれくらい他の対象や状況にに適用できるかの程度
一般化可能か Generalizability
たとえば学生相手では同じ結果になるが社会人相手では異なる結果になる場合は外的妥当性は低い。
table:妥当性
内的妥当性 外的妥当性
同じデータで同じ結果 ○ ○
異なるデータで同じ結果 × ○
同じ環境で同じ結果 ○ ○
異なる環境で同じ結果 × ○
同じ分析、実験で同じ結果 ○ ○
外的妥当性
内的妥当性とは、研究対象者と同じ集団に対して同様の介入を行った場合、同等の結果が再現される程度を指す。うまく実施されたバイアスの少ないランダム化比較試験ほど、「内的妥当性が高い」と考えられている。しかし、内的妥当性が高い研究であっても、その結果を自分の目の前の患者に臨床応用できるかどうかが問題となる。それを「外的妥当性」といい、研究対象者から得られた研究結果を他の集団に当てはめても同様の臨床結果が得られることを「外的妥当性が高い」という。
特定の研究成果について、別の集団に当てはめた場合でも同様の結果を得られるか、つまり、一般化できるかの程度を「外的妥当性(もしくは一般化可能性)」と言います。
例えば、マウスなどin vivo試験の結果をヒトにそのまま当てはめることは難しく、外的妥当性は低いと言えます。動物よりもヒトを対象とした試験結果のほうが外的妥当性は高いと言えますね。
しかし、ヒトを対象とした試験が必ずしも外的妥当性が高いとは言い切れないため注意が必要です。
例えば、日本人以外を対象とした試験結果は、民族的要因(代謝酵素の遺伝多型による代謝の差異等)を考慮する必要があり、必ずしもそのまま日本人に適応できるとは限りません。
また、日本人を対象とした試験であっても、可能な限り外的妥当性を高めるためには、年齢が偏らないようにする、男女両性を含めるなど、選抜条件の工夫が必要です。選択基準と除外基準を必要最小限に留め、対象集団を狭め過ぎないことが重要ですね。
外的妥当性とは何でしょうか? 免疫分析研究センター株式会社
https://gyazo.com/314ac6c3d8c7048dcd19d02ca2cc460c
内的妥当性とは、「観察された共変する2つの事象に因果関係があるかどうか」ということに関する妥当性です。つまり内的妥当性とは因果推論そのものです。XとYが共変することは分かっていたとします。この2つは「原因」と「結果」であると言うことができれば内的妥当性は高いと表現されます。
外的妥当性は、認められた因果関係が、研究対象となったサンプルとは異なった人口集団、状況、治療(介入)、時代などなどにおいても同様に認められるかどうかという評価軸です。外的妥当性が高い因果関係というのは人口集団や時代が変わっても同じような関係が認められます。一方で、外的妥当性が低い因果関係は、観察されたデータでは認められるものの、人や研究の環境が変わると異なった関係が得られてしまいます。
妥当性(Validity)と信頼性(Reliability)