統計用語集
Bias(バイアス): 結果または推測における、系統誤差(システマティックエラー)または真実からの逸脱。医療の効果に関する研究において、主なバイアスの種類として、比較群間の系統的な差異(選択バイアス)、提供されたケア、懸案の介入以外の要因への曝露(パフォーマンスバイアス)、研究に組み込まれた人々の脱落または除外(消耗バイアス)、アウトカムの評価方法(検出バイアス)がある。研究のシステマティックレビューにおいては、特に報告バイアスの影響も受けることがあり、この場合、全ての関連データにバイアスの影響をうけたサブセットが存在する。 Burden(負担): 負担とは、患者または介護者(例、家族)が嫌がるかもしれない要請をさす。たとえば、服薬の必要性や通院の手間など。
Case series(症例シリーズ): 連続する症例の観察報告研究で、通常は全員が同じ介入を受ける。対照群はない。
Case report(症例報告): 1人の個人の観察報告研究。逸話、病歴、ケーススタディともよばれる。
Case-control study(症例対照研究): 特定の疾患または関心のあるアウトカムをもつ人々(症例群)と,その疾患やアウトカムをもたない同じ集団内からの人々(対照群)を比較し、そのアウトカムとある特定のリスク要因への曝露歴との関連を探そうとする観察研究。このデザインは、アウトカム発生が稀で曝露歴が確実に測定されている場合に特に有用である。症例対照研究は通常後ろ向きだが、必ずしもそうではない。
Categorical data(カテゴリデータ): 重複しない2つ以上のカテゴリに分類されるデータ。人種および薬の種類(アスピリン、パラセタモールなど)はカテゴリデータの例。
Clinical practice guideline (CPG)(診療ガイドライン): ある特定の臨床状況下での適切な医療について、医療者や参加者のために系統的に作成された文書。
Cohort study(コホート研究): ある特定の定義された集団(コホート)を、長期間追跡する観察研究。コホート内の小集団のアウトカムを比較し、ある特定の介入や要因への曝露(または、さまざまな曝露量)の有無を検討する。前向きコホート研究は参加者を集めて将来に向かって追跡する。後ろ向き(またはヒストリカル)コホート研究は、過去の記録から対象者を同定し、その記録の時点から現在までを追跡する。
Comparison(比較): 新しい介入と比較するための介入。対照群。
Confidence interval (CI)(信頼区間): 主な統計解析結果をとりまく不確実性の指標。実験的介入を対照と比較する相対リスク(RR)のような未知量の推定値は、通常、点推定値と95%信頼区間として提示される。これは同じ集団からの別のサンプルを対象に何度も研究を繰り返した場合、これらの研究から得られた信頼区間の95%が真の値を含むことを意味する。95%以外にも、90%、99%信頼区間が使用される場合もある。信頼区間の幅が広いほど精確さは落ち、狭いと精確さは上がる。
Confounder(交絡因子): 介入(または曝露)と懸案のアウトカムの両方に関連する要因。たとえば、もし対照試験の実験群の集団が対照群よりも若ければ、一方の群で死亡リスクが低いのは、介入によるものなのか年齢の違いによるものなのかを判断するのが難しくなる。このような場合の年齢は、交絡因子、または交絡変数とよばれる。ランダム化は、実験群と対照群の間の交絡変数の不均衡を最小限にするために使われる。交絡は、非ランダム化試験の主な関心事である。
Consumer (healthcare consumer)(消費者(医療消費者)): 医療関係サービスを利用する人、その影響を受ける人、または医療サービスを受ける資格のある人。
Context(状況): 介入の適用に適切な条件および状況で、たとえば、状況(病院、自宅、飛行機上)、時間(平日、休日、夜間)、診療の種類(1次、2次、3次治療;開業医、保険診療、慈善事業)、日常診療か緊急かなどを指す。臨床状況ともよばれる。
Continuous data(連続データ): ある範囲内をとりうる無数の数値からなるデータ。身長、体重、血圧などが連続変数の例である。
Control(対照): 対照試験において、1つ以上の実験的介入に対する比較対照となる群の参加者をさす。対照者はプラセボ、無治療、標準的治療、または標準薬のような有効な介入のいずれかを受ける。観察研究においては、疾患や懸案のアウトカムのない群の人のこと。
Control Event Rate(CER)(対照群イベント発生率): 対照群において観察されたイベントのリスク。対照群リスク、ベースラインリスクと同義。アウトカムの対照群リスクは、対照群におけるアウトカムをもつ人数を、対照群における総参加者数で割って計算される。
Critical appraisal(批判的吟味): 妥当性、結果、関連性を系統的に検討することにより、エビデンスを評価し解釈するプロセス。
Desirable effect(望ましい効果): 推奨の遵守による望ましい効果には、有益な健康アウトカム、負担の軽減、コストや資源の利用の節減などを含みうる。
Dose response gradient(用量反応勾配): 投与した治療量とそのアウトカム効果の関係。
Effect size (ES) (効果サイズ): 研究の治療効果推定値の総称。 標準化平均差のことを示すこともある。
理解を助けるために、Cohen(Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2nd ed; 1988)による効果サイズの解釈を示す。この解釈によると、効果サイズ、またはSMDはおおよそ、
0.2は、小さい効果
0.5は、中等度の効果
0.8以上は、大きい効果とみなされる。
Effectiveness(有効性): 理想的な条件下で介入がどの程度有益な結果をもたらすかを表したもの。有効性を評価する臨床試験は、実用試験または管理試験ともよばれる。
Efficacy(効能): 理想的な条件下で介入がどの程度有益な結果をもたらすかを表したもの。効能を評価する臨床試験を説明試験ともよばれる。
Estimate of effect(効果推定値): 介入とアウトカムとの間に観察された関係で、たとえば、治療必要数、オッズ比、リスク差、リスク比、相対リスク減少、標準化平均差、重み付け平均差などで表される。
External validity(外的妥当性): 結果が、他の状況へ一般化させるための正しい基準をどの程度提供するかをいう。たとえば、高齢患者の試験のメタアナリシスは、小児へは一般化できないかもしれない。一般化可能性または適用可能性とも呼ばれる。
Follow-up(追跡): 調査対象となっているアウトカムを測定するために、研究・試験の参加者を一定期間にわたって観察すること。
Hazard ratio (HR)(ハザード比): 生存分析によって生み出される効果指標で、ある群が懸案のアウトカムを経験する可能性の増加リスクを表している。たとえば、もし死亡に対する治療のハザード比が0.5であれば、治療群の患者は、一定時間あたり、無治療群の患者の半分の確率で死亡する可能性があるといえる。
メタアナリシスにおいて、対象となる各研究の効果の大きさが均質(homogeneity)であるか異質(heterogeneity)であるかを検定する手法である。
Heterogeneityを表す指標としてはCochranのQ統計量、I2、Breslow-Day検定P値、等がある。 CochranのQ統計量、Breslow-Day検定P値は対象となるスタディ数が少ない時、Heterogeneityに対する検出力が落ちる点に注意が必要である。
I2はCochranのQ統計量、対象スタディ数Kを使用して下記のように表される。 I2 = 研究間分散 / 全分散
全分散 = 研究間分散 + 研究内分散
I2は0%~100%の値をとり、これは各研究のオッズ比間に認められた分散のうち、heterogeneityによって説明される割合を示している。
I2の評価基準としては、25%以下を「absence」、50%以下を「moderate」、75%以下を「large」、100%以下を「extreme」として捉えることが推奨されている。但し、Q統計量程ではないものの、やはりI2もスタディ数が少ない時には検出力が低下する傾向がある点に注意が必要
実際には、定義式により導かれるI2は負の値となる場合がある。その際はI2=0として採用される例が多い。
Intention to treat analysis (ITT) (治療企図解析): ランダム化比較試験からのデータを解析する手法。全研究参加者は、割り付けられた介入を実際に受けたか(あるいは完了したか)によらず、割り付けられた群に入れられる。ITT解析は、ランダム化によって達成したベースラインの同一性を乱し、プロトコルへの非遵守を反映するかもしれない患者の脱落が生むバイアスを防ぐ。試験に関する出版物で何人かの参加者が除外されたときに、この用語がしばしば誤って使用される。
Internal validity(内的妥当性): 研究のデザインや実施がバイアスを防いだ可能性の程度。方法論的な質のばらつきは、研究結果のばらつきを説明できる。より厳密なデザインの(より質の高い)試験は、より真実に近い結果を得ることができる可能性が高い。
Intervention(介入): 実験研究において、人々、集団、団体、または対象物に対して介入するプロセス。この用語は、対照試験では、プラセボや無治療群を含む全ての比較群におけるレジメンを記述するときに使われることがある。
Nested:2つの統計モデルがある時に、一方のモデルに含まれる説明変数のセットが他方のモデルの説明変数の部分集合になっている時、この2つのモデルをネストしたモデルと呼ぶ。
全ての説明変数を含むモデルを飽和モデル(saturated model)と呼ぶ。
一部の説明変数を含むモデルを”reduced model”と呼ぶ。
full modelとreduced modelはネストしている(nested)と表現する。
Mean difference (MD)(平均差): 「平均の差」は、臨床試験の2群間の平均値の絶対差を測定する基本統計量である。治療によって平均でアウトカムがどのくらい変化するかを予測する。アウトカム測定が全ての試験で同じ尺度でおこなれるときのメタアナリシスでは、要約統計量として用いることもできる。以前は、重み付け平均差(WMD)ともよばれた。
Meta-analysis(メタアナリシス): 2件以上の別々の研究から得た結果を統計的に統合したもの。
Minimally important difference (MID)(最小重要差): 有益か有害かにかかわらず、十分な情報を与えられた患者または代理人が重要であると認識する懸案のアウトカムの最小の差で、患者または臨床医がマネジメントの変更を検討することにつながるもの。
Number needed to treat (NNT) (治療必要数): 1人が有益なアウトカムを経験する前に何人が治療を受ける必要があるかの推定値。たとえば、もし脳卒中を 1件防ぐため 20人に脳卒中予防薬を投与する必要があるならば、その脳卒中予防薬による利益を得るための治療必要数は 20である。リスク差の逆数として推量される。
Number needed to harm (NNH) (害必要数): 有害効果と関連する利益を得るための治療必要数。1人が有害なアウトカムを経験する前に、または有益なアウトカムを経験するのが 1人減る前に、何人が治療を受ける必要があるかの推定値。
Observational study(観察研究): 研究者が介入を行わず、単にイベントの経過を観察する研究。1つの特性(例、人々が当該介入を受けたかどうか)の変化や差を、研究者は介入せず、他の特性(例、死亡したかどうか)の変化や差との関連性を研究する。実験研究よりも選択バイアスのリスクが高い。
Odds ratio (OR) (オッズ比): ある群におけるイベント発生のオッズともう1つの群におけるイベント発生のオッズの比。治療効果研究では、通常、治療群のオッズを対照群のオッズで割る。オッズ比が1とは、比較群間に差がないことを示す。望ましくないアウトカムに対するORが1よりも低いことは、介入がそのアウトカムのリスクを減少させるのに有効だったことを示す。リスクが小さいとき、オッズ比の値はリスク比に近似する。
Optimal information size (OIS)(最適情報量): 単一試験のためのサンプルサイズ計算により算出される患者数(Pogue and Yusuf, Controlled Clinical Trials, 1997;18:580-593)。
2値アウトカムに対するOISを計算するには、以下を明確にすることが求められる:
偽の効果を検出する確率:タイプ I エラー(α; 通常 0.05)
現実的な相対リスク減少(RRR;規定値としては 25%がよいだろう)
対照群イベント発生率(入手可能な試験の中央値、または重要な試験からの発生率を利用する)
http://www.grade-jpn.com/GRADEproHelp/pics/ois.png
連続変数に対するOISを計算する際には、以下を明確にすることが求められる:
偽の効果を検出する確率:タイプ I エラー(α; 通常 0.05)
現実的な平均値の差(Δ)
関連する研究の1つから導いた適切な標準偏差(SD)(もしあるならば、利用可能な試験の中央値、または重要な試験からの発生率を利用する)
Outcome(アウトカム): 介入適用後の患者の臨床的、機能的状態を示す要素で、介入の有効性評価に使われる。
Point estimate(点推定値): サンプル(1つの研究またはメタアナリシス)から得られた結果(例、平均値、重み付け平均差、オッズ比、リスク比、またはリスク差)で、サンプルの抽出元である関連集団における真の値の最良推定値として用いられる。
Population(集団): 研究対象となる人々であり、通常同じ集団から抽出される。集団は、地理的、年齢層、特定の疾患などによって定義される。
Precision(精確さ): 1つの研究、メタアナリシスまたは測定の結果におけるランダム誤差の可能性を示したもの。ランダム誤差が少ないほど、精確である。各研究からの効果推定値を取りまく信頼区間は精確さを表す方法の1つで、信頼区間が狭いほど精確さは増す。
Quality of evidence(エビデンスの質): 効果推定値が正しいという確信の程度。
Randomised controlled trial (RCT)(ランダム化比較試験): 2つ以上の介入を無作為に被験者に割り付けて比較する実験研究。ほとんどの場合、1つの介入が個人に割り付けられるが、ある特定の集団単位(たとえば世帯など)、もしくは同一個人内(たとえば、身体部分の順番や他の部分)に割り付けられることがある。
Relative risk (RR)(相対リスク): リスク比の同義。2群におけるリスクの比。介入研究では、介入群におけるリスクと対照群におけるリスクの比である。リスク比1は、比較群間に差異がない ことを意味する。望ましくないアウトカムに対してはリスク比が1未満であるこ とは、介入がアウトカムリスクの減少に有効であることを意味する。
Relative risk reduction (RRR) (相対リスク減少): 治療群をもう一方の群と比較したときのリスク減少割合。1からリスク比を引いて求める。たとえば、もしリスク比が0.25なら、相対リスク減少は 1 - 0.25 = 0.75、すなわち75%となる。
Review Manager(RevMan): コクラン システマティックレビューの作成および維持のために使われるソフトウェア。RevMan を使用してシステマティックレビュー プロトコルの執筆および管理に加え、本文、表、研究データを含むレビューの完成が可能となる。入力されたデータのメタアナリシスを実施し、結果を図で提示できる。RevManの詳細を参照のこと。 Risk(リスク): 当該イベントを経験した参加者の割合。参加者100人中32人でイベント(例、脳卒中)が観察される場合、リスクは0.32である。対照群リスクとは、対照群内のリスクである。リスクはイベント率ともいい、対照群リスクを対照群イベント発生率ともいう。ただし、後者の場合、リスクを率(rate)と混同させることがある。
Standardised mean difference (SMD)(標準化平均差): 2つの推定平均値の差を標準偏差の推定値で割ったもの。痛みのように、同一の連続変数を研究間で異なる尺度で測定している研究結果を統合するために使われる。効果を標準化した値で表現すると単位がなくなるため、結果を統合可能となる。標準化平均差をd指標とよぶこともある。
Statistically significant(統計的有意性): 偶然起こった可能性はなさそうな結果。通常この判断のための閾値は、偶然仮説が真のときに、当該結果またはより極端な結果が偶然によって発生する確率が0.05未満であるという基準を用いる。統計検定ではこの評価のためにp値を算出する。
Strength of a recommendation(推奨の強さ): 推奨の遵守による望ましい効果が望ましくない効果をどの程度上回るかの確信の程度。
Surrogate outcome(代理アウトカム): 直接的実際的な重要性はないアウトカム指標ではあるものの、重要なアウトカムを反映すると信じられているもの。たとえば、血圧は患者にとって直接重要ではないが、脳卒中や心臓発作のリスク要因であることから、臨床試験においてアウトカムとしてしばしば用いられる。代理アウトカムは、比較的迅速かつ容易に測定可能な生理学的または生化学的マーカーであることが多く、重要な臨床アウトカムの予測因子とされる。臨床アウトカムの観察に長期の追跡が必要な場合にしばしば用いられる。中間アウトカム、または代理エンドポイントともよばれる。
Systematic review(システマティックレビュー): 関連する研究の特定、選択、批判的吟味、およびレビューに含めた研究からのデータの収集と解析を実施する系統的かつ明示的な手法を用いた、明確に定式化された疑問のレビュー。レビューに含めた研究結果を解析しまとめるためには、統計的手法(メタアナリシス)は用いられたり用いられなかったりする。
Undesirable effect(望ましくない効果): 推奨の遵守による望ましくない効果には、害、負担の増加、コストが含まれる。