[お知らせ]


2013年10月23日水曜日

統計学お勉強日記②~推定と検定~

1回目はこちらです。
この記事は僕の個人的な勉強の整理メモです。今後修正が必要な個所もあるかと思います。誤り等ありましたらご連絡ください。

[臨床試験の結果の解釈に必要な2つの統計解釈]
ランダム化比較試験の代表的な結果の表し方に相対リスク((Relative RiskRR)があります。いわゆる相対指標と言われるもので、実薬群、プラセボ群、各群のアウトカム発生割合の相対比であらわされます。
例えば…
■実約群での心筋梗塞の発症  20
■プラセボ群での心筋梗塞発症 30
■相対危険RRは?
 □RR(実薬群の発生率)/(プラセボ群の発生率)0.2/0.30.67
 □RRR(相対危険減少)=1-RR0.33
 □介入群はプラセボ群に比べて心筋梗塞が相対評価で33%低い

標本母集団の要約値、すなわち臨床試験参加者での結果である、薬剤のプラセボと比較したイベント発生率の相対比(相対リスク)から、母集団の要約値(全対象患者)を確率的に推測して母集団の様子を記述する方法は2つあります。それが「推定」「検定」です。
「推定」…母数がどれほどの値なのかを推測する手法
「検定」…母数が意味のある基準値と等しいか等しくないか○×で推測

[推定統計]
臨床試験では標本平均に対する相対リスク等のデータ(点推定値)が得られますが、対象患者は試験参加者に限定されたものです。実際の患者さんすべてにおいて、そのデータがどうなっているのか、推定統計はある程度幅を持たせて母数を推定する方法です。すなわち標本平均のデータから母平均を確率的に類推するというのが推定統計です。

標準偏差(SD)は前回少しまとめました。標準偏差はデータの「分散」の平方根で求められ得られた標本平均からのデータのばらつきを示すものです。すなわちサンプルがどの程度ばらついているかを示しています。試験で得られたデータの症例数が十分に大きく、その分布が正規分布に近ければ、平均値±2標準偏差の範囲に標本のデータが入る確率は95となります。これは数学的に証明されているようですが、ここではこれ以上の深入りはいないで先に続けます。
標準誤差(SE)とは試験を繰り返すことにより求められる平均値のばらつきです。標準偏差が1回の試験で求められるのに対して標準誤差は複数回試験を繰り返し、その平均値のばらつきを表しています。繰り返し実験を行った際に平均値がどの程度ばらついているかを示しています。つまり実験を100回繰り返せばその信頼性は確実に上昇するのですが、臨床試験は何回も行うことができませんので、以下のように標準誤差を求めます。
 SE=SD/n
標準誤差は標準偏差を症例数の平方根で割ったものと等しいという関係性があり、したがって標準誤差は必ず標準偏差よりも小さくなりますし、症例数が増えれば増えるほどデータは先のとがった正規分布になります。標準誤差は、母平均の区間推定を行う時に用います区間推定とは母平均はどれくらいの幅の中にどれくらいの確からしさで存在していると推定できるかという事です。その幅を信頼区間といい、どれくらいの確からしさと言うのを信頼係数で表します
そして、先ほどの標準偏差の考え方と同様に、母平均の±2標準誤差の間に約95%の標本平均が含まれることが数学的に証明されています。したがってある試験結果から、標本平均と標準誤差を得たとき、標本平均±2×標準誤差の幅を設ければ、その幅の上限~下限が信頼区間となります。信頼係数は通常95%を用い、これにより表される信頼区間を95%信頼区間と呼びます。

※厳密には標準誤差にかける22ではなく自由度(n-1)により値が少し変化します。この係数をt値といます。また95%からはずれた5%(1-信頼係数)を用いてt値は[t(n-1),0.05]とあらわされます。

例えば、試験結果、あるイベントの相対危険がプラセボ群に比べて実薬群で1.5であった場合、プラセボに比べて1.5倍イベントが実薬群で多いことを表していますが、1.5は標本平均での値を示しており、母平均とは必ずしも一致しません。
1.5[95%信頼区間0.82.0]となっていた場合、「母平均は95%の確率でほぼ0.82.0の間にある」と考えて支障はないと思います。すなわち薬はイベントを0.2減らすかもしれないし、2倍に増やすかもしれないという感じです。厳密に言えば、100回臨床試験をおこなってそのうち95回は0.82.0の間に母平均が入っているという解釈で、0.82.0の間に母集団に入っているか否かのみで考えれば95%は入っており、5%は入っていないという感じになります。

信頼係数は95%を用いることが多いですが、この信頼係数が大きくなれば当然、推定の精度は向上します。しかし、信頼係数を大きくすると信頼区間の幅が大きくなり、実用上、その解釈が困難になることもあります。逆に信頼係数を低くすれば信頼区間を狭くすることができますが、その推定精度は低下し、これも実用上耐えられるものではなくなってしまいます。

[検定統計]
例えばプラセボと薬剤Aのイベント抑制効果をランダム化比較試験で検証したとします。試験を行う前に薬剤Aのプラセボに対する効果は以下の2通りで仮説の記述が可能です。

(1)薬剤Aの効果はプラセボと同等である…帰無仮説
(2)薬剤Aの効果はプラセボと同等ではない…対立仮説

薬剤Aがちゃんと効果があり、プラセボと同等でないことを期待したい場合、統計的な仮説検定では(1)の薬剤Aの効果はプラセボと同等である可能性が相当低くなれば、(1)の仮説が棄却され(2)の結論を採用するということになります。棄却される(1)の仮説を帰無仮説といい、それに対立する仮説(2)を対立仮説といいます。

試験を行った結果
A群ではイベント発生率が10%、プラセボ群では20%だったとすると、相対リスクは0.5となり、A群はプラセボ群に比べて50%もイベントを減らせるという感じになっています。また95%信頼区間が0.20.7だとしたら、医学論文では以下のように記載されることが多いです。

相対リスク0.5[95%信頼区間0.20.7]

相対リスクが1となればプラセボと同等になるわけですから、この結果はプラセボと同等ではないという事になっており仮説(2)が正しいことになります。95%信頼区間は有意水準5%に対応しており、この場合、仮説(1)が正しい確率は5%であるという事が言えます。

有意水準5%を用いた場合、帰無仮説が成立する確率は5%である⇒帰無仮説が成立する可能性は極めて低いと考えられる⇒帰無仮説は棄却し、対立仮説が95%の確率で成立することになる、と考えてよいかと思います。有意水準5%は危険率とも呼ばれ、このまま素直に信頼して対立仮説を結論として採用した場合に、その対立仮説が誤っている可能性を表しています。誤っていたら危険!これはエラーですよね、という事で危険率、そしてこの確率をαエラー(第1種のエラー)といいます。通常危険率は5%が用いられることが多くP=0.05 などとあらわされます。


P0.05以下であれば、対立仮説が誤っている可能性は5%以下、すなわちプラセボと同等である確率は5%以下となって帰無仮説は棄却されます。有意差ありなどと記述されます。対立仮説の信頼性は95%以上となります。

P0.05以上であれば、対立仮説が誤っている可能性は5%よりも大きくなり、対立仮説の信頼性は低くなります。帰無仮説であるプラセボと同等な可能性が高まってくるわけで、この場合棄却することが難しくなります。この場合有意差が無いなどと記述され、結果は保留とします。(効果なしではないことに注意)

[検定した判定は正しいのか正しくないのか]
■正しい判定とは
帰無仮説が真のとき、帰無仮説を棄却しない
差があるときに、差がないと判定しない
対立仮説が真のとき,帰無仮説を棄却する
差があるときに、差があると判定する
■誤った判定とは
帰無仮説が真であるのに、無仮説を棄却する(第1種の過誤:αエラー)
差がないときに、差があると判定してしまう誤り
対立仮説が真であるのに、帰無仮説を棄却しない(第2種の過誤:βエラー)
差があるときに、差があるとは判定しない誤り


帰無仮説を棄却しない
帰無仮説を棄却する
帰無仮説が真
正しい判定
誤った判定(αエラー)
対立仮説が真
誤った判定(βエラー)
正しい判定

(1)薬剤Aの効果はプラセボと同等である…帰無仮説
(2)薬剤Aの効果はプラセボと同等ではない…対立仮説
を例にとれば、Aがプラセボと同等の効果なのに同等ではないと判定した場合αエラーとなります。またAがプラセボと同等ではないのに同等と判定しまう場合をβエラーと言います。
αエラー、βエラーについてはこちらもご参照下さい。

[統計的有意と臨床的影響]
危険率が0.05を下回れば統計的には帰無仮説が棄却され対立仮説が成立する可能性が95%以上となります。上の例でいえば薬剤Aの効果はプラセボと同等でない確率は95%以上です。逆に言えば、検定統計でわかることはプラセボと同等か同等でないかを確率的に判断しているにすぎません
また5%という事は20回の臨床試験で1回はαエラーを起こしていることになります。すなわち20回の臨床試験のうち1回は効果においてプラセボと同等なのに、プラセボと同等ではない、という結果に理論上はなっているのです。また1つの臨床試験でみても試験の結果を様々な分析をおこなって、例えばイベントリスクの他にも、死亡リスク、心血管死亡リスク、心血管イベント、脳卒中イベント、・・・・のように20個アウトカムを設定すればそのうち1回はエラーが起きている可能性があります。
20こと言わないまでも5つのアウトカムがあれば、5つの仮説のうち1つにまぐれあたりが出る確率は 1-(5つともまぐれあたりしない確率)= 1-(0.955=0.23 ・・・23
となり有意水準は0.23となります。このようにアウトカムの数が多いほど有意水準は緩くなり偶然の確率が上昇してしまい、理論上はP0.05で有意差ありとはできなくなります。

本来、臨床試験のアウトカムはこのような観点から1つのみ設定することが重要で、このような重要なアウトカムをプライマリアウトカム(一次アウトカム)と呼び、最もエラーが起きる可能性が少ないアウトカムと考えられます。論文の中にはプライマリアウトカムを複数設定しているものもありますが、これは本来ナンセンスです。

またたとえ一つのアウトカムで有意差が出たとしてもそれがはたして実臨床にどの程度影響のあるものなのか、統計的有意と臨床的有意にはかなりのギャップがあります。このような観点からすれば検定統計で○×判定するよりも、推定統計を用いて幅をもって考えることの方が実臨床では、はるかに重要です。

0 件のコメント:

コメントを投稿