臨床試験に必要な参加者の数(サンプル数)は適当に決められているわけではありません。「製薬企業の医薬品情報パンフレットの取り扱い方」でも触れましたが、臨床試験(ここではランダム化比較試験)の結果の解釈において重要な偶然の影響αエラーと結果の検出力(1-β)について補足しながら整理していきたいと思います。僕自身勉強中の分野で、誤った解釈などあるかもしれませんが、ご指摘いただければ幸いです。
もう一度、αとβについて以下に記載します。
αとは有意水準のことで、実際には差がないのに差があると誤って結論する確率のことです。このような過誤はαエラーと呼ばれ、その基準として一般的には0.05(5%)を用いることが多く、P値(有意差)に相当するものと解釈して問題ないと思います。ここでは簡単に「偶然に差が出る確率」と言い換えると覚えやすいです。裏を返せば20回に1回は差がないはずなのに差が出てしまうということで、αエラーは侮れません。(臨床試験の20回に1回はαエラーが出ていることになる)
βとは実際には差があるのに差がないと結論する確率のことです。サンプルのサイズが小さいと、実際には差があるのに、差が出ないことがあります。これをβエラーと呼びます。1-βは実際に差が出ることを差が出ると正しく結論する確率で、これが高いほど結果の検出力が上昇します。一般的には統計学的パワー80%等の数値が用いられます。
例えば、1000個のビー玉が入った中身の見えない容器があるとします。この中には500個の白いビー玉と500個の黒いビー玉が入っています。すなわち黒と白のビー玉が1:1で入っているとします。ただ今、この混入比率は誰にも知られていない事実だと仮定します。
中身の見えない容器…黒:500個、白:500個(混入比率1:1)
中身の見えない容器ですから、実際に黒が何個入っているか、白が何個入っているか調べるには、容器からビー玉を取り出して、白と黒の個数を数えなくてはいけません。1000個全部を調べれば確実な答えが出ますが、調査時間にかけられる時間が少ない場合、とりあえず、100個出してみて、その黒と、白の数から、全体の1000個の中に混入している黒と白の混成比を推測しようとするわけです。1000個全部並べたら、10個くらい紛失しそうですし、100個調べるだけでも大変ですね。
実際の臨床試験でも全人類(母集団)を調べることはもちろん不可能で、対象となる参加者(標本=サンプル)のデータから母集団の値を類推するという事を統計解析を用いて行っているのです。類推ですから当然、偶然間違ってしまうことも多いわけですが、その偶然の影響を極力少なくするために、どの程度のサンプルを集めてくれば、妥当な結果が出てくるのか、その症例数をサンプルサイズと言います。
先ほどの例に戻りますと、容器の中身1000個のビー玉が母集団となり、今調べようとしている100個のビー玉が標本=サンプルとなります。
▶1000個全部のビー玉…母集団(これをすべて調べるのは骨が折れる…)
▶とりあえず100個調べてみる=100個のサンプル
仮にビー玉100個取り出した結果が、黒80個、白20個だったとします。この結果から類推すると、黒:白=8:2となり黒玉800個、白玉200個で事実と大きく異なります。
実際の黒玉は500個ですから、類推値の800個は、偶然300個多く出てきてしまったことになります。これがαエラーのイメージです。通常は偶然多く出てきてしまう確率を5%(P=0.05)まで許容するためのサンプルサイズが必要なわけです。
白玉も500ですが、100個のサンプル調査では20個しか出てこず、類推値は200個です。本来は300個多く類推されないといけないのですが、統計的パワー(1-β)が不足しているためか、実際よりも少ない数しか出てきませんでした。統計学的パワーは通常80%~90%の数値が用いられますが、要するに検出力を確保できるサンプル数が必要なのです。
取り出す数(サンプル数)を100個から200個、400個と増やしていくと、経験的にも取り出される黒と白のビー玉の混成比率が1000個全体の混成比率(1:1)に近づいてくるのがお分かりいただけると思います。αエラーが減少し、検出力(1-β)が上昇するためです。下の例ではだいたい400個ぐらい調べれば、1000個全体の数がおおよそ推定できることになります。
▶100個のサンプル…黒 80個、白 20個⇒推定個数:黒800個、白200個
▶200個のサンプル…黒130個、白70個⇒推定個数:黒650個、白350個
▶400個のサンプル…黒190個、白210個⇒推定個数:黒475個、白525個
この例は厳密な定義とは異なるかもしれませんが、αエラーと検出力(1-β)のイメージはこのような感じであると僕は理解しています。αエラーは差がないのにあわてて差が出てしまった…みたいな感じで「あ(α)わてんぼうのαエラー」βエラーは差があるはずなのにぼんやり気づかない…「ぼ(β)んやりさんのβエラー」なんて覚え方もあった気がします。
このようにして調べたい指標(=プライマリアウトカム)に対して、確保したいαと(1-β)の値をもとに(※)サンプルサイズが決定されて、臨床試験が行われます。結果において統計的有意差がないという事はどういう事かというと、ざっくり言えば以下の2つが考えられます
■結果は偶然である確率が高い(効果無し、ではなく効果不明)=αエラーの影響
■サンプルサイズが不十分で結果を検出するだけの差が出なかった。=βエラーの影響
(言い換えれば期待していた効果量が実際には少なすぎた)
(※)実際には検出するべき効果の差(効果量)、1つの群における効果の推定値、統計的有意水準α、期待する統計学的パワー(1-β)、片側検定か、両側検定かの5つの要素をもとに決定される
余談ですが、大規模臨床試験と呼ばれるサンプル数、数千人以上の臨床試験は、そのくらい症例数を集めてこないと期待する効果量の検出力が不足することを意味しており、実際の効果は実臨床でほとんど実感できない可能性もある、という側面を忘れないようにしたいです。一方でサンプル数の少ない小規模のランダム化比較試験はその結果を過大解釈している可能性もあるという報告(※)もあり、これはなかなか奥が深い問題です。
(※)Influence of trial sample size on treatment effect
estimates:meta-epidemiological study BMJ.2013 Apr 24;346:f2304 PMID:23616031
そもそも理論的には1000件近い臨床試験のうち約50件の結果にαエラーの可能性が存在しうるのもまた事実です。0.05というのは経験的な数値だそうですが、なかなか侮れません。0.05という確率はコインを投げて、裏が出るか、表が出るか、という確率で実感できます。
・1回コインを投げて、表が出る確率は50%=0.5
・2回コインを投げて2回とも表が出る確率は50%×50%=0.25
・3回コインを投げて3回とも表が出る確率は50%×50%×50%=0.125
・4回コインを投げて4回とも表が出る確率は50%×50%×50%×50%=0.0625
・5回コインを投げて5回とも表が出る確率は50%×50%×50%×50%×50%=0.03125
コインを投げて5連続で表が続く確率0.03がP<0.05(有意差あり)=偶然ではない、という感覚です。まあ、なかなかのものなんですけどね。臨床試験では通常両側検定というものが行われるので、実際には6連勝という感じだそうです。
まとめますと、設定されたサンプルサイズはプライマリアウトカムの結果に対するサンプルサイズです。したがってセカンダリアウトカムやサブグループ解析のアウトカム指標に対するサンプルサイズではないという事を意識しないと、結果の解釈に大きなひずみが生まれます。サンプルサイズは一つのアウトカムに対して偶然の影響をできるだけ排除し、効果量の差がはっきり分かる形で示されるために必要な症例数です。なのでプライマリアウトカム以外の指標である、サブ解析のアウトカムのP<0.05有意差あり、やセカンダリアウトカムのP<0.05有意差ありというのが、あらかじめ計画されたプライマリアウトカムのためのサンプルサイズでは厳密に適用できないのです。