[お知らせ]


2013年5月24日金曜日

臨床試験(ランダム化比較試験)のサンプルサイズ


臨床試験に必要な参加者の数(サンプル数)は適当に決められているわけではありません。「製薬企業の医薬品情報パンフレットの取り扱い方」でも触れましたが、臨床試験(ここではランダム化比較試験)の結果の解釈において重要な偶然の影響αエラーと結果の検出力(1-β)について補足しながら整理していきたいと思います。僕自身勉強中の分野で、誤った解釈などあるかもしれませんが、ご指摘いただければ幸いです。

もう一度、αとβについて以下に記載します。

αとは有意水準のことで、実際には差がないのに差があると誤って結論する確率のことです。このような過誤はαエラーと呼ばれ、その基準として一般的には0.055%)を用いることが多く、P値(有意差)に相当するものと解釈して問題ないと思います。ここでは簡単に「偶然に差が出る確率」と言い換えると覚えやすいです。裏を返せば20回に1回は差がないはずなのに差が出てしまうということで、αエラーは侮れません。(臨床試験の20回に1回はαエラーが出ていることになる)

βとは実際には差があるのに差がないと結論する確率のことです。サンプルのサイズが小さいと、実際には差があるのに、差が出ないことがあります。これをβエラーと呼びます。1-βは実際に差が出ることを差が出ると正しく結論する確率で、これが高いほど結果の検出力が上昇します。一般的には統計学的パワー80%等の数値が用いられます。

例えば、1000個のビー玉が入った中身の見えない容器があるとします。この中には500個の白いビー玉と500個の黒いビー玉が入っています。すなわち黒と白のビー玉が1:1で入っているとします。ただ今、この混入比率は誰にも知られていない事実だと仮定します。

中身の見えない容器…黒:500個、白:500個(混入比率1:1)

中身の見えない容器ですから、実際に黒が何個入っているか、白が何個入っているか調べるには、容器からビー玉を取り出して、白と黒の個数を数えなくてはいけません。1000個全部を調べれば確実な答えが出ますが、調査時間にかけられる時間が少ない場合、とりあえず、100個出してみて、その黒と、白の数から、全体の1000個の中に混入している黒と白の混成比を推測しようとするわけです。1000個全部並べたら、10個くらい紛失しそうですし、100個調べるだけでも大変ですね。

実際の臨床試験でも全人類(母集団)を調べることはもちろん不可能で、対象となる参加者(標本=サンプル)のデータから母集団の値を類推するという事を統計解析を用いて行っているのです。類推ですから当然、偶然間違ってしまうことも多いわけですが、その偶然の影響を極力少なくするために、どの程度のサンプルを集めてくれば、妥当な結果が出てくるのかその症例数をサンプルサイズと言います。

先ほどの例に戻りますと、容器の中身1000個のビー玉が母集団となり、今調べようとしている100個のビー玉が標本=サンプルとなります。

1000個全部のビー玉…母集団(これをすべて調べるのは骨が折れる…)
▶とりあえず100個調べてみる=100個のサンプル

ではこの100個が妥当な数なのかどうか、妥当でなければいったい何個のビー玉を調べれば母集団の混成比率と同等と言えるのか、この何個調べればいいのかという個数がサンプルサイズです。

仮にビー玉100個取り出した結果が、黒80個、白20個だったとします。この結果から類推すると、黒:白=82となり黒玉800個、白玉200個で事実と大きく異なります。
実際の黒玉は500個ですから、類推値の800個は、偶然300個多く出てきてしまったことになります。これがαエラーのイメージです。通常は偶然多く出てきてしまう確率を5%(P=0.05)まで許容するためのサンプルサイズが必要なわけです。
白玉も500ですが、100個のサンプル調査では20個しか出てこず、類推値は200個です。本来は300個多く類推されないといけないのですが、統計的パワー(1-β)が不足しているためか、実際よりも少ない数しか出てきませんでした。統計学的パワーは通常80%~90%の数値が用いられますが、要するに検出力を確保できるサンプル数が必要なのです。
 取り出す数(サンプル数)を100個から200個、400個と増やしていくと、経験的にも取り出される黒と白のビー玉の混成比率が1000個全体の混成比率(11)に近づいてくるのがお分かりいただけると思います。αエラーが減少し、検出力(1-β)が上昇するためです。下の例ではだいたい400個ぐらい調べれば、1000個全体の数がおおよそ推定できることになります。

100個のサンプル…黒 80個、白 20個⇒推定個数:黒800個、白200
200個のサンプル…黒130個、白70個⇒推定個数:黒650個、白350
400個のサンプル…黒190個、白210個⇒推定個数:黒475個、白525

この例は厳密な定義とは異なるかもしれませんが、αエラーと検出力(1-β)のイメージはこのような感じであると僕は理解しています。αエラーは差がないのにあわてて差が出てしまった…みたいな感じで「あ(α)わてんぼうのαエラー」βエラーは差があるはずなのにぼんやり気づかない…「ぼ(β)んやりさんのβエラー」なんて覚え方もあった気がします。

このようにして調べたい指標(=プライマリアウトカム)に対して、確保したいαと(1-β)の値をもとに(※)サンプルサイズが決定されて、臨床試験が行われます。結果において統計的有意差がないという事はどういう事かというと、ざっくり言えば以下の2つが考えられます

■結果は偶然である確率が高い(効果無し、ではなく効果不明)=αエラーの影響
■サンプルサイズが不十分で結果を検出するだけの差が出なかった。=βエラーの影響
(言い換えれば期待していた効果量が実際には少なすぎた

(※)実際には検出するべき効果の差(効果量)、1つの群における効果の推定値、統計的有意水準α、期待する統計学的パワー(1-β)、片側検定か、両側検定かの5つの要素をもとに決定される

余談ですが、大規模臨床試験と呼ばれるサンプル数、数千人以上の臨床試験は、そのくらい症例数を集めてこないと期待する効果量の検出力が不足することを意味しており、実際の効果は実臨床でほとんど実感できない可能性もある、という側面を忘れないようにしたいです。一方でサンプル数の少ない小規模のランダム化比較試験はその結果を過大解釈している可能性もあるという報告(※)もあり、これはなかなか奥が深い問題です。
(※)Influence of trial sample size on treatment effect estimates:meta-epidemiological study BMJ.2013 Apr 24;346:f2304 PMID:23616031

そもそも理論的には1000件近い臨床試験のうち約50件の結果にαエラーの可能性が存在しうるのもまた事実です。0.05というのは経験的な数値だそうですが、なかなか侮れません。0.05という確率はコインを投げて、裏が出るか、表が出るか、という確率で実感できます。

1回コインを投げて、表が出る確率は50%=0.5
2回コインを投げて2回とも表が出る確率は50%×50%=0.25
3回コインを投げて3回とも表が出る確率は50%×50%×50%=0.125
4回コインを投げて4回とも表が出る確率は50%×50%×50%×50%=0.0625
5回コインを投げて5回とも表が出る確率は50%×50%×50%×50%×50%=0.03125
コインを投げて5連続で表が続く確率0.03P0.05(有意差あり)=偶然ではない、という感覚です。まあ、なかなかのものなんですけどね。臨床試験では通常両側検定というものが行われるので、実際には6連勝という感じだそうです。

まとめますと、設定されたサンプルサイズはプライマリアウトカムの結果に対するサンプルサイズです。したがってセカンダリアウトカムやサブグループ解析のアウトカム指標に対するサンプルサイズではないという事を意識しないと、結果の解釈に大きなひずみが生まれます。サンプルサイズは一つのアウトカムに対して偶然の影響をできるだけ排除し、効果量の差がはっきり分かる形で示されるために必要な症例数です。なのでプライマリアウトカム以外の指標である、サブ解析のアウトカムのP0.05有意差あり、やセカンダリアウトカムのP0.05有意差ありというのが、あらかじめ計画されたプライマリアウトカムのためのサンプルサイズでは厳密に適用できないのです。

2013年5月22日水曜日

製薬企業の医薬品情報パンフレットの取り扱い方


製薬企業の作成したわれわれ医療従事者向けの医薬品情報に関するパンフレットはメーカーの都合のよい情報が一見わかりやすく、実はその妥当性を考えようとした時にとても分かりにくく書いてあると言えます。今回はメーカーの主催する勉強会や情報提供などでMRさんから手渡される製品情報パンフレットの考え方をまとめていきたいと思います。

新薬などの発売において製薬企業が展開する営業活動は実に巧みで、見た目もきれいな製品情報パンフレットは眺めているだけで、「ほうほう、こんなに効果があるのか」と勉強した気にさせられます。これが新規作用機序の薬剤であれば薬剤師としては大変興味深い資料であることに間違えありません。ただその解釈には少し注意が必要です。

[基本的なデータの考え方]
製品情報パンフレットには人を対象とした臨床試験の臨床成績が掲載されていることが多いですが、よくあるパターンが、「この薬剤は血圧を○○下げました」とか「HbA1cを○○下げました」みたいなコメントに、どでかくグラフがついていて、「有意差あり」みたいな感じの情報が掲載されていることがあります。ラットやマウスのような動物実験のデータのみ記載されている資料はここでは論外とします。(※動物実験等の基礎研究は大変重要でありますが、その結果を人にも応用可能であると考えるのは理論が飛躍しすぎています)

まず確認していただきたいのが何と比べて下がったのかということです。
投与前後を比較したデータは危険なパターンです。たとえば投与前と投与後で有意に血圧が下がったというデータが示されていたら、もしかしたら、このデータを取る際に食事療法や運動療法を併用していたかもしれませんし、何よりもプラセボ効果というものが排除できません。このような比較は意味がありません。必ずプラセボと比較してどうなったか?という検討が必要です。特に治療の効果を検討する場合は対象患者を無作為に治療群とプラセボ群に分けるランダム化比較試験という試験デザインが一般的です。こうすることで患者背景が偏ることなく試験を実施できます。さらに患者さんや医療者が実薬かプラセボかをわからなくするために2重盲検法という手法でブラインド化することがプラセボ効果を抑えるうえで有効です。

実はこれでもまだ少し問題があります。プラセボと比較してどうなったか、の他に、どんな指標を改善しているか?ということです。意味のない指標を改善していても薬として存在する意義はありません。仮に血圧をプラセボと比べて20mmHg 下げました。というデータだったとしたら、その20mmHg にどんな意味があるのでしょうか。高血圧の治療目標は血圧を下げることによって将来的に起こり得る脳卒中などの脳血管疾患リスクを低下させることにあります。したがって血圧を下げることは手段であって目的ではないのです。目的でない指標を改善したところで、「ふーん」という以外にコメントのしようがありません。「で、結局脳卒中リスクはどの程度下がるの?」という疑問の答えにはならないのです。このように血圧のような「代用のアウトカム」を改善するというデータはしばしばメーカー資料に引用されています。骨密度や血糖値、HbAC1の改善にどれほどの意味があるのか。よくよく考えねばなりません。本来であれば骨密度ではなく、骨折リスクが、HbAc1ではなく糖尿病合併症や総死亡が、というように真のアウトカムがどの程度改善されるのか、ということが大事なのです。僕の経験上真のアウトカムについて言及した製薬企業の製品パンフレットは少ないです。

[たとえ真のアウトカムが改善したと記載があっても…・]
近年発売されたω3脂肪酸エチル粒状カプセル(EPADHA製剤)は「高脂血症」に適応を持つ薬剤でその製剤パンフレットの臨床成績(海外データGISSI-Prevenzion)には42か月投与において、トリグリセリドがプラセボに比べて有意に低下しているグラフが大きく示されています。その下には総死亡、突然死、心血管死亡の3種類のグラフの記載があり、それぞれ、プラセボに比べて6か月と12か月時点で有意に抑制されていることが示されています。トリグリセリドは代用のアウトカムですが、それ以外は真のアウトカムといえそうです。
■プラセボとの比較
■総死亡、突然死、心血管死亡とそれぞれ真のアウトカムと言える指標の改善
これだけを見れば、先ほどの確認ポイントは見事クリアしており、この薬剤は効果が期待できそうな感じがします。しかしながらこのデータにはやはり問題があるのです。メーカーパンフレットの使い方として、そのデータが引用された引用文献をもとに原著論文をあたってみるという作業が必須ですが、原著論文を読むのはなかなか時間のかかる作業です。以下のようにふるい分けを行うのが僕流のメーカーパンフレットの取り扱い方です。捨てずにためておいても邪魔ですしね。
■動物実験のみのデータやプラセボ比較でないものは論外。それ以上読まず捨てる。
■代用のアウトカムしか検討していないものはほとんど参考にならないのでこれも捨てる
■真のアウトカム(特に死亡)を評価しているものは原著まで読む

では実際に引用されていた論文を見てみましょう。この論文はフリーで全文が入手できますのでダウンロードしてみてください。

【文献タイトル・出典】
Early Protection Against Sudden Death by n-3 Polyunsaturated Fatty Acids Aftter Myocardiol Infraction time-Course Analysys of Resylt of Gruppo Italiano per lo Studio della Sopravvivenza nell’Infarto Miocadisco(GISSI)-Prevenzione
【論文は妥当か?】
研究デザイン:ランダム化比較試験
[Patient] 心筋梗塞発現後3か月以内(平均16日以内)の患者11323人(女性14.7%、平均年齢59.3歳±10.6歳、総コレステロール211mg/dl±42、糖尿病14.9%、BMI3014.7%、血行再建術 ベースライン:5%⇒42か月後24.0%、コレステロール低下薬の使用 ベースライン:4.7%⇒42か月後45.5%)
[Exposure] ω3系不飽和脂肪酸1g/
[Comparison]コントロール(ω3系不飽和脂肪酸投与なし)
[Outcome]総死亡・非致死的心筋梗塞、非致死的脳卒中の複合エンドポイントと、心血管死亡・非致死的心筋梗塞、非致死的脳卒中の複合エンドポイント
■患者背景は同等か?:Teble1の患者背景には研究集団全体のデータしか示されていない
■盲検化されているか?:されていない:オープンラベル
■サンプルサイズは十分か?:結果に有意差があるので十分だと思われる
intention-to-treat解析されているか?:されている
■追跡期間:3.5
【結果は何か?】プライマリアウトカムは以下の2つ
42か月後の総死亡・非致死的心筋梗塞、非致死的脳卒中の複合エンドポイントはE群で12.7%、C群で14.1%でありE群はC群に比べて15%低い
ハザードリスク:0.8595%信頼区間0.740.98
42か月後の心血管死亡・非致死的心筋梗塞、非致死的脳卒中の複合エンドポイントはE群で9.8%、C群で11.0%でありE群はC群に比べて20%低い
ハザードリスク:0.8095%信頼区間0.680.94
【結果は役に立つか?】
プライマリアウトカムの結果だけを見るとなるほど、確かに減少しています。ただ気になるのが患者背景です。心筋梗塞発症後平均16日という超ハイリスク集団です。これは血行再建術がベースランで5%であるのに対して、42か月後では24%へ上昇していることからもわかります。適応症は「高脂血症」となっていますが、この研究自体がハイリスク集団を対象としており、高脂血症といわれるような状態の患者すべてに期待できるようなものでもありません。またオープンラベル試験であることも問題で、患者背景をみても魚の摂取量や生野菜の摂取量、オリーブオイルの摂取量などがバースラインと比べて42か月後で上昇しています。さらに問題なのはコレステロール低下薬の使用がベースラインで4.7%だったものが、42か月後には45.5%まで上昇しており、ω3系不飽和脂肪酸単独の効果を見るにはやや難しい状況となっています。このように妥当性にやや問題が多いため、この辺りを考慮すればプライマリアウトカムの結果に有意差は無くなる可能性が非常に高いといえます。

試験の妥当性そのものも低いと言わざるを得ないのですが、一番の問題は、パンフレットに引用されていた総死亡、突然死、心血管死はこの研究ではいずれもセカンダリアウトカムに設定されていた指標であくまで仮説生成の指標に過ぎず、薬剤効果を決定づけるものでは全くないということです。

[ランダム化比較試験のアウトカムとサンプルサイズ]
一般的に臨床研究(ランダム化比較試験)において最も優先順位が高く、偶然の影響が少ない治療効果判定のための指標をプライマリアウトカム(一次アウトカム)と呼びます。一つの臨床研究で検証できる仮説はこのプライマリアウトカムだけであり、それ以外のセカンダリアウトカム(二次アウトカム)や、年齢別、既往症別などで検討したサブグループ解析の結果は仮説を生み出すための指標に過ぎず、偶然の影響を受けやすいといわれています。

薬の効果を人類すべての人を対象に実施すれば確実なデータが取れますが、実際に不可能です。臨床試験は限られた参加者(サンプル)を対象に、患者全体における効果を推論するというスタンスで結果の統計解析が行われています。
例えば中身の見えない容器の中に黒と白のビー玉が全部で100個入っていたとします。仮に容器から10個取り出して黒が8個、白が2個出て多とします。容器の中には黒玉が80個、白球が20個入っていると言えるでしょうか?実際には50個ずつはいっていいて、偶然黒が8個も出てきて、白が2個しか出てこなかったという可能性も考えられます。
100個のビー玉が人類全体で10個のビー玉が研究参加者=サンプルです。取り出数を10個から20個へ増やせば、黒と白の比率がビー玉全体の比率に近くなることが経験的にお分かりいただけると思います。すなわちサンプルサイズを10から20へ増やすことで偶然の影響を抑えることができますね。

実際にはサンプルサイズは以下の情報をもとに決定されます。
■検出するべき効果の差(効果量)
■1つの群における効果の推定値
■統計的有意水準α
■期待する統計学的パワー(1-β)
■片側検定か、両側検定か

αとは有意水準のことで、実際には差がないのに差があると誤って結論する確率のことです。このような過誤はαエラーと呼ばれ、その基準として一般的には0.055%)を用いることが多く、P値(有意差)に相当するものと解釈して問題ないと思います。ここでは簡単に「偶然に差が出る確率」と言い換えると覚えやすいです。裏を返せば20回に1回は差がないはずなのに差が出てしまうということで、αエラーは侮れません。(臨床試験の20回に1回はαエラーが出ていることになる)
βとは実際には差があるのに差がないと結論する確率のことです。サンプルのサイズが小さいと、実際には差があるのに、差が出ないことがあります。これをβエラーと呼びます。1-βは実際に差が出ることを差が出ると正しく結論する確率で、これが高いほど結果の検出力が上昇します。一般的には統計学的パワー80%等の数値が用いられます。


α=0.05、パワー0.8でサンプルサイズを計算するということは、実際に差がないのに誤って差が出る確率が5%で、差があることを正しく結論できる確率が80%となることを示しています。さらに実際には2群間の治療の差(効果量)をどの程度見積もるか、片側か両側か、2群のうちで低い方の治療率の期待値を設定しサンプルサイズが決定されていきます。僕は統計学を専門的に学んだわけではありませんので、このあたりの詳細は分かりませんが、この5つの要素とそれぞれのサンプルサイズが一覧表になったものが統計学の教科書に引用されているといいます。ここではαエラーとβエラーをおさえるだけで、この先の理解に支障はありません。

一つの臨床試験ではこのようにしてサンプルサイズが決定されて、臨床試験で評価したい指標=アウトカムのデータの取り扱いが決定されています。αやβといった数値はプライマリアウトカムのみに適用できる数値であり、それ以外の指標にはそのまま適用できません。たとえばアウトカムが2つであればαエラーの確率は0.05×20.1となります。10%ともなると、かなり偶然の影響を受けることになりますよね。ですからこの場合0.05÷20.025を仮の有意水準として解釈する必要があります。この2で割るという補正をボンフェローニ補正といいます。セカンダリアウトカムに対して、あるいは複数のアウトカムを設定してる場合はαエラー5%という確率をそのまま適用できないのです。このパンフレットに引用されている総死亡、突然死、心血管死の数値は0.05で有意差ありと本来はしてはいけないのです。

またサブグループ解析は、患者全体を解析するわけではなく、年齢別、既往疾患別、性別などの層別で解析を加えるものですが、サンプル数が減少するため統計学的パワー(1-β)が減少します。したがって本来差があるのに差が出にくいというβエラーが起きやすくなります。それだけではなく、せっかくランダム化して背景因子をそろえたものが層別化により偏りが生じている可能性もあるのです。さらにサブ解析は解析指標が多数にわたります。12個のサブグループで解析し、12個のアウトカムがあるならば、20回に1回エラーが出てしまうαエラーの可能性も上昇するのです。たとえば生まれた月で死亡リスクのサブ解析を行えば8月生まれだけ死亡リスクが高いというような結果も出てくる可能性があるのです。サブ解析の結果を僕流に一言で示すなら「有意差が出やすく(αエラーの上昇)、また出にくく(βエラーの上昇)、結果の妥当性は信用に値しないが、仮説として軽視すべきではなく他の類似の研究を調べてみる必要がある」という感じでやってます

[製薬メーカーのパンフレットをきっかけに…]
プライマリアウトカムに有意な差が認められなかった臨床試験論文においてはセカンダリアウトカムで差が生じたことが強調されたり、群間比較なのに治療群の前後の比較で効果を強調したりと試験の結果と論文の結論に大きく相違をきたすことがあります。

Boutron et al. Reporting and interpretation of randomized controlled trials with statistically nonsignificant results for primary outcomes JAMA. 2010 May 26;303(20):2058-64

さらに製薬企業がスポンサーの臨床試験ではプライマリアウトカムにあまり良い結果が出ないときはサブグループ解析の結果を誇張されるケースもあのです。

Sun X et al. The influence of study characteristics on reporting of subgroup analyses in randomized controlled trials : systematic review  BMJ 2011 Mar 28;342:d1569

いったい何がプライマリアウトカムなのか、メーカーパンフレットは何も語っていません。とにかく良い結果だけをでかでかと伝えているだけです。また臨床データの対象患者も今、目の前の患者と同等なのかという面もまったく考慮されていません。実際にメーカーパンフレットが今目の前の患者の役に立つことなどほとんどありえないのです。ただ、こういったパンフレットは、実際のところどうなんだろうという新たな疑問を与えてくれ、原著論文をひも解くことで、実際に臨床へどう生かせば良いか、この結果は自分が関わる患者さんの役に立つかどうかという思考を与えてくれます。大事なのはメーカーパンフレットを眺めながらお弁当を食べるのではなく、パンフレットという材料を肥やしにその薬剤効果が妥当か、その効果は何か、その効果は役に立つか、ということを調べるきっかけになっているということに気付けるかどうかということです。

2013年5月15日水曜日

風邪に抗菌薬は効果がありますか?


以前、風邪については少しまとめました。
ウイルス性であれば抗菌薬はもちろん不要ですが、実際に現場で風邪症状という患者訴えに対して抗菌薬が高頻度で処方されているというのが現実ではないでしょうか。風邪で受診して、抗菌薬の副作用で夜間救急外来を受診するなんてことが起こり得ないとは言えません。僕自身の実体験として何例か経験しています。抗菌薬処方は救急外来受診の要因となっているという報告もあります。
Emergency department visits for antibiotic-associated adverse events.
風邪に対して万が一症状の悪化に備えて、抗菌薬を投与すべきか、それとも副作用リスクを考慮すべきか…。風邪をこじらすリスクと抗菌薬の有害事象リスク、「リスクの価値観」を取り扱うに大変身近な疾患であるだけに、そのとらえ方は本当に奥が深いと思います。ここでは風邪として呼吸器感染症全般に対する抗菌薬はどの程度ベネフィットが期待できるものなのか、まとめてみたいと思います。

[鼻水がひどい症状に対する抗菌薬]
米国感染症学会の急性細菌性副鼻腔炎のガイドライン
IDSA clinical practice guideline for acute bacterial rhinosinusitis in children and adults
によれば、急性副鼻腔炎の90%以上がウイルス性だといわれています。細菌性であっても必ずしも抗菌薬の投与が必要かどうかは重要な問題です。ガイドラインでは、
*症状、所見が持続的で少なくとも10日間臨床的症状改善所見れない場合
39度以上の高熱と膿性鼻汁、顔面痛が34日間続く症例
*典型的なウイルス性上気道炎感染に続いてに起こる発熱・頭痛・鼻汁の増加が5から6日続く時
3ケースに対して抗菌薬投与を推奨しています。ガイドラインで推奨されている抗菌薬は小児、成人ともにアモキシシリン/クラブラン酸です。
では実際に急性細菌性副鼻腔炎に抗菌薬の投与は有効なのでしょうか。成人におけるランダム化比較試験では10日間のアモキシシリン投与はプラセボと比較して3日目の症状改善をしないという結果でした
Amoxicillin for acute rhinosinusitis: a randomized controlled trial.
さらにアモキシシリンとステロイドを併用しても治癒効果はプラセボと変わりないという衝撃的な結果もあります。
Antibiotics and topical nasal steroid for treatment of acute maxillary sinusitis: a randomized controlled trial
ガイドラインで推奨されているのはアモキシシリン単剤ではなくクラブラン酸との合剤です。クラブラン酸はペニシリンを分解してしまうβラクタマーゼを阻害する薬剤で、βラクタマーゼを産生するペニシリン耐性菌にも効果を発揮します。ガイドラインで推奨されているアモキシシリン/クラブラン酸ではその有効性は期待できるのでしょうか。1歳~18歳の188人を対象としアモキシシリン、アモキシシリン/クラブラン酸、プラセボの3群を比較したランダム化比較試験では14日における治療効果は3群で差が出なかったという結果でした。
A randomized, placebo-controlled trial of antimicrobial treatment for children with clinically diagnosed acute sinusitis.
急性細菌性副鼻腔炎に対する抗菌薬の効果は多少の改善効果はあるものの、投与なしでも2週間程度で改善し、抗菌薬による臨床的メリットは小さいという報告もあります。
Cochrane Database Syst Rev. 2008 Apr 16;(2):CD000243.
軽症例では抗菌薬の必要性は低いといえそうです。

[咳が続く肺炎の無い症状に対する抗菌薬]
咳の持続期間が28日以内で肺炎の疑いのない急性下気道感染症を持つ18歳以上の患者を対象にアモキシシリンの有効性を検討したランダム化比較試験があります。
Amoxicillin for acute lower-respiratory-tract infection in primary care when pneumonia is not suspected: a 12-country, randomised, placebo-controlled trial
プライマリアウトカムは中等度以上の症状悪化の持続時間、セカンダリアウトカムは、日2日~4日の症状増悪率および新規症状の発現で調評価者及び患者を盲検化しています。
結果は以下の通りです。
■中等度以上の症状悪化持続期間
▶アモキシシリン群はプラセボ群に比べてほぼ同等(HR 1.06, 95% CI 0.961.18)
■症状の重症度スコア
アモキシシリン群はプラセボ群に比べてほぼ同等(アモキシシリン群1.62 プラセボ群1.69)
▶スコア差:-0.07 (95% CI 0.15 to 0.007)
■新規症状、または症状悪化率はアモキシシリン群で少ない
アモキシシリン群162/1021 [159%]
プラセボ群194/1006[193%]  p=0043;NNT= 30
■吐き気、発疹、下痢の副作用はアモキシシリン群で有意に多い
  NNH=21, 95% CI 11174; p=0025
プライマリケアにおいて肺炎が臨床的に疑われていない急性下気道感染症ではアモキシシリンは、多少のベネフィットがあるものの、わずかではあるが有害作用を引き起こすとしています。

急性気管支炎に対する抗菌薬(アジスロマイシン)の健康関連QOLに対する効果も明確に示されていません。
Azithromycin for acute bronchitis:a randomized,double-blind controlled trial
Lancet. 2002 May 11;359(9318):1648-54.PMID:12020525

咳が長く持続する例では肺結核などを考慮せねばならず、ここで安易にキノロン系抗菌薬などを投与すると大変なことになります。非常に使いかってもよく、臓器移行性も良好な薬剤ですが、呼吸器にキノロンを使用する場合は結核を除外できていることが重要です。抗結核作用があるため診断の遅れにつながることがあります。結核診断前のキノロン暴露が死亡リスクに関連するという衝撃的な論文が報告されています。
Fluoroquinolone exposure prior to tuberculosis diagnosis is associated
with an increased risk of death

[呼吸器感染症において抗菌薬で肺炎は予防できるのか]
風邪に対する抗菌薬使用を正当化する根拠として重篤な肺炎への移行を阻止するためというのがあり、僕も薬剤師になった当時、細菌への二次感染から肺炎なんかを予防するために抗菌薬が出ているんだぞ、と教わりました。予防のために薬をこんなに出していいもんなのかと当時はそんな疑問を持ちつつ、風邪には抗菌薬、やっぱキノロン効くねみたいな。

2013年に入りとても興味深い後ろ向きコホート研究がAnn Fam Medに掲載されました。
Risks and Benefits Associated With Antibiotic Use for Acute Respiratory Infections: A Cohort Study
1986年から2006年までにおける英国のプライマリケアデータベースから急性非特異的呼吸器感染症ARIで受信した成人患者1,531,019人を対象に抗菌薬を投与した場合とと伊代しなかった場合を比べて、ARIsで受診後15日以内の市中肺炎による入院リスクとARIsで受診後15日以内の重篤な薬物有害事象リスク(過敏症、下痢、発作、不整脈、肝・腎不全)を検討した報告です。
結果は以下の通りです。
■重篤な薬物有害事象
・抗菌薬の投与で患者10万人当たりのイベント数は0.37イベント少ない傾向にある
-0.37(95% CI, 5.31 to 2.07).
・抗菌薬の投与で患者10万人当たりのリスク差は1.07少ない傾向にある
-1.07(95% CI, 4.52 to 2.38; P = .54)
■肺炎による入院
・抗菌薬の投与で肺炎による入院リスクは減少する。
▶調整リスク差:-8.16(95% CI, 13.24 to 3.08; P = .002).
▶肺炎を一人減らすためのNNT=12,255.
抗菌薬で治療されていなかったARIsの患者と比較して、抗菌薬で治療された患者は重篤な薬物有害事象のリスクが増加せず、肺炎入院のリスクも減少させた。という結果ですが、15日以内の肺炎予防のためのNNTはなんと12255です。12254人は無駄に抗菌薬を飲んでいる計算になります。入院リスクは減少するかもしれませんが、肺炎予防のために抗菌薬のルーチンの使用が正当化されるとは言い難いと思います。ちなみにこのコホートでは65%の患者に抗菌薬が処方されており、ウイルス性の多い急性呼吸器疾患にたいして抗菌薬がいかに多く投与されているかも推測できます。

[抗菌薬をすぐ飲めば症状が軽くて済むか?]
急性呼吸器感染症における抗菌薬処方戦略として抗菌薬使用のタイミングを症状初期に行うべきか、それとも遅れてからの投与か、痛み、倦怠感、発熱、咳やのどの痛み、急性中耳炎、気管支炎(咳)と鼻漏、などを評価したコクランによれば
Delayed antibiotics for respiratory infections.
咳や風邪などの臨床症状において、抗菌薬の即時使用、遅延使用、使用なしいずれにおいても明確な効果は無いとして、ほとんどの臨床転帰はどの治療においても明確な差は見いだせなかったと結論しています。患者満足度は抗菌薬を即時投与した方がわずかに高かったようです。風邪をひいたとき、抗菌薬をすぐに飲めば早く治るような錯覚を覚えますが、明確な根拠なしといえそうです。しっかり経過を観察し、それから抗菌薬の使用を判断するということも可能であることをこの報告は示唆しています。

[結局のところ薬剤師としての対応はどうすればよいのか]
今までの報告のポイントを整理すると、
■抗菌薬で肺炎を予防できるのは12255人に1人
■急性副鼻腔炎の90%はウイルス性で抗菌薬無効
■細菌性副鼻腔炎に抗菌薬を使用しても著明に効果が得られたとする報告は少ない
■咳が長期間持続している場合抗菌薬投与以前に結核などの鑑別を行う必要がある
■抗菌薬を症状発症後すぐ飲んでも、症状悪化が防げるわけではない。
■抗菌薬の副作用や薬剤アレルギーは侮れない

患者さんからの「抗生剤出てないのかい?」という質問に対しては以上のようなポイントをネタにお話すれば、かなり説得力は高まると思います。問題なのはすでに処方されている抗菌薬をどう取り扱うかです。当然抗菌薬が必要な症例もあるでしょうから、診断を行うことができない薬剤師にその必要性を完全に否定することは現実問題無理でしょう。風邪という、非常に日常的な疾患を医師と一緒に考えていく機会を増やすこと、例えば調剤薬局であれば論文をネタに医師に面会をしに行くとか、薬剤情報提供業務の一つとして、いままで見てきた報告をコンスタントに情報提供し続けることも必要なことだと思います。

2013年5月1日水曜日

なぜ薬剤師にEBMなのか


EBMとは個々の患者の医療判断の決定に、最新で最善の根拠を、良心的かつ明確に、思慮深く利用すること(Sackett DL et al.:BMJ,312:71,1996.)。僕は薬剤師がEBMを実践することについて、いろいろ模索を続けてきました。単にエビデンスを批判的吟味するだけでなく、それをどう用いるか、エビデンスを患者に適用する際には,エビデンス,患者の病状と周囲を取り巻く環境,患者の好みと行動,医療者の臨床経験の4つを考慮すべきである(Haynes RB, BMJ 2002;324:1350)というEBMの4要素を薬剤師の職域の中でどう臨床へ還元していけば良いのかまだまだ答えは出ませんが、少しずつ整理されてきたように思います。

僕らの世代、学部教育でEBMの方法論を学ぶ機会はほとんどありませんでした。薬学部も6年生になり、そのカリキュラムの中で、EBMについてどのような教育がなされているかわかりませんが、疑問や問題点に対してエビデンス吟味してをどう活用するか、という一連の思考過程は非常に重要だといえます。
薬剤師に必要なスキルはEBMだけじゃありませんが、ただ僕が思うのはどんなことにおいても本当に情報の真価を熟慮しなければいけないのであれば結局、原著を当たるしかないということです。情報検索、情報吟味のスキルは薬学、医学に限らず様々な分野で応用が可能です。

[医療には正解というものが存在しない。]

正解、不正解という構図を思考過程に置き換えれば、自分が正解だと思う主観的判断と、世間一般が正解だと認めている客観的判断の一致が“正解”で、その判断が「正確な判断」となるわけなのですが、医療では根本的にこのような構図は成り立たないと思います。たとえば副作用があり得る、○○%発生する可能性がある。自分の判断はこのような可能性があるとしか言えないわけです。だから○か×かで判断するような正解を求める「正しい判断」は多くの場合で非常に困難だといえるのです。副作用が有るか無いかで言えば、ほとんどが有るという答えになってしまいます。
薬学部を卒業して現場に出て、なかなか気付かない問題の一つに、答えがないということに対してどう判断を下すかということだと思います。この場合は疑義紹介するべきなのか、この併用は問題ないのか、このような状況であれば許されるのか、症状に応じて、適宜増減、併用注意…。製薬会社の学術に問い合わせると、当社としては推奨できません。報告がないためデータがありません。結局どうすればいいのか。結局、正解といえるような答えがないんです。
薬剤師国家試験は○×の正誤問題。国家試験の問題における正しい判断とは問題に対して、自分が正解だと思う選択肢を選び(=主観)それが、問題作成者が意図した選択肢(=世間一般的な共通解釈=客観)と一致すれば正解となります。ごくまれに「解無し」という問題も存在しますが、このような正解を導き出すという思考過程が正しい判断と言えます。正解を導き出すための思考過程を鍛えることで国家試験に合格し、薬剤師として現場に立つことになります。しかしながら、実際の医療現場には○や×で解決するような正解なんてないんです。正解を導き出すための“正しい判断”というものは多くの場合で困難ですが、この程度ならばまずまず「妥当」という“妥当な判断は存在します。
正解ありきで、どう判断すれば正解へたどりつけるかという思考プロセスを養う国家試験対策と、正しい判断ができない中で、どう妥当な判断へ近づくのかという現場の思考プロセスはまったく異なるもので、学部を卒業した薬剤師の多くがこのギャップに戸惑い、今まで学んだ知識をどう現場で活用すべきか迷ったり悩んだりする部分では無かったでしょうか。正解が存在する国家試験、妥当な答えしかない医療。このギャップをどう埋めるかが学部教育の課題ではないかと思います。
妥当な答えにたどりつくためにどうすればよいか、そんなトレーニングが必要なんだと感じますが、僕はEBMの手法がこの妥当な答えに近づくための有用な手段だととらえています。「妥当」な判断を下す際に「どの程度か」という定量的情報をエビデンスなり、患者さんの価値観なり、患者さんを取り巻く環境なり、医療者の経験を統合して判断していくというわけです。

[薬剤師がEBMを実践するということ]
以下はこれまでに僕が模索してきたことの現時点での結論です。薬剤師が英語の論文読んで、いったい何の役に立つのか、僕はこんなふうに活用できれば良いのではないかと思っています。

■薬物療法の安全性をより高めるためのリスクアセスメント=リスクの定量化
 薬剤の副作用や相互作用リスクに関してリスクがある、ないでいえは、多くの場合、リスクありでしょう。ではいったいどの程度かを統計的リテラシーを利用することで薬剤リスクを定量化することが僕が薬剤師のEBMとするところです。

■エビデンスを使う自分が患者の役に立てるかどうか。
 また薬が効くか効かないかを統計的観点から判断すれば多くの場合で曖昧でしょう。その曖昧さをコミュニケーションツールとしていかすところが僕が薬剤師のEBMとするところです。そのコミュニケーションの有り様を多種多様な価値観から一つの方法論として、整理することを今の課題としたいと思います。

そして薬剤師にとってエビデンスは心強い味方となってくれます。たとえば発言力において、劣勢と言わざるを得ない立場だったとしても、統計的根拠を利用することでそのインパクトは飛躍的に向上するといえます。医療というものを「正しい判断」が多くの場合で困難なものと認識し、その中で「妥当な判断」に近づくためにどうするかという思考過程の大切さを僕はEBMから学びました。