[お知らせ]


2014年2月5日水曜日

第6回薬剤師のジャーナルクラブの開催のお知らせ

ツイキャス配信日時:平成26216日(日曜日)
■午後2045分頃 仮配信
■午後2100分頃 本配信
なお配信時間は90分を予定しております。

※フェイスブックはこちらから→薬剤師のジャーナルクラブFaceBookページ
※ツイキャス配信はこちらから→http://twitcasting.tv/89089314
※ツイッター公式ハッシュタグは #JJCLIP です。
ツイキャス司会進行は、精神科薬剤師くわばらひでのり@89089314先生です!
ご不明な点は薬剤師のジャーナルクラブフェイスブックページから、又はツイッターアカウント@syuichiaoまでご連絡下さい。

[症例6.インフルエンザの検査で陰性ならインフルエンザじゃないですよね?]

[仮想症例シナリオ]
あなたは保険薬局の薬剤師です。インフルエンザが流行期を迎え、あなたの地域にはインフルエンザ流行警報がでています。朝からインフルエンザと思われる患者さんばかりで、夜の6時を回っても途切れる気配がありません。
そこに一人の患者さんが浮かない顔をして処方箋を持ってこられました。
「今日は、ものすごく混んでて、先生によく確認できなかったんですが、腑に落ちないことが多くてちょっと伺っても良いですか?」
と患者さんが切り出しました。
「まず、先生は“インフルエンザの検査はしなくても、あなたはインフルエンザだと思います。”とおっしゃって、心配なんで、どうしても検査してほしい、って頼んだんです。結果は陰性だったんで、安心したんですが、先生はそれでも“インフルエンザだろう”っておっしゃるんです。“薬いらないと思いますけど、どうします?”って聞かれたんですけど、インフルエンザだったらやっぱり飲んだほうが良いかなって思って、とりあえず、“じゃ、ください”って言って、今日はこの薬が出たんですけど…。インフルエンザの検査はしなくて良いってどういう事ですかね。それと陰性でもインフルエンザです、ってどういう意味でしょうか。よくわからないのですが、私は本当にインフルエンザなのでしょうか?」

この患者さんの主な情報と主訴は以下の通りです。
30歳女性。喫煙(-)。電車通勤で都内まで勤務。
*今日の10時くらいから症状が出始めた
*症状は、主に発熱(39度)と寒気、関節の違和感
*合併症や併用薬なし。今日の処方はタミフル®とカロナール®
*インフルエンザの検査はしなくても良いってどういうこと?
*結局のところ、私はインフルエンザなのでしょうか?

インフルエンザ迅速診断キット検査の性能について少し調べてみました。PubMedClinical Queriesに「rapid influenza antigen detection test」とキーワードを入れ、カテゴリーを「Diagnosis」スコープを「Narrow」にして検索以下論文

[文献タイトル・出典]
Factors influencing the diagnostic accuracy of the rapid influenza antigen detection test (RIADT):a cross-sectional study BMJ Open.2014 Jan 2;4(1):e003885. PMID:24384898

[診断のエビデンスとそのPECO
①横断研究とは
今回は「診断」に関する論文を読みながら、その結果の解釈について考えていきたいと思います。診断法の検討をするにあたり、理想的な研究デザインは「横断研究」と呼ばれるものです。横断研究はある一時点に行う研究のことです。例えばランダム化比較試験は時間の流れが前向きにありますよね。すなわち発症率を考えているわけですが、横断研究には時間の流れがありません。現時点での有病割合を考えており、疾患の発症率を検討しているわけではないという事です。ちなみに時間が後ろ向きに流れて因果関係を検討するのが症例対照研究です。この研究デザインも発症率を検討しているわけではなくて(過去に向かって疾患が発生するわけありませんから)、疾患と因子の関連はオッズ比で示されます。まとめると以下のような感じです。

研究デザイン
時間の流れ
一般的な検討項目
コホート研究
前向き
発症率
ランダム化比較試験
前向き
発症率
横断研究
一時点(現時点)
有病割合
症例対照研究
後ろ向き
因果関係(オッズ比)

②診断のPECOと診断の横断研究における論文のPECO
診断法についてもPECOで整理することができます。概ね以下のような感じです。
▶診断の臨床疑問(インフルエンザを例に)
P:発熱・咽頭痛のある患者に、
E:検査キットで陽性の場合(陰性の場合)、
C:検査キットで陰性に対して(陽性に対して)
O:インフルエンザと確定してよいか(除外してよいか)
▶診断の横断研究論文のPECO
P:どんな患者が
E:どんな検査を受けると
C:必ず疾患の有無を判定できる検査に近い標準検査と比べて
O:どれだけ正確にその疾患の有無を診断できるか
必ず疾患の有無を判定できる検査はgold standardと言われたりしますが、そんな検査は実際には存在しにくいので、限りなくそれに近い標準検査(reference standard)と比較していることが理想となります。

論文の吟味に関しては以下の点を簡単に確認していくと良いでしょう。診断の論文の批判的吟味は薬剤師にはやや難解なので、今回は結果の数値の解釈に重きを置きながら論文の妥当性に関しては深入りせず進めたいと思います。

[診断の横断研究論文の確認ポイント]
研究デザインは何か?
横断研究であるか。
標準検査は妥当か?
対象となる診断法がGold standardに近いもので比較されているか。
対象患者は臨床上、適切な患者であるか?
対象となる検査法にたいして、臨床上診断が問題となる患者群か。
研究で行われた診断法と標準検査は全ての患者で行われているか?
全例で行われていないと両者のデータにゆがみが生じ結果の正確度が著しく低下する。
研究で行われた診断法と標準検査は独立して判定されているか?
一方の診断結果を知ったうえで、他方の診断を行うと情報バイアスが生じる。
研究で行われた診断法と標準検査の判定方法は明確か?
実臨床でも実施が可能なものであるか、きちんと記載されているか。
研究で行われた診断法と標準検査はいずれも再現性があるか?
結果の判定に経験を要するもの、あるいは主観的な評価が入り込む恐れのある診断法では同じ診断を行っても結果が一致しないことがある。

[結果の整理方法]
①論文の結果に基づいて以下の4分割表に人数を記載する

疾患あり
疾患なし
合計
検査陽性
a
b
a+b
検査陰性
c
d
c+d
合計
a+c
b+d
a+b+c+d
■偽陰性とは疾患があるのに検査陰性と判定された人たちです。
■偽陽性とは疾患が無いのに検査陽性と判定された人たちです。

4分割評から以下の項目を算出する
有病割合
研究参加者全体における疾患保有者の割合
a+c/a+b+c+d
感度Sn
疾患ありのうちで検査陽性の人の割合
a/a+c
特異度Sp
疾患なしのうちで検査陰性の人の割合
d/b+d
陽性的中率PPV
診断結果が陽性の場合に疾患がある人の割合
a/a+b
陰性的中率NPV
診断結果が陰性の場合に疾患がない人の割合
d/c+d
陽性尤度比
検査前オッズに尤度比を乗ずると
検査後オッズが算出できる(ベイズの定理)
Sn/1-Sp
陰性尤度比
1-Sn/SP
■感度が高いと病気の見逃し率が減り、所見がなければその疾患を除外できる可能性が高くなります。(SnNouta sensitive test,when Negative rules out disease
■特異度が高いと、間違って病気と診断する確率が減り、所見があれば確定診断できる可能性が高くなります。(SpPina specific test,when Positive,rules in disease

■尤度比を用いると事前割合から事後割合へ予想される変化を近似できます。尤度比を確率に変換すると以下のようになります。(マクギーの身体診断学 診断と治療社 2009より引用)
尤度比
確率変化の近似値
事前確率50%としたときの検査後確率
0.1
45
5
0.2
30
20
0.3
25
25
0.4
20
30
0.5
15
35
1
変化なし
50
2
+15
65
3
+20
70
4
+25
75
5
+30
80
6
+35
85
7


8
+40
90
9


10
+45
95

事前確率を50%とすれば感度90%特異度90%の検査では検査後の確率はおおむね以下のようになります。
■陽性尤度比=感度/1-特異度)=0.9/10.99
■陰性尤度比=(1-感度)/特異度=10.9/0.90.11
所見あり:50%+約41%=約91
所見なし:50%-約45%=約5

事前確率が五分五分の場合、検査をして所見があれば検査後確率は91%まで上昇し、所見なしであれば疾患確率は5%、まで低下するということになり、この検査は有用かもしれないという事になります。

診断論文用のワークシートを作成いたしましたのでご活用ください!





[補足:確率とオッズは髪の毛の分け方でイメージせよ!]
ちなみにオッズ比と確率の違いを整理しておきます。
確率ある事象/全体の事象
オッズある事象/そうでない事象

例えば、3人のうち1人がインフルエンザ、確率1/3、オッズ1/2

■確率が1/2⇒頭の真ん中で髪の毛を分けている⇒オッズ1/1
そうでない事象=5
ある事象=5
(中わけ:確率=5/5+5、オッズ=5/5
■確率が3/10⇒髪の毛の七三分け!⇒オッズ3/7
そうでない事象=7
ある事象=3
(七三分け:確率=3/7+3、オッズ3/7
■確率が1/100⇒髪の毛はほとんど横にペタッとなっている!⇒オッズ1/99
そうでない事象=99
1
(バーコード的:確率=1/99+1、オッズ1/99


症例シナリオをもとに、インフルエンザ流行期で発熱関節痛を訴える患者さんのインフルエンザの事前確率を考えてみましょう。検査結果を踏まえれば、検査後確率はどう変化するでしょうか。続きはジャーナルクラブで!


薬剤師のジャーナルクラブ(Japanese Journal Club for Clinical Pharmacists:JJCLIPは臨床医学論文と薬剤師の日常業務をつなぐための架け橋として、日本病院薬剤師会精神科薬物療法専門薬剤師の@89089314先生、臨床における薬局と薬剤師の在り方を模索する薬局薬剤師 @pharmasahiro先生、そしてわたくし@syuichiao中心としたEBMワークショップをSNS上でシミュレートした情報共有コミュニティーです。

2014年2月3日月曜日

非劣性試験について~TIOSPIR試験再考~

近年、医薬品の新規開発は目覚ましく発展し、今やプラセボ対照のランダム化比較試験が倫理的に行うことが難しくなる中で、既存の薬剤と比べて、その臨床効果に差がないかどうかを検討するという試験デザインが多くなってきました。しかしながら、差があるとこを示すより、差が無いことを示す方が難しいと言います。膨大なサンプルを集めて、それでも有意差がないことを示すのは現実問題不可能です。通常の臨床試験のサンプル規模では大規模試験でさえも、有意差なし=同等と言うわけではありませんし、既存の薬に比べて差が無いという事を示すにはどうすれば良いのか。その問題を解決するためにデザインされるのが非劣勢試験や同等性試験です。近年、新規抗凝固薬や経口糖尿病薬の臨床試験で目にすることも多い、非劣性試験。少しまとめてみたいと思います。ややあやふやな点もあると思いますが、間違え等ございましたらご指摘いただけますと幸いです。

[非劣性試と同等性試
通常のプラセボ比較ランダム化比較試は、プラセボと果に差がない、という差なし仮が非常にまれであるという事を示して(統計的有意)差があるとしますが、究によってはその目的が、ある介入よりも劣らない、という事を示す非劣性試、あるいは果が同等であることを示す、同等性試があります。
非劣性試と同等性試は混同されやすいですが、(僕自身も最近まで、意識して別できていませんでした)非劣性試とは「ある治療が、他の治療よりも明らかに劣ることがない」という事を示すために行われる試で、同等性試とは「ある治療が、他の治療と同等である」ということを示すために行われるものです。こう書いてもやっぱりその違いが良くわからんと言う感じですが、介入果の信頼区間の許容範が異なります。
非劣性試験
介入間の違いの95%信頼区間が、臨床的に劣ると事前に定義された基準値を下回るかどうかに基づいて判断。劣っていないことのみ焦点を当てる片側性
同等性試験
2つの介入の違いの95%信頼区間が、臨床的に同等であると事前に定めた基準内に収まっているかで判断。信頼区間が臨床的に意味のある区間内に全て収まっていることに焦点を当てる両側性
臨床的に劣ると事前に定義された基準値を非劣性マージン、臨床的に同等と定義された基準値を同等性マージンといい、それぞれ論文中に示されるのが普通です。
対照治療に比べて優れているかどうか(優越性があるかどうか)はどうでもいい、と言うのが非劣性試験、同等性試験の基本的な考え方です。

[スピリーバレスピマットの安全性はスピリーバハンディへラーの安全性に劣るものではない]
スピリーバレスピマットに関しては以前このブログでも取り上げていますが、今回はレスピマットとハンディへラーを比較して安全性解析を行ったTIOSPIR試験を振り返りながら非劣性試験についてまとめていきたいと思います。
Tiotropium Respimat Inhaler and the Risk of Death in COPD

まずは論文のPECOから確認します。
[Patient]
40歳以上の慢性閉塞性肺疾患を有する17315人(平均65歳、男性71.5%、現在喫煙者38.1%
[Exposure]
スピリーバレスピマット2.5μg 5730
[Exposure]
スピリーバレスピマット5μg 5711
[Comparison]
スピリーバハンディヘラー18μg 5694
Outcome
死亡(非劣性検討)、COPD増悪初発(優越性検討)
試験デザインは2重盲検ランダム化比較試験で、安全性検討は非劣性、有効性検討は優越性、追跡期間は平均2.3年の試験です。必要症例数は16800人と計算され、本試験では症例集は十分です。死亡のアウトカムは修正ITT解析(厳密なITT解析ではなく一種のPer protocol解析)が行われています。

[非劣性試験では必ずしもITT解析が有用ではない]
ITT解析とはIntention-to-treat解析の頭文字をとったものですが、一度特定の群に割り付けたら、実際の治療が行われなくても、あるいは他方の群の治療を受けたとしても、最初に割り付けた群のままで統計解析を行い、最初に意図したとおりの群のまま解析するという事です。一方Per protocol解析は実際に治療を受けた人のみ解析対象にする手法です。
試験から脱落してしまって、薬を飲まなくなってしまった人を、薬物治療群とするか、プラセボ群とするか、どちらの治療群として扱うべきかという問題が起こった時に、最初に割り付けた治療群のままで解析をしましょうというのがITT解析です。最初に割り付けたグループと異なるグループとして解析してしまうと、せっかくランダム化により患者背景を偏りなくそろえたのに、それを保持することが難しくなってしまうことがあるのです。すなわちITT解析はランダム化を保持する目的で行います。
ITT解析はランダム化を保持する、と言う意味で有用な解析方法ですが、一般的にはもう一つ利点があるとされています。試験からの脱落は、何らかの理由があって発生します。副作用がきつい、とか介入治療にともなう精神的苦痛など研究プロセスへの不満なども影響してきます。試験終了まで元の群にとどまったとしてもアドヒアランスはかなり低下しているかもしれません。割り付け重視のITT解析を用いることで、実臨床に近いアドヒアランスを再現することができます。これにより、治療効果の過大解釈を防ぐ(有意差が出にくくなる)ことができます。したがってITT解析を行うと差なし仮説の側に片寄りやすくなります。そのため非劣性という結果に陥りやすくなるため、非劣性試験では修正ITT解析などPer protocol解析に近い手法で統計解析されることが多いです。本来はITTPer protocolの両方で解析されることが望ましいとされています。

[スピリーバレスピマットの安全性はハンディヘラーと比べてどうなのか]
では論文にもどって結果を見てみましょう。事前に定義された非劣性マージンは1.25です。
アウトカム
E
C
ハザード比
95%信頼区間]
死亡
(非劣性マージン1.25
E
440
7.7%)
439
7.7%)
1.00
0.871.14
E2
423
7.4%)
0.95
0.841.09
結果の95%信頼区間上限に注目です。E1のレスピマット2.5μgでは「~1.14」、E2のレスピマット5μgでは「1.09」となっており、いずれも非劣性マージンの1.25を下回っています。もともとハンディヘラーで死亡リスクが増えないことが前提ではありますが、スピリーバレスピマットはハンディヘラーに比べて死亡リスクは劣っていない(増加しない)という非劣性が証明されたという結果になっています。ちなみに信頼区間に有意差があろうが、なかろうが、非劣性マージンを下回れれば臨床的に非劣性が示されたことになります。統計的有意と、臨床的非劣性は別物であるという事は重要なポイントです。(信頼区間が1をまたがず、統計的有意でも非劣性マージンを下回っていれば非劣性。)

[スピリーバレスピマットの有効性はスピリーバハンディヘラーと比べてどうなのか]
では有効性についても見ていきます
アウトカム
E
C
ハザード比
95%信頼区間]
COPD増悪
(優越性=信頼区間に1を含まない)
E
2827
47.9%)
2782
48.9%)
1.02
0.961.07
E2
2733
47.9%)
0.98
0.931.03
信頼区間が違いはないという「1」をまたぎ、いずれも優越性は示されませんでした。

[非劣性試験の問題点]

結果をまとめると、スピリーバレスピマットの安全性(死亡リスク)はハンディヘラーに劣るものではなく、有効性が優れているわけでもない。という感じです。安全性、有効性が同等という試験(同一性試験)ではないことに注意が必要です。当然ながらこのような大規模臨床試験ではハイリスク集団を除外していますので、比較的安定したCOPD患者を対象としている点にも注意したいところです。非劣性マージン1.25の妥当性についても難しい問題です。これは僕の理解をこえているのであまり言及しませんが、少なく見積もって死亡リスクが14%、9%増えるという結果が臨床的に許容されるのかどうかというところは気になります。もともとそれほどハイリスク集団ではありませんので、死亡リスクは両群で潜在的に差が出にくい環境で試験を行っています。したがって本来、より厳しい97.5%信頼区間を用いることが望ましいにも関わらず、本試験では95%信頼区間を用いていますのでこのあたりの影響も気になるところです。(非劣性試験ではより基準の厳しい97.5%信頼区間を用いることが多い)サンプルを多くすれば信頼区間の幅は狭くなりますので、非劣勢マージンの範囲内に収めることは症例数を調整することでも可能のような気がします。製薬メーカー主導の臨床試験だけに、有意な差を出さないことを目的としたこの研究がどの程度信頼に足りるものかは熟慮せねばいけないと思います。とりわけ安全性解析においては非劣勢試験一つの結果で非劣勢が示されたとしても、安全性に懸念はないと結論することは早々な気がします。