Blogger版　地域医療の見え方: 非劣性試験について～TIOSPIR試験再考～

近年、医薬品の新規開発は目覚ましく発展し、今やプラセボ対照のランダム化比較試験が倫理的に行うことが難しくなる中で、既存の薬剤と比べて、その臨床効果に差がないかどうかを検討するという試験デザインが多くなってきました。しかしながら、差があるとこを示すより、差が無いことを示す方が難しいと言います。膨大なサンプルを集めて、それでも有意差がないことを示すのは現実問題不可能です。通常の臨床試験のサンプル規模では大規模試験でさえも、有意差なし＝同等と言うわけではありませんし、既存の薬に比べて差が無いという事を示すにはどうすれば良いのか。その問題を解決するためにデザインされるのが非劣勢試験や同等性試験です。近年、新規抗凝固薬や経口糖尿病薬の臨床試験で目にすることも多い、非劣性試験。少しまとめてみたいと思います。ややあやふやな点もあると思いますが、間違え等ございましたらご指摘いただけますと幸いです。

［非劣性試験と同等性試験］

通常のプラセボ比較ランダム化比較試験は、プラセボと効果に差がない、という差なし仮説が非常にまれであるという事を示して（統計的有意）差があるとしますが、研究によってはその目的が、ある介入よりも劣らない、という事を示す非劣性試験、あるいは、効果が同等であることを示す、同等性試験があります。

非劣性試験と同等性試験は混同されやすいですが、（僕自身も最近まで、意識して区別できていませんでした）非劣性試験とは「ある治療が、他の治療よりも明らかに劣ることがない」という事を示すために行われる試験で、同等性試験とは「ある治療が、他の治療と同等である」ということを示すために行われるものです。こう書いてもやっぱりその違いが良くわからんと言う感じですが、介入効果の信頼区間の許容範囲が異なります。

非劣性試験	介入間の違いの95％信頼区間が、臨床的に劣ると事前に定義された基準値を下回るかどうかに基づいて判断。劣っていないことのみ焦点を当てる片側性
同等性試験	2つの介入の違いの95％信頼区間が、臨床的に同等であると事前に定めた基準内に収まっているかで判断。信頼区間が臨床的に意味のある区間内に全て収まっていることに焦点を当てる両側性

臨床的に劣ると事前に定義された基準値を非劣性マージン、臨床的に同等と定義された基準値を同等性マージンといい、それぞれ論文中に示されるのが普通です。

対照治療に比べて優れているかどうか（優越性があるかどうか）はどうでもいい、と言うのが非劣性試験、同等性試験の基本的な考え方です。

［スピリーバレスピマットの安全性はスピリーバハンディへラーの安全性に劣るものではない］

スピリーバレスピマットに関しては以前このブログでも取り上げていますが、今回はレスピマットとハンディへラーを比較して安全性解析を行ったTIOSPIR試験を振り返りながら非劣性試験についてまとめていきたいと思います。

（参考）チオトロピウム（スピリーバ®）レスピマットの安全性

Tiotropium Respimat Inhaler and the Risk of Death in COPD

N Engl J Med.2013 Oct 17;369(16):1491-501PMID:23992515

試験デザイン：Respir Res.2013 Apr 2;14:40. doi: 10.1186/1465-9921-14-40. PMID:23547660

まずは論文のPECOから確認します。

[Patient]	４０歳以上の慢性閉塞性肺疾患を有する17315人（平均65歳、男性71.5％、現在喫煙者38.1%）
[Exposure①]	スピリーバレスピマット2.5μg　5730人
[Exposure②]	スピリーバレスピマット5μg　5711人
[Comparison]	スピリーバハンディヘラー18μg　5694人
［Outcome］	死亡（非劣性検討）、COPD増悪初発（優越性検討）

試験デザインは2重盲検ランダム化比較試験で、安全性検討は非劣性、有効性検討は優越性、追跡期間は平均2.3年の試験です。必要症例数は16800人と計算され、本試験では症例集は十分です。死亡のアウトカムは修正ITT解析（厳密なITT解析ではなく一種のPer protocol解析）が行われています。

［非劣性試験では必ずしもITT解析が有用ではない］

ITT解析とはIntention-to-treat解析の頭文字をとったものですが、一度特定の群に割り付けたら、実際の治療が行われなくても、あるいは他方の群の治療を受けたとしても、最初に割り付けた群のままで統計解析を行い、最初に意図したとおりの群のまま解析するという事です。一方Per protocol解析は実際に治療を受けた人のみ解析対象にする手法です。

試験から脱落してしまって、薬を飲まなくなってしまった人を、薬物治療群とするか、プラセボ群とするか、どちらの治療群として扱うべきかという問題が起こった時に、最初に割り付けた治療群のままで解析をしましょうというのがITT解析です。最初に割り付けたグループと異なるグループとして解析してしまうと、せっかくランダム化により患者背景を偏りなくそろえたのに、それを保持することが難しくなってしまうことがあるのです。すなわちITT解析はランダム化を保持する目的で行います。

ITT解析はランダム化を保持する、と言う意味で有用な解析方法ですが、一般的にはもう一つ利点があるとされています。試験からの脱落は、何らかの理由があって発生します。副作用がきつい、とか介入治療にともなう精神的苦痛など研究プロセスへの不満なども影響してきます。試験終了まで元の群にとどまったとしてもアドヒアランスはかなり低下しているかもしれません。割り付け重視のITT解析を用いることで、実臨床に近いアドヒアランスを再現することができます。これにより、治療効果の過大解釈を防ぐ（有意差が出にくくなる）ことができます。したがってITT解析を行うと差なし仮説の側に片寄りやすくなります。そのため非劣性という結果に陥りやすくなるため、非劣性試験では修正ITT解析などPer protocol解析に近い手法で統計解析されることが多いです。本来はITTとPer protocolの両方で解析されることが望ましいとされています。

［スピリーバレスピマットの安全性はハンディヘラーと比べてどうなのか］

では論文にもどって結果を見てみましょう。事前に定義された非劣性マージンは1.25です。

アウトカム	E群		C群	ハザード比［95％信頼区間］
死亡（非劣性マージン1.25）	E１	440人（7.7％）	439人（7.7％）	1.00 ［0.87～1.14］
死亡（非劣性マージン1.25）	E2	423人（7.4％）	439人（7.7％）	0.95 ［0.84～1.09］

結果の95％信頼区間上限に注目です。E1のレスピマット2.5μgでは「～1.14」、E2のレスピマット5μgでは「～1.09」となっており、いずれも非劣性マージンの1.25を下回っています。もともとハンディヘラーで死亡リスクが増えないことが前提ではありますが、スピリーバレスピマットはハンディヘラーに比べて死亡リスクは劣っていない（増加しない）という非劣性が証明されたという結果になっています。ちなみに信頼区間に有意差があろうが、なかろうが、非劣性マージンを下回れれば臨床的に非劣性が示されたことになります。統計的有意と、臨床的非劣性は別物であるという事は重要なポイントです。（信頼区間が1をまたがず、統計的有意でも非劣性マージンを下回っていれば非劣性。）

［スピリーバレスピマットの有効性はスピリーバハンディヘラーと比べてどうなのか］

では有効性についても見ていきます

アウトカム	E群		C群	ハザード比［95％信頼区間］
COPD増悪（優越性＝信頼区間に１を含まない）	E１	2827人（47.9％）	2782人（48.9％）	1.02 ［0.96～1.07］
COPD増悪（優越性＝信頼区間に１を含まない）	E2	2733人（47.9％）	2782人（48.9％）	0.98 ［0.93～1.03］

信頼区間が違いはないという「１」をまたぎ、いずれも優越性は示されませんでした。

［非劣性試験の問題点］

結果をまとめると、スピリーバレスピマットの安全性（死亡リスク）はハンディヘラーに劣るものではなく、有効性が優れているわけでもない。という感じです。安全性、有効性が同等という試験（同一性試験）ではないことに注意が必要です。当然ながらこのような大規模臨床試験ではハイリスク集団を除外していますので、比較的安定したCOPD患者を対象としている点にも注意したいところです。非劣性マージン1.25の妥当性についても難しい問題です。これは僕の理解をこえているのであまり言及しませんが、少なく見積もって死亡リスクが14％、9％増えるという結果が臨床的に許容されるのかどうかというところは気になります。もともとそれほどハイリスク集団ではありませんので、死亡リスクは両群で潜在的に差が出にくい環境で試験を行っています。したがって本来、より厳しい97.5％信頼区間を用いることが望ましいにも関わらず、本試験では95％信頼区間を用いていますのでこのあたりの影響も気になるところです。（非劣性試験ではより基準の厳しい97.5％信頼区間を用いることが多い）サンプルを多くすれば信頼区間の幅は狭くなりますので、非劣勢マージンの範囲内に収めることは症例数を調整することでも可能のような気がします。製薬メーカー主導の臨床試験だけに、有意な差を出さないことを目的としたこの研究がどの程度信頼に足りるものかは熟慮せねばいけないと思います。とりわけ安全性解析においては非劣勢試験一つの結果で非劣勢が示されたとしても、安全性に懸念はないと結論することは早々な気がします。

Blogger版　地域医療の見え方

［お知らせ］

2014年2月3日月曜日

非劣性試験について～TIOSPIR試験再考～

0 件のコメント:

コメントを投稿

リンク