「何例集める?」に答える:G*Powerではじめる前向き試験のサンプルサイズ計算

JCHO佐賀中部病院 記伊 祥雲

前向き試験で最初に悩むのが「何例集めれば結論が出るのか?」です。症例数が少ないと有意差が出ず解釈が難しくなり、逆に過剰だと参加者負担や研究コストが増えます。私はまず G*Power を使って、最低限の根拠あるサンプルサイズを設定するようにしています[1]。

1) サンプルサイズを決める“4点セット”

基本は以下の4点です。

主要評価項目(Primary outcome):何で差を見るか(VAS、JOA、PROMsなど)

効果量(Effect size):どれくらいの差を想定するか

有意水準α:通常0.05

検出力(Power=1−β):通常0.8(余裕があれば0.9)

この中で最も重要なのが効果量です。理想は先行研究から平均差と標準偏差を引用することですが、適切な先行研究がない場合は、予備的なデータや臨床的に意味のある最小差(MCID)を参考に見積もります。MCIDは統計学的有意差とは独立した概念であり、実際の臨床現場で意味があると判断できる最小の差を指します[2]。効果量が大きいほど必要症例数は少なくなり、小さいほど多くなります[3]。

MCIDと効果量の関係

サンプルサイズ計算では、

「検出したい差」=MCID

と置くのが王道です。

例えば、

・想定差(MCID):VAS 15 mm

・標準偏差(SD):25 mm

とすると、

効果量 d = 15 / 25 = 0.6

となり、この値を G*Power の Effect size d に入力します[1,3]。MCIDを基準に効果量を設定することで、「統計学的に有意」かつ「臨床的にも意味のある差」を検出する設計になります。

2) G*Powerの基本手順(2群比較の例)

「介入群 vs 対照群」で主要評価項目が連続変数の場合を想定します。

・Test family:t tests

・Statistical test:Means: Difference between two independent means (two groups)

・Type of power analysis:A priori(必要症例数を算出)

・Tail(s):多くは two

・Effect size d:先行研究やMCIDから設定

・α err prob:0.05

・Power:0.80

・Allocation ratio:1

たとえば d=0.5(中等度の効果量)、α=0.05、Power=0.80、1:1割付とすると、概ね 各群64例(合計128例) が目安になります[1,3]。前後比較など対応のあるデザインでは “paired t test” を選択し、同じ効果量でも必要数が少なくなることが多い点もポイントです。

3) 実務でのちょっとしたコツ

脱落を見込んで症例数を上乗せ:想定脱落率10%なら必要数÷0.9

主要評価項目は1つに絞る:複数設定すると解釈が難しくなりやすい

・「統計学的有意差」だけでなく、臨床的に意味のある差(MCID)を基準に効果量を考える[2]

・プロトコルや論文には、使用ソフト、検定方法、α、Power、効果量の根拠を明記する

G*Powerは「数式を知らなくても使える」一方で、入力する前提条件の妥当性が結果を大きく左右します。主要評価項目とMCIDを明確にしたうえでサンプルサイズを設定することが、質の高い前向き試験の第一歩になります。

参考文献

  1. Faul F, Erdfelder E, Lang AG, Buchner A. G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behav Res Methods. 2007;39:175–191.
  2. Jaeschke R, Singer J, Guyatt GH. Measurement of health status: Ascertaining the minimal clinically important difference. Control Clin Trials. 1989;10:407–415.
  3. Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Lawrence Erlbaum Associates; 1988.
目次