前向き試験で最初に悩むのが「何例集めれば結論が出るのか?」です。症例数が少ないと有意差が出ず解釈が難しくなり、逆に過剰だと参加者負担や研究コストが増えます。私はまず G*Power を使って、最低限の根拠あるサンプルサイズを設定するようにしています[1]。
1) サンプルサイズを決める“4点セット”
基本は以下の4点です。
・主要評価項目(Primary outcome):何で差を見るか(VAS、JOA、PROMsなど)
・効果量(Effect size):どれくらいの差を想定するか
・有意水準α:通常0.05
・検出力(Power=1−β):通常0.8(余裕があれば0.9)
この中で最も重要なのが効果量です。理想は先行研究から平均差と標準偏差を引用することですが、適切な先行研究がない場合は、予備的なデータや臨床的に意味のある最小差(MCID)を参考に見積もります。MCIDは統計学的有意差とは独立した概念であり、実際の臨床現場で意味があると判断できる最小の差を指します[2]。効果量が大きいほど必要症例数は少なくなり、小さいほど多くなります[3]。
MCIDと効果量の関係
サンプルサイズ計算では、
「検出したい差」=MCID
と置くのが王道です。
例えば、
・想定差(MCID):VAS 15 mm
・標準偏差(SD):25 mm
とすると、
効果量 d = 15 / 25 = 0.6
となり、この値を G*Power の Effect size d に入力します[1,3]。MCIDを基準に効果量を設定することで、「統計学的に有意」かつ「臨床的にも意味のある差」を検出する設計になります。
2) G*Powerの基本手順(2群比較の例)
「介入群 vs 対照群」で主要評価項目が連続変数の場合を想定します。
・Test family:t tests
・Statistical test:Means: Difference between two independent means (two groups)
・Type of power analysis:A priori(必要症例数を算出)
・Tail(s):多くは two
・Effect size d:先行研究やMCIDから設定
・α err prob:0.05
・Power:0.80
・Allocation ratio:1
たとえば d=0.5(中等度の効果量)、α=0.05、Power=0.80、1:1割付とすると、概ね 各群64例(合計128例) が目安になります[1,3]。前後比較など対応のあるデザインでは “paired t test” を選択し、同じ効果量でも必要数が少なくなることが多い点もポイントです。
3) 実務でのちょっとしたコツ
・脱落を見込んで症例数を上乗せ:想定脱落率10%なら必要数÷0.9
・主要評価項目は1つに絞る:複数設定すると解釈が難しくなりやすい
・「統計学的有意差」だけでなく、臨床的に意味のある差(MCID)を基準に効果量を考える[2]
・プロトコルや論文には、使用ソフト、検定方法、α、Power、効果量の根拠を明記する
G*Powerは「数式を知らなくても使える」一方で、入力する前提条件の妥当性が結果を大きく左右します。主要評価項目とMCIDを明確にしたうえでサンプルサイズを設定することが、質の高い前向き試験の第一歩になります。
参考文献
- Faul F, Erdfelder E, Lang AG, Buchner A. G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behav Res Methods. 2007;39:175–191.
- Jaeschke R, Singer J, Guyatt GH. Measurement of health status: Ascertaining the minimal clinically important difference. Control Clin Trials. 1989;10:407–415.
- Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Lawrence Erlbaum Associates; 1988.

