「何例集める？」に答える：G*Powerではじめる前向き試験のサンプルサイズ計算

JCHO佐賀中部病院記伊　祥雲

前向き試験で最初に悩むのが「何例集めれば結論が出るのか？」です。症例数が少ないと有意差が出ず解釈が難しくなり、逆に過剰だと参加者負担や研究コストが増えます。私はまず G*Power を使って、最低限の根拠あるサンプルサイズを設定するようにしています［1］。

1) サンプルサイズを決める“4点セット”

基本は以下の4点です。

・主要評価項目（Primary outcome）：何で差を見るか（VAS、JOA、PROMsなど）

・効果量（Effect size）：どれくらいの差を想定するか

・有意水準α：通常0.05

・検出力（Power＝1−β）：通常0.8（余裕があれば0.9）

この中で最も重要なのが効果量です。理想は先行研究から平均差と標準偏差を引用することですが、適切な先行研究がない場合は、予備的なデータや臨床的に意味のある最小差（MCID）を参考に見積もります。MCIDは統計学的有意差とは独立した概念であり、実際の臨床現場で意味があると判断できる最小の差を指します［2］。効果量が大きいほど必要症例数は少なくなり、小さいほど多くなります［3］。

MCIDと効果量の関係

サンプルサイズ計算では、

「検出したい差」＝MCID

と置くのが王道です。

例えば、

・想定差（MCID）：VAS 15 mm

・標準偏差（SD）：25 mm

とすると、

効果量 d ＝ 15 / 25 ＝ 0.6

となり、この値を G*Power の Effect size d に入力します［1,3］。MCIDを基準に効果量を設定することで、「統計学的に有意」かつ「臨床的にも意味のある差」を検出する設計になります。

2) G*Powerの基本手順（2群比較の例）

「介入群 vs 対照群」で主要評価項目が連続変数の場合を想定します。

・Test family：t tests

・Statistical test：Means: Difference between two independent means (two groups)

・Type of power analysis：A priori（必要症例数を算出）

・Tail(s)：多くは two

・Effect size d：先行研究やMCIDから設定

・α err prob：0.05

・Power：0.80

・Allocation ratio：1

たとえば d＝0.5（中等度の効果量）、α＝0.05、Power＝0.80、1:1割付とすると、概ね 各群64例（合計128例） が目安になります［1,3］。前後比較など対応のあるデザインでは “paired t test” を選択し、同じ効果量でも必要数が少なくなることが多い点もポイントです。

3) 実務でのちょっとしたコツ

・脱落を見込んで症例数を上乗せ：想定脱落率10%なら必要数÷0.9

・主要評価項目は1つに絞る：複数設定すると解釈が難しくなりやすい

・「統計学的有意差」だけでなく、臨床的に意味のある差（MCID）を基準に効果量を考える［2］

・プロトコルや論文には、使用ソフト、検定方法、α、Power、効果量の根拠を明記する

G*Powerは「数式を知らなくても使える」一方で、入力する前提条件の妥当性が結果を大きく左右します。主要評価項目とMCIDを明確にしたうえでサンプルサイズを設定することが、質の高い前向き試験の第一歩になります。

参考文献

Faul F, Erdfelder E, Lang AG, Buchner A. G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behav Res Methods. 2007;39:175–191.
Jaeschke R, Singer J, Guyatt GH. Measurement of health status: Ascertaining the minimal clinically important difference. Control Clin Trials. 1989;10:407–415.
Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Lawrence Erlbaum Associates; 1988.