CalcTune
📐
数学 · 統計

検定力計算

研究に必要なサンプルサイズまたは達成可能な検定力(統計的検出力)を計算します。Cohen's dの効果量、有意水準、目標検出力を入力して、実験計画に役立てましょう。

標準化された平均差

コーエンのd目安:
計算例を表示中 — 上に値を入力してください
結果
64合計N

32 (各群)

0.5
効果量(コーエンのd)
1.9604
z(α)
0.8415
z(β)
Abramowitz & Stegun近似による正規分布ベースの計算です。小標本の場合はt検定による正確な検出力計算をご検討ください。

統計的検出力(検定力)の実践ガイド:サンプルサイズ設計の基礎

統計的検出力(検定力)とは、真の効果が存在する場合に、統計検定がその効果を正しく検出できる確率のことです。形式的には、検出力は1から第2種の過誤(偽の帰無仮説を棄却できない確率)を引いた値に等しくなります。検出力が80%の研究は、実在する効果を見逃す確率が20%あることを意味します。検出力分析は実験計画の基本的なステップであり、データ収集にかかるコストと、結論が出ないリスクとのバランスを取るために欠かせません。

検出力分析の4つの構成要素

検出力分析では4つの量が相互に関連しています。効果量、有意水準(α)、統計的検出力、そしてサンプルサイズです。これら4つのうち3つが決まれば、残りの1つを求めることができます。効果量は、検出したい差や関連性の大きさを表します。有意水準は通常0.05に設定され、帰無仮説を棄却するための閾値を定義します。検出力は一般的に0.80以上を目標とし、効果を検出できる確率です。サンプルサイズは各群に必要な観測数です。

この計算ツールでは、4つの値のうち3つを固定し、残りの1つを求めることができます。最も一般的な使用方法は、期待される効果量・α・目標検出力を指定し、必要なサンプルサイズを算出するケースです。

Cohen's d:効果量の測定

Cohen's dは、平均値の比較において最も広く使用される効果量の指標のひとつです。2群の平均値の差をプールされた標準偏差で割った値として表されます:d = (M1 - M2) / SD_pooled。Jacob Cohenはd値の解釈に関する基準を提案しました。0.2は小さい効果、0.5は中程度の効果、0.8は大きい効果を表します。これらの基準は広く引用されていますが、何が意味のある効果かは分野によって異なるため、慎重に使用する必要があります。

医学研究では、介入が安価で低リスクであれば、小さい効果量でも臨床的に重要な場合があります。教育研究では、中程度の効果がテスト得点の大幅な向上を示す場合もあります。Cohenの基準のみに頼るのではなく、パイロットデータや先行研究から期待される効果量を推定することが推奨されます。

片側検定と両側検定

両側検定はどちらの方向の効果も検出します(処置が有益か有害かの両方を検討)。一方、片側検定は特定の一方向の効果のみを検出します。片側検定は棄却域が分布の片側に集中するため、同じ検出力を得るために必要なサンプルサイズが小さくなります。ただし、片側検定が適切なのは、効果が一方向にのみ現れると予測する強い理論的根拠があり、反対方向の効果が科学的に無関係な場合に限られます。

ほとんどの研究では、より保守的で、効果の方向を事前に指定する必要がない両側検定がデフォルトとして使用されます。

検定の種類:1標本・2標本・対応のある検定

1標本検定は、1つの群の平均値を既知の値や仮説値と比較します。サンプルサイズの公式がそのまま適用されます:n = ((z_α + z_β) / d)²。2標本(独立)検定は2つの別々の群の平均値を比較し、公式は1群あたりの必要数を与えるため、総サンプルサイズは2倍になります。対応のある検定は同じ被験者の2条件下での測定値を比較し、dが対応のある観測値の標準化平均差を表す点で、1標本検定と同じ公式を使用します。

対応のあるデザインは、被験者内変動が被験者間変動よりも通常小さいため、独立デザインよりも検出力が高くなることが多いです。同じ処置効果に対して、より大きな有効効果量が得られるためです。

正規近似について

この計算ツールは検出力計算に正規(z)近似を使用しています。これは計画段階での標準的な方法であり、ほとんどの実用的なシナリオで正確なサンプルサイズを算出できます。AbramowitzとStegunの近似により、正規累積分布関数とその逆関数を高精度で計算しています。非常に小さなサンプルサイズ(おおよそnが30未満)の場合はt分布のほうがより正確な検出力推定値を提供するため、専門的な統計ソフトウェアで結果を確認することを推奨します。

z近似は、厳密なt検定計算と比較して必要サンプルサイズをわずかに過小推定する傾向があるため、この計算ツールの結果は計画目的の合理的な下限値と考えることができます。

実践上の考慮事項

研究を計画する際には、脱落、欠損データ、プロトコル逸脱を見込んで、算出されたサンプルサイズを10〜20%増やすのが一般的です。検出力分析で得られるサンプルサイズは、分析可能な観測の最低数であり、募集すべき参加者数ではありません。

必要なサンプルサイズが現実的に不可能なほど大きい場合、いくつかの対策を検討できます。介入を改良して期待される効果量を大きくする、有意水準を緩和する(ただし第1種の過誤リスクが増加)、より低い検出力を許容する(ただし結果が有意にならないリスクが増加)、あるいは可能であれば対応のある被験者内デザインに変更するなどです。これらのトレードオフは、具体的な研究課題とその実践的な意味合いの中で評価する必要があります。

よくある質問

統計的検出力(検定力)とは何ですか?

統計的検出力とは、真の効果が存在する場合に、統計検定が帰無仮説を正しく棄却できる確率のことです。検出力0.80は、効果が存在する場合に80%の確率で検出できることを意味します。検出力が高いほど第2種の過誤(偽陰性)のリスクが低減しますが、通常はより大きなサンプルサイズが必要になります。

どの程度の効果量を使用すべきですか?

最も良い方法は、パイロットデータや分野の先行研究から期待される効果量を推定することです。先行データがない場合、Cohenの基準が出発点となります:d = 0.2は小さい効果、d = 0.5は中程度の効果、d = 0.8は大きい効果です。ただし、これらは一般的なガイドラインであり、特定の文脈で何が意味のある効果かを反映していない場合があります。

なぜ検出力0.80が一般的な目標値なのですか?

0.80という基準はJacob Cohenが提案したもので、第2種の過誤のリスク(20%)と追加データ収集のコストとの合理的なバランスとされています。一部の分野、特に臨床試験では、実在する治療効果を見逃すことの影響がより深刻なため、より高い検出力(0.90や0.95)が求められる場合があります。

片側検定と両側検定の違いは何ですか?

両側検定は両方向の効果を検出します(処置がより良い場合もより悪い場合も検出)。片側検定は一方向のみを検出します。片側検定は同じ検出力を得るために必要な被験者数が少なくなりますが、反対方向の効果を検出することに関心がないことが前提です。ほとんどの研究では両側検定がデフォルトとして使用されています。

検出力計算における正規近似はどの程度正確ですか?

正規(z)近似はサンプルサイズ計画の標準的な方法であり、中規模から大規模のサンプルサイズでは正確です。期待されるサンプルサイズが非常に小さい場合(おおよそ1群あたり30未満)、厳密なt分布はわずかに異なる結果を示します。z近似は必要サンプルサイズをわずかに過小推定する傾向があるため、計画目的の合理的な下限値と考えることができます。