効果量

統計的検定は、標本データから母集団の特性を推定するために使われる手法です。平均値の差などの統計的な差を判断する際、p値という概念が中心となります。 p値が小さいほど、帰無仮説（差がないという仮説）を棄却し、統計的に有意な差があると判断されます。通常、有意水準は5%と設定され、p < .05 が統計的に有意と見なされることが多いです。

しかし、p値はサンプルサイズに依存するため、大きな標本では些細な差でも統計的に有意になりやすいという問題があります。これはサンプルサイズが小さい場合には有意とされない差が、サンプルサイズを増やすことで有意とされる場合があることを意味します。例えば、平均値の差が実際には大きくないにも関わらず、大きな標本でp値が小さくなることは、統計的に有意だと誤って判断されるリスクを高めます。

このようなp値の限界を補うために、効果量という指標が用いられます。 効果量は、標本サイズの影響を受けにくい標準化された指標で、実際の差の大きさを示します。 効果量は、統計的検定の結果とともに考慮されるべきであり、研究結果の真の意味を理解する上で重要です。例えば、Cohen's d は2つのグループ間の平均値の差を標準偏差で割ったもので、この効果量により、平均値の差が実際にどれだけ意味があるのかを判断することができます。

結論として、統計的検定のp値と効果量はそれぞれ異なる情報を提供します。 p値が低いことは、統計的に有意な差があることを示しますが、それが実際にどれほどの差かは示しません。一方で、効果量は差の大きさを示し、サンプルサイズに左右されないため、研究の実質的な意味を解釈する上で有用です。したがって、統計的検定の結果を報告する際には、p値だけでなく効果量も併せて報告し、両者を総合的に考慮することが重要です。

効果量には、研究デザインや使用する統計手法によって異なる様々な指標があります。以下は代表的な効果量の種類とその解釈です (水本篤・竹内理 (2008) p.62)

これらの効果量の解釈は、Cohen（1988）によって提案された基準に基づいていますが、研究分野や研究の性質によって異なる場合があります。効果量の解釈には注意が必要であり、研究の文脈に応じて慎重に行うべきです。

効果量の重要性が認知されて久しいですが、すべての統計ソフトウェアで効果量の算出がわかりやすく準備されているというわけではありません。

論文を投稿したあとに、レビューワーから効果量の記載を求められた場合に備えて統計ソフトウェアを選定する必要があります。

Reactive statにおいては、できるだけ統計検定ごとに効果量を出力できるようにしており、AIによるRの出力の解説においても効果量に言及するようにしています。

近年では、研究論文を執筆する際、統計的検定の結果を報告する際には、p値だけでなく効果量も併せて報告することが推奨されています。

米国心理学会（American Psychological Association, APA）では、研究論文の書き方に関するスタンダードを提供しており、統計的な意義を示すためにはp値だけでなく効果量も記載するよう推奨しています。

日本心理学会においても、論文投稿の際に検定結果の報告について、検定統計量の値、自由度、p値、効果量及び効果の方向を記述することが求められています。
「検定結果については，t，F，χ2などの検定統計量の値，自由度，p値，および効果量と効果の方向を記述する。」 (執筆・投稿の手びき 3.5.3 統計記号，その他)

医学領域においても、効果量報告の重要性は徐々に認識されつつあります。例えば、以下のような論文で医学研究における効果量の活用について議論されています

Nakagawa, S., & Cuthill, I. C. (2007). Effect size, confidence interval and statistical significance: a practical guide for biologists. Biological reviews, 82(4), 591-605. (PubMed)
Sullivan, G. M., & Feinn, R. (2012). Using effect size—or why the P value is not enough. Journal of graduate medical education, 4(3), 279-282.(PDF)

これらの論文では、p値だけでなく効果量を報告することの重要性が述べられており、効果量の解釈方法や注意点についても言及されています。

また、 International Committee of Medical Journal Editors(国際医学雑誌編集者委員会) が、 Preparing a Manuscript for Submission to a Medical Journal の d. Methods iii. Statistics にて
“Avoid relying solely on statistical hypothesis testing, such as P values, which fail to convey important information about effect size and precision of estimates.”
(効果の大きさや推定値の精度に関する重要な情報を伝えることができない P 値などの統計的仮説検定のみに依存することは避けてください。)
としています。

論文執筆においては、効果量を報告することで、研究結果の実質的な意味をより明確に伝えることができ、研究の再現性や他の研究との比較可能性が高まります。おそらく採択される可能性も高くなります。

効果量は、統計的検定のp値とは異なる情報を提供する重要な指標です。 p値は統計的な有意性を示しますが、効果の大きさを直接表すものではありません。一方、効果量は標準化された指標であり、サンプルサイズに影響されにくいため、研究結果の実質的な意味を解釈する上で有用です。

統計的検定を行う際には、p値だけでなく効果量も算出し、両者を総合的に考慮することが重要です。多くの統計ソフトウェアでは効果量の算出機能が用意されており、研究論文の執筆においても効果量の報告が推奨されています。

効果量を適切に理解し、活用することで、研究結果の正しい解釈と伝達が可能となります。今後、様々な研究分野において効果量の報告がさらに浸透していくことが期待されます。

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates. (PDF)
水本篤・竹内理 (2008). 「研究論文における効果量の報告のために―基礎的概念と注意点―」『関西英語教育学会紀要英語教育研究』 31, 57–66. (PDF)
American Psychological Association. (2020). Publication manual of the American Psychological Association (7th ed.). (|Web page)
日本心理学会執筆・投稿の手びき (Web page)
Nakagawa, S., & Cuthill, I. C. (2007). Effect size, confidence interval and statistical significance: a practical guide for biologists. Biological reviews, 82(4), 591-605. (PubMed)
Sullivan, G. M., & Feinn, R. (2012). Using effect size—or why the P value is not enough. Journal of graduate medical education, 4(3), 279-282.(PDF)
International Committee of Medical Journal Editors. (n.d.). Preparing for Submission. (Web page)

名義変数の解析

連続変数の解析

統計的モデリング

クラスタ分析

生存期間の解析

検査の正確度

傾向スコアによる解析

比率(割合)のサンプルサイズ

平均値のサンプルサイズ

生存時間のサンプルサイズ

効果量

統計的検定における効果量の重要性

効果量の種類と解釈

統計ソフトウェアにおける効果量の扱い

論文執筆における効果量の報告の必要性

まとめ

参考文献