このページは作成途中です。

記述統計と推論統計

  • 記述統計 (Descriptive Statistics) とは
    • 定義:データを要約し、説明する統計の一形式です。
    • 目的:データセット(特に、サンプル (Sample))の主要な特性やパターンを把握し、視覚的かつ数値的にデータを理解しやすくすることです。
  • 推論統計 (Inferential Statistics) とは
    • 定義:サンプルデータから母集団の特性を推測または予測する統計の形式です。
    • 目的:サンプル (Sample) から得られた情報をもとに、母集団 (Population) の未知の特性やパラメータについての主張や予測を行うことです。

記述統計は、データを理解し、それに基づいて正確な解析を行うための基盤を提供します。 それに対して、推論統計は、サンプルのデータを使用して母集団全体に関する予測や一般化を行います。

すなわち、推論統計は直接のデータを超えた結論を推論しようと試みる点で、記述統計とは異なります。 これを達成するために、推論統計ではt検定分散分析などの仮説検定が使用されます。

データを収集した後、最初に行うべきことは、データをグラフ化し、平均を計算し、データの分布の概要を把握することです。 これが記述統計のタスクです。

記述統計の目的は、データセットの分布の概要を把握することです。 記述統計は、データセットを説明し、イラスト化するのに役立ちます。

ここで重要なのは、それぞれのサンプルの特性のみが説明され、評価されることです。 他の時点での状況や母集団についての結論は導かれません。 これらは推論統計の役割です。

記述統計には様々な種類がありますが、質問や測定法などに応じて、異なる主要な数字、表、およびグラフィックスが評価に使用されます。

多く利用されているものは、

  • 位置パラメータ: 平均値、中央値、最頻値、合計
    • データセットの中心傾向を表現するために使用されます。すなわち、サンプルの中心がどこに位置しているか、またはサンプルの大部分がどこに位置しているかを説明します。
  • 分散パラメータ: 標準偏差、分散、範囲
    • これらは分散の尺度です。サンプル内の変数の値が互いにどれほど異なるかに関する情報を提供します。変数の値が平均値からどれほど強く逸脱しているかを記述します。
  • 表: 絶対、相対、累積頻度
  • チャート: ヒストグラム、棒グラフ、ボックスプロット、散布図、行列プロット

データを正確に伝えるためには、データのタイプ (連続変数かカテゴリカル変数か) に合った方法を選ぶ必要があります。 具体的には、連続変数 (例: 身長や体重など、数値として連続したデータ) には平均値や中央値などが役立ち、カテゴリカル変数 (例: 性別や血液型など、カテゴリーで分けられるデータ) には頻度や割合が便利です。

「基礎統計」のページから、記述統計データを確認することができます。

アヤメの花のサンプルデータにて記述統計の具体例を確認できます

推論統計は、限られたデータから全体の状況を推測するための統計的方法です。 完全なデータセット (母集団) のデータを手に入れることは大抵不可能なので、より小さいデータセット (サンプル) を使って分析を行います。 このサンプルに基づいて、推論統計を用いることで、全体についての合理的な結論や予測を立てることができます。

たとえば、カナダの全国民の中から1,000人を選んでデータを収集し、その情報から国全体の傾向を推測することがこれに該当します。

母集団についての主張や問いに応じて、異なる統計手法や仮説検定が使用されます。 グループ間の違いを検証するためのものとしては、t検定やカイ二乗検定、分散分析などがよく知られています。 また、変数間の相関をテストするためには、相関分析や回帰分析などの手法があります。

Reactive stat のオンライン統計アプリを使えば、これらの推論統計のテストをブラウザ上で直接、簡単に計算することが可能です。

単純検定手法

  • t検定
  • 二項検定
  • カイ二乗検定
  • マン・ホイットニーU検定
  • ウィルコクソン検定
  • ...

回帰分析

  • 単純線形回帰
  • 重回帰分析
  • ロジスティック回帰
  • ...

相関分析

  • ピアソンの積率相関係数
  • スピアマンの順位相関係数
  • ...

ANOVA(分散分析)

  • 一要因分散分析
  • 二要因分散分析
  • 測定の繰り返しによるANOVA
  • ...

例として、ある治療法で治療を受けた患者10人のサンプルを取り、このサンプルについてのデータを収集するのが記述統計のタスクです。 しかし、全患者についての主張をする場合、推論統計が必要となります。 たとえば、特定の治療法が一般的な治療よりも効果があるかどうかを調べるために、t検定を使ってサンプルの平均的な回復率と全体の平均的な回復率を比較することができます。

さらに、この治療法が他の治療法よりも優れているかどうかという疑問が生じるかもしれません。 この場合、他の治療法を受けた患者サンプルを抽出し、独立したt検定を使用して、両方の治療法の患者の平均回復率を比較します。 これにより、たとえば、この治療法が他の治療法よりも全体的に効果があるかどうかを判断できます。

しかし、この結論はサンプルに基づいているため、このサンプルでの治療効果が高かったのが偶然である可能性もあり、その主張は一定の確率でしか確認または再提示されることはありません。