平均値・中央値、標準偏差・分散、etc...

位置パラメータは、データの分布がどのように集中しているか、またはその「中心」がどこにあるかを示す指標です。これらはデータの要約や説明に使われ、例えば「大学XYのスポーツ学生の平均学習期間は11.1セメスター」という情報を提供することができます。

平均値は、数値データの合計を観測値の数で割ることによって計算されます。この尺度は、データポイントの集まりから一つの代表値を提供します。

  • 定義: 算術平均(arithmetic mean)は、すべての観測値の合計をその数nで割ったものです。

算術平均には、幾何平均(geometric mean)や二乗平均(RMS、Root Mean Square)といった他の形式もありますが、これらは特定の状況下でのみ使用されます。

中央値は、データの値をサイズ順に並べた場合の中央の値です。この尺度はデータセットの中間値を示し、データを二つの等しい部分に分割します。

  • 定義: 順序付けられたデータセットでは、中央値(median)は中央に位置する値、または中央の二つの値の平均です。

最頻値は、データセットで最も頻繁に発生する値です。この尺度はデータの最も一般的な出現を反映しています。

  • 定義: 最頻値(mode)は、データセット内で最も頻繁に観測される値です。

これらの尺度にはそれぞれ長所と短所があり、使用する状況によって最も適切な尺度が異なります。

  • 平均値:
    • 長所: すべてのデータポイントを考慮に入れ、データセットの総合的な情報を提供します。
    • 短所: 外れ値の影響を大きく受け、データの歪みの原因となることがあります。
  • 中央値:
    • 長所: 外れ値の影響を受けにくく、データの真の中心をより正確に反映することがあります。
    • 短所: データセットの全体像は示さず、データポイントの分布情報を提供しません。
  • 最頻値:
    • 長所: データセット内で最も一般的な値を識別します。
    • 短所: 他の多くの異なるデータポイントについての情報を提供しません。
    • 注意: 連続変数においては、同じ値が出現することはないので、ヒストグラムのピークの値とするのが一般的です。

データの性質と分析の目的に応じて、これらの尺度の一つまたは複数を選択することがあります。

散布パラメータは、データセット内の値がどの程度広がっているか、または変動しているかを示す統計的尺度です。これには標準偏差 (standard deviation)、分散 (variance)、範囲 (range) などが含まれます。

  • 標準偏差 (Standard Deviation):データの平均値 (mean) からの偏差の平均量を示します。これは、データセット内の値が平均からどの程度離れて分布しているかを測定するのに使用されます。
  • 分散 (Variance):データの平均値からの偏差の平方の平均を示します。これは、データの散らばり具合をより詳細に理解するためのものですが、単位が元のデータと異なるため、解釈が複雑になることがあります。

両者は密接に関連しており、分散は標準偏差の二乗、標準偏差は分散の平方根として計算されます。

  • 範囲 (Range):データセット内の最大値と最小値の差です。これにより、データが取りうる全体的な広がりが示されます。
  • 四分位数 (Quartiles):データセットを4つの等しい部分に分割する点を指します。それぞれの点は、データセットの特定の百分位に対応しています。
  • 四分位範囲 (Interquartile Range, IQR):第一四分位数(Q1)と第三四分位数(Q3)の間の範囲で、データセットの中央50%をカバーします。