外れ値の扱いガイドライン

外れ値とは

外れ値 (outlier) とは、データの大多数の値から大きく離れた観測値のことです。

外れ値が生じる原因は主に2種類あります。

外れ値を発見したとき、まず「なぜその値が外れているのか」を調査することが最も重要です。原因が不明なまま除外することは、研究の信頼性を損なう可能性があります。

外れ値の検出

視覚的な確認(推奨)

統計的な検定の前に、グラフで目視確認することを推奨します。

IQR(四分位範囲)法

箱ひげ図で使われる基準です。

基礎統計 アプリの箱ひげ図でリアルタイムに確認できます。

Smirnov-Grubbs 検定

正規分布を仮定したデータセットにおいて、最も離れた値が統計的に外れ値かどうかを検定します。

外れ値への対処法

外れ値を発見した後の対処法は、その原因と分析目的に応じて選択してください。

1. 原因を調査して除外する

測定・入力エラーと確認できた場合は、除外(または訂正)が正当化されます。

2. 変数変換で影響を軽減する

真の極端値だが分布の歪みが大きい場合、変換によって外れ値の相対的な影響を抑えられます。

変数変換 機能を参照してください。

3. ノンパラメトリック検定を使用する

外れ値を除外せず、その影響に頑健な手法を選択する方法です。

パラメトリック検定とノンパラメトリック検定 も参照してください。

4. 感度分析を実施する

外れ値を含む場合と除外した場合の両方で解析を実施し、結果の頑健性を確認する方法です。

してはいけないこと

外れ値の除外は、分析者の恣意的な操作になりやすい場面のひとつです。以下の点に注意してください。

回帰分析における外れ値

回帰分析では、外れ値の中でも「影響力点」(leverage point)に注意が必要です。

各アプリでの外れ値の扱い

アプリごとに外れ値の検出・対処機能が異なります。

基礎統計

外れ値確認のための最も充実したアプリです。

箱ひげ図チャート

データ点の表示モードを3段階から選択できます。

ひげの幅も調整可能です。

散布図チャート

回帰直線の種類としてロバスト回帰を選択できます。外れ値が多いデータでも影響を受けにくい直線を描画します。

群間検定(対応なし・対応あり)

外れ値の検出機能は基礎統計と共通です(IQR法 + Smirnov-Grubbs 検定)。

外れ値が存在する場合の検定方法として以下が選択可能です。

Table One

ノンパラメトリック変数の代表値として 中央値 (IQR) の表示に対応しています。外れ値の影響を受けにくい要約統計量として利用できます(範囲 or IQR を選択可能)。

外れ値の自動検出機能はありません。

多変量解析(重回帰・ロジスティック回帰など)

Cook's 距離による影響力点の検出を自動で実施します。

多次元尺度法(MDS)

距離計算の前処理としてロバスト標準化オプションがあります。外れ値の影響を受けにくい中央値・IQR ベースの標準化を適用します。

傾向スコア解析(IPTW)

傾向スコアのモデル式として PS + コーシット回帰を選択できます。コーシー分布の裾の重さを利用して外れ値に対する頑健性を確保します。

線形混合効果モデル(LMM)

LMM はデータが正規分布に近いことを前提とします。外れ値が多い場合は、事前に外れ値を確認・除外するか、ノンパラメトリック手法を検討してください。

Cox 比例ハザード回帰

クラスター変数を指定するとロバスト標準誤差(`robust = TRUE`)が自動的に有効になります。これにより、クラスター内の相関や外れ値的な個体の影響が標準誤差に反映されます。

対処法の選び方(フローチャート)

外れ値を発見
    │
    ▼
原因は判明しているか?
    ├─ Yes(測定・入力エラー)→ 訂正または除外し、理由を記録
    │
    └─ No(原因不明 or 真の極端値)
           │
           ▼
        目的は何か?
           ├─ 分布の記述・比較 → ノンパラメトリック手法を選択
           │
           ├─ 回帰・予測       → 変数変換 or 影響力の確認
           │
           └─ どちらも         → 感度分析(含む・除くで両方報告)

シミュレーターで体験する

散布図上の点をドラッグしたり外れ値を追加したりすることで、外れ値が相関係数や回帰直線にどれほど大きな影響を与えるかをインタラクティブに体験できます。

相関係数・直線回帰プレイグラウンドで外れ値の影響を体験する

関連ページ