外れ値 (outlier) とは、データの大多数の値から大きく離れた観測値のことです。
外れ値が生じる原因は主に2種類あります。
統計的な検定の前に、グラフで目視確認することを推奨します。
箱ひげ図で使われる基準です。
基礎統計 アプリの箱ひげ図でリアルタイムに確認できます。
正規分布を仮定したデータセットにおいて、最も離れた値が統計的に外れ値かどうかを検定します。
外れ値を発見した後の対処法は、その原因と分析目的に応じて選択してください。
測定・入力エラーと確認できた場合は、除外(または訂正)が正当化されます。
真の極端値だが分布の歪みが大きい場合、変換によって外れ値の相対的な影響を抑えられます。
→ 変数変換 機能を参照してください。
外れ値を除外せず、その影響に頑健な手法を選択する方法です。
→ パラメトリック検定とノンパラメトリック検定 も参照してください。
外れ値を含む場合と除外した場合の両方で解析を実施し、結果の頑健性を確認する方法です。
外れ値の除外は、分析者の恣意的な操作になりやすい場面のひとつです。以下の点に注意してください。
回帰分析では、外れ値の中でも「影響力点」(leverage point)に注意が必要です。
アプリごとに外れ値の検出・対処機能が異なります。
外れ値確認のための最も充実したアプリです。
データ点の表示モードを3段階から選択できます。
ひげの幅も調整可能です。
回帰直線の種類としてロバスト回帰を選択できます。外れ値が多いデータでも影響を受けにくい直線を描画します。
外れ値の検出機能は基礎統計と共通です(IQR法 + Smirnov-Grubbs 検定)。
外れ値が存在する場合の検定方法として以下が選択可能です。
ノンパラメトリック変数の代表値として 中央値 (IQR) の表示に対応しています。外れ値の影響を受けにくい要約統計量として利用できます(範囲 or IQR を選択可能)。
外れ値の自動検出機能はありません。
Cook's 距離による影響力点の検出を自動で実施します。
距離計算の前処理としてロバスト標準化オプションがあります。外れ値の影響を受けにくい中央値・IQR ベースの標準化を適用します。
傾向スコアのモデル式として PS + コーシット回帰を選択できます。コーシー分布の裾の重さを利用して外れ値に対する頑健性を確保します。
LMM はデータが正規分布に近いことを前提とします。外れ値が多い場合は、事前に外れ値を確認・除外するか、ノンパラメトリック手法を検討してください。
クラスター変数を指定するとロバスト標準誤差(`robust = TRUE`)が自動的に有効になります。これにより、クラスター内の相関や外れ値的な個体の影響が標準誤差に反映されます。
外れ値を発見
│
▼
原因は判明しているか?
├─ Yes(測定・入力エラー)→ 訂正または除外し、理由を記録
│
└─ No(原因不明 or 真の極端値)
│
▼
目的は何か?
├─ 分布の記述・比較 → ノンパラメトリック手法を選択
│
├─ 回帰・予測 → 変数変換 or 影響力の確認
│
└─ どちらも → 感度分析(含む・除くで両方報告)
散布図上の点をドラッグしたり外れ値を追加したりすることで、外れ値が相関係数や回帰直線にどれほど大きな影響を与えるかをインタラクティブに体験できます。