外れ値の扱いガイドライン
外れ値とは
外れ値 (outlier) とは、データの大多数の値から大きく離れた観測値のことです。
外れ値が生じる原因は主に2種類あります。
- 測定・入力エラー: 計測機器の誤作動、入力ミス、データの転記誤りなど。真のデータを反映していない「ゴミ」である可能性が高い。
- 真の極端値: 正しく測定された値であり、その現象の真の変動を反映している。除外すると情報の損失になる。
外れ値の検出
視覚的な確認(推奨)
統計的な検定の前に、グラフで目視確認することを推奨します。
IQR(四分位範囲)法
箱ひげ図で使われる基準です。
- 外れ値候補: Q1 − 1.5 × IQR 未満、または Q3 + 1.5 × IQR 超過
- 極端な外れ値: Q1 − 3.0 × IQR 未満、または Q3 + 3.0 × IQR 超過
基礎統計 アプリの箱ひげ図でリアルタイムに確認できます。
Smirnov-Grubbs 検定
正規分布を仮定したデータセットにおいて、最も離れた値が統計的に外れ値かどうかを検定します。
- 利用場所: 基礎統計 アプリ内の「統計計算」セクション(クラウド R で実行)
- 注意: 正規分布の仮定が必要です。また、複数の外れ値を同時に検定する場合はマスキング問題(本来の外れ値が隠れる現象)が生じる可能性があります。
- 重要: このアプリには外れ値を自動除外する機能はありません。除外の判断は利用者が行ってください。
外れ値への対処法
外れ値を発見した後の対処法は、その原因と分析目的に応じて選択してください。
1. 原因を調査して除外する
測定・入力エラーと確認できた場合は、除外(または訂正)が正当化されます。
- 行の削除 機能で対象行を除外できます。
- 除外した場合は論文・レポートで必ず明記してください(どの値を、なぜ除外したか)。
2. 変数変換で影響を軽減する
真の極端値だが分布の歪みが大きい場合、変換によって外れ値の相対的な影響を抑えられます。
- 対数変換・自然対数変換: 右に裾の長いデータ(医療費、検査値など)に有効。
- 平方根変換: カウントデータに有効。
- Box-Cox変換 / Yeo-Johnson変換: 最適なパラメータを自動探索して正規分布に近づけます。
→ 変数変換 機能を参照してください。
3. ノンパラメトリック検定を使用する
外れ値を除外せず、その影響に頑健な手法を選択する方法です。
- **Brunner-Munzel 検定**: 外れ値や分散の不均一性に強く、特に推奨されます。
- **Mann-Whitney U 検定**: 順位に基づくため外れ値の影響が限定的です。
- **Kruskal-Wallis 検定**: 3群以上のノンパラメトリック比較。
→ パラメトリック検定とノンパラメトリック検定 も参照してください。
4. 感度分析を実施する
外れ値を含む場合と除外した場合の両方で解析を実施し、結果の頑健性を確認する方法です。
- 結果が変わらない場合: 外れ値の影響が少ないことを示せます。
- 結果が変わる場合: 外れ値が分析に大きく影響していることを示し、適切な対処法の選択を再検討します。
してはいけないこと
外れ値の除外は、分析者の恣意的な操作になりやすい場面のひとつです。以下の点に注意してください。
- 結果を見てから除外基準を決めない: 除外ルール(「IQR法で検出されたものを除外する」など)は解析前に決定し、事前登録することが望ましいです。
- p値が有意でないことを理由に外れ値を除外しない: これは HARKing (Hypothesizing After Results are Known) と呼ばれる研究実践上の問題です。
- 除外した事実を必ず報告する: どの値を、なぜ除外したかを論文・レポートに明記してください。
回帰分析における外れ値
回帰分析では、外れ値の中でも「影響力点」(leverage point)に注意が必要です。
- 残差プロット: 残差が大きい点を視覚的に確認します(重回帰分析の診断プロットで確認可能)。
- Cook's 距離: 1点を除外したときに回帰係数がどれだけ変化するかを示す指標。1を超える点は影響力が大きいと判断されることがあります。
各アプリでの外れ値の扱い
アプリごとに外れ値の検出・対処機能が異なります。
基礎統計
外れ値確認のための最も充実したアプリです。
- IQR法: 箱ひげ図上に外れ値を自動でプロット(`boxplot.stats()` の基準に基づく)。基礎統計量の一覧にも外れ値の個数と値が表示されます。
- Smirnov-Grubbs 検定: 正規性を仮定した統計的な外れ値検定(クラウド R)。p ≤ 0.05 の値を外れ値と判定して一覧表示します。
- 自動除外はありません。確認後、必要に応じて行の削除で手動除外してください。
箱ひげ図チャート
データ点の表示モードを3段階から選択できます。
- 外れ値のみ表示(デフォルト): IQR × 1.5 を超える点のみプロット
- 全データポイント表示: すべての点をオーバーレイ
- 範囲外を表示: IQR × 1.5〜3 の「疑わしい外れ値」を含む範囲外の点をプロット
ひげの幅も調整可能です。
散布図チャート
回帰直線の種類としてロバスト回帰を選択できます。外れ値が多いデータでも影響を受けにくい直線を描画します。
群間検定(対応なし・対応あり)
外れ値の検出機能は基礎統計と共通です(IQR法 + Smirnov-Grubbs 検定)。
外れ値が存在する場合の検定方法として以下が選択可能です。
- Brunner-Munzel 検定: 外れ値や分散の不均一性に最も頑健。推奨。
- Mann-Whitney U 検定: 順位統計のため外れ値の影響が限定的。
- Welch の t 検定: 外れ値が少なく正規性がある場合。
Table One
ノンパラメトリック変数の代表値として 中央値 (IQR) の表示に対応しています。外れ値の影響を受けにくい要約統計量として利用できます(範囲 or IQR を選択可能)。
外れ値の自動検出機能はありません。
多変量解析(重回帰・ロジスティック回帰など)
Cook's 距離による影響力点の検出を自動で実施します。
- 閾値(デフォルト: 4/n)を超えた観測値を「影響力の大きい観測値」として観測値番号・Cook's距離とともに出力します。
- 影響力点が検出されても自動除外は行いません。結果を確認のうえ、行の削除で除外するか、感度分析を実施してください。
多次元尺度法(MDS)
距離計算の前処理としてロバスト標準化オプションがあります。外れ値の影響を受けにくい中央値・IQR ベースの標準化を適用します。
傾向スコア解析(IPTW)
傾向スコアのモデル式として PS + コーシット回帰を選択できます。コーシー分布の裾の重さを利用して外れ値に対する頑健性を確保します。
線形混合効果モデル(LMM)
LMM はデータが正規分布に近いことを前提とします。外れ値が多い場合は、事前に外れ値を確認・除外するか、ノンパラメトリック手法を検討してください。
Cox 比例ハザード回帰
クラスター変数を指定するとロバスト標準誤差(`robust = TRUE`)が自動的に有効になります。これにより、クラスター内の相関や外れ値的な個体の影響が標準誤差に反映されます。
対処法の選び方(フローチャート)
外れ値を発見
│
▼
原因は判明しているか?
├─ Yes(測定・入力エラー)→ 訂正または除外し、理由を記録
│
└─ No(原因不明 or 真の極端値)
│
▼
目的は何か?
├─ 分布の記述・比較 → ノンパラメトリック手法を選択
│
├─ 回帰・予測 → 変数変換 or 影響力の確認
│
└─ どちらも → 感度分析(含む・除くで両方報告)
シミュレーターで体験する
散布図上の点をドラッグしたり外れ値を追加したりすることで、外れ値が相関係数や回帰直線にどれほど大きな影響を与えるかをインタラクティブに体験できます。