外れ値の扱いガイドライン

外れ値 (outlier) とは、データの大多数の値から大きく離れた観測値のことです。

外れ値が生じる原因は主に2種類あります。

  • 測定・入力エラー: 計測機器の誤作動、入力ミス、データの転記誤りなど。真のデータを反映していない「ゴミ」である可能性が高い。
  • 真の極端値: 正しく測定された値であり、その現象の真の変動を反映している。除外すると情報の損失になる。

外れ値を発見したとき、まず「なぜその値が外れているのか」を調査することが最も重要です。原因が不明なまま除外することは、研究の信頼性を損なう可能性があります。

統計的な検定の前に、グラフで目視確認することを推奨します。

  • 箱ひげ図: IQR(四分位範囲)の1.5倍を超える値を外れ値候補として視覚化します。最も直感的な方法です。
  • ヒストグラム: 分布の全体像を把握し、孤立した値がないか確認します。
  • 散布図: 2変数間の関係から外れている点(影響力の強い点)を確認します。

箱ひげ図で使われる基準です。

  • 外れ値候補: Q1 − 1.5 × IQR 未満、または Q3 + 1.5 × IQR 超過
  • 極端な外れ値: Q1 − 3.0 × IQR 未満、または Q3 + 3.0 × IQR 超過

基礎統計 アプリの箱ひげ図でリアルタイムに確認できます。

正規分布を仮定したデータセットにおいて、最も離れた値が統計的に外れ値かどうかを検定します。

  • 利用場所: 基礎統計 アプリ内の「統計計算」セクション(クラウド R で実行)
  • 注意: 正規分布の仮定が必要です。また、複数の外れ値を同時に検定する場合はマスキング問題(本来の外れ値が隠れる現象)が生じる可能性があります。
  • 重要: このアプリには外れ値を自動除外する機能はありません。除外の判断は利用者が行ってください。

外れ値を発見した後の対処法は、その原因と分析目的に応じて選択してください。

測定・入力エラーと確認できた場合は、除外(または訂正)が正当化されます。

  • 行の削除 機能で対象行を除外できます。
  • 除外した場合は論文・レポートで必ず明記してください(どの値を、なぜ除外したか)。

真の極端値だが分布の歪みが大きい場合、変換によって外れ値の相対的な影響を抑えられます。

  • 対数変換・自然対数変換: 右に裾の長いデータ(医療費、検査値など)に有効。
  • 平方根変換: カウントデータに有効。
  • Box-Cox変換 / Yeo-Johnson変換: 最適なパラメータを自動探索して正規分布に近づけます。

変数変換 機能を参照してください。

外れ値を除外せず、その影響に頑健な手法を選択する方法です。

パラメトリック検定とノンパラメトリック検定 も参照してください。

外れ値を含む場合と除外した場合の両方で解析を実施し、結果の頑健性を確認する方法です。

  • 結果が変わらない場合: 外れ値の影響が少ないことを示せます。
  • 結果が変わる場合: 外れ値が分析に大きく影響していることを示し、適切な対処法の選択を再検討します。

外れ値の除外は、分析者の恣意的な操作になりやすい場面のひとつです。以下の点に注意してください。

  • 結果を見てから除外基準を決めない: 除外ルール(「IQR法で検出されたものを除外する」など)は解析前に決定し、事前登録することが望ましいです。
  • p値が有意でないことを理由に外れ値を除外しない: これは HARKing (Hypothesizing After Results are Known) と呼ばれる研究実践上の問題です。
  • 除外した事実を必ず報告する: どの値を、なぜ除外したかを論文・レポートに明記してください。

回帰分析では、外れ値の中でも「影響力点」(leverage point)に注意が必要です。

  • 残差プロット: 残差が大きい点を視覚的に確認します(重回帰分析の診断プロットで確認可能)。
  • Cook's 距離: 1点を除外したときに回帰係数がどれだけ変化するかを示す指標。1を超える点は影響力が大きいと判断されることがあります。

アプリごとに外れ値の検出・対処機能が異なります。

外れ値確認のための最も充実したアプリです。

  • IQR法: 箱ひげ図上に外れ値を自動でプロット(`boxplot.stats()` の基準に基づく)。基礎統計量の一覧にも外れ値の個数と値が表示されます。
  • Smirnov-Grubbs 検定: 正規性を仮定した統計的な外れ値検定(クラウド R)。p ≤ 0.05 の値を外れ値と判定して一覧表示します。
  • 自動除外はありません。確認後、必要に応じて行の削除で手動除外してください。

データ点の表示モードを3段階から選択できます。

  • 外れ値のみ表示(デフォルト): IQR × 1.5 を超える点のみプロット
  • 全データポイント表示: すべての点をオーバーレイ
  • 範囲外を表示: IQR × 1.5〜3 の「疑わしい外れ値」を含む範囲外の点をプロット

ひげの幅も調整可能です。

回帰直線の種類としてロバスト回帰を選択できます。外れ値が多いデータでも影響を受けにくい直線を描画します。

外れ値の検出機能は基礎統計と共通です(IQR法 + Smirnov-Grubbs 検定)。

外れ値が存在する場合の検定方法として以下が選択可能です。

  • Brunner-Munzel 検定: 外れ値や分散の不均一性に最も頑健。推奨。
  • Mann-Whitney U 検定: 順位統計のため外れ値の影響が限定的。
  • Welch の t 検定: 外れ値が少なく正規性がある場合。

ノンパラメトリック変数の代表値として 中央値 (IQR) の表示に対応しています。外れ値の影響を受けにくい要約統計量として利用できます(範囲 or IQR を選択可能)。

外れ値の自動検出機能はありません。

Cook's 距離による影響力点の検出を自動で実施します。

  • 閾値(デフォルト: 4/n)を超えた観測値を「影響力の大きい観測値」として観測値番号・Cook's距離とともに出力します。
  • 影響力点が検出されても自動除外は行いません。結果を確認のうえ、行の削除で除外するか、感度分析を実施してください。

距離計算の前処理としてロバスト標準化オプションがあります。外れ値の影響を受けにくい中央値・IQR ベースの標準化を適用します。

傾向スコアのモデル式として PS + コーシット回帰を選択できます。コーシー分布の裾の重さを利用して外れ値に対する頑健性を確保します。

LMM はデータが正規分布に近いことを前提とします。外れ値が多い場合は、事前に外れ値を確認・除外するか、ノンパラメトリック手法を検討してください。

クラスター変数を指定するとロバスト標準誤差(`robust = TRUE`)が自動的に有効になります。これにより、クラスター内の相関や外れ値的な個体の影響が標準誤差に反映されます。

外れ値を発見
    │
    ▼
原因は判明しているか?
    ├─ Yes(測定・入力エラー)→ 訂正または除外し、理由を記録
    │
    └─ No(原因不明 or 真の極端値)
           │
           ▼
        目的は何か?
           ├─ 分布の記述・比較 → ノンパラメトリック手法を選択
           │
           ├─ 回帰・予測       → 変数変換 or 影響力の確認
           │
           └─ どちらも         → 感度分析(含む・除くで両方報告)

散布図上の点をドラッグしたり外れ値を追加したりすることで、外れ値が相関係数や回帰直線にどれほど大きな影響を与えるかをインタラクティブに体験できます。

相関係数・直線回帰プレイグラウンドで外れ値の影響を体験する