判別分析 (Discriminant Analysis)

判別分析は、既知のグループに属するデータを用いて判別関数を構築し、新しいデータがどのグループに属するかを予測する統計手法です。線形判別分析 (LDA) と二次判別分析 (QDA) に対応しています。

解説

判別分析とは

判別分析 (Discriminant Analysis) は、あらかじめグループが既知のデータから判別関数を導出し、新しい観測値がどのグループに属するかを予測する教師あり分類手法です。

説明変数が連続変数である場合に適用され、グループ間の差異を最大化する線形(または非線形)の判別関数を求めます。

主な用途:

  • 疾患診断: 検査値から疾患の有無を判別
  • 品質管理: 製品の良品・不良品の分類
  • マーケティング: 顧客セグメントの分類
  • 生態学: 種の分類・同定
  • 考古学: 遺物の分類

2つの判別分析手法

手法 仮定 特徴 適用場面
線形判別分析 (LDA) 各群の共分散行列が等しい 線形の判別境界 群間で分散が等しい場合
二次判別分析 (QDA) 各群の共分散行列が異なってもよい 非線形の判別境界 群間で分散が異なる場合

本アプリでサポートする機能

機能 詳細 特徴
LDA MASS::lda() による線形判別 判別係数、事前確率の算出
QDA MASS::qda() による二次判別 群ごとに異なる共分散を許容
交差検証 Leave-One-Out (LOO) 法 判別精度の客観的評価
正規性検定 Shapiro-Wilk検定 各変数の正規性を確認
多重共線性チェック 相関行列の確認 r > 0.8 の変数ペアを検出
混同行列 予測 vs 実測のヒートマップ 分類精度の視覚的評価
散布図 群ごとの楕円プロット 群分離の視覚的確認(説明変数2つの場合)
感度・特異度 二群分類の場合に算出 診断精度の評価

データの適合性の自動チェック

本アプリでは、データの判別分析への適合性を自動的にチェックします:

チェック項目 条件 影響
群の数 2群未満 分析不可
各群のサンプルサイズ 群のサイズ < (説明変数の数 + 1) 警告: パラメータ推定が不安定
最小群サイズ 5件未満の群がある 警告: 統計的検出力が低下
群のバランス 最大群/最小群 > 5倍 警告: 深刻な不均衡
説明変数の数 2個未満 警告: 情報不足
多重共線性 r > 0.8 の変数ペア 警告: 判別関数が不安定

データ要件と推奨事項

変数の要件

  • 目的変数: カテゴリカル変数 1つ(2値以上のグループ)
  • 説明変数: 連続変数のみ(カテゴリカル変数は使用不可)

サンプルサイズの目安

分析の種類 最低限 推奨
LDA 各群に説明変数数+1件以上 各群に20件以上
QDA 各群に説明変数数×2件以上 各群に50件以上

前提条件

  • 正規性: 各群の説明変数が多変量正規分布に従うこと
  • 等分散性: LDAでは各群の共分散行列が等しいこと(QDAでは不要)
  • 独立性: 各観測値が独立であること
  • 多重共線性の回避: 説明変数間に強い相関がないこと

結果の解釈

判別精度の評価

正答率 評価
≥ 90% 優秀な判別精度
80 - 89% 良好な判別精度
70 - 79% 許容可能
< 70% 要改善

交差検証

  • LOO交差検証: 1件ずつ除外して判別し、全データでの判別精度を評価
  • 交差検証の正答率は、通常の正答率よりも低くなります。大きく低下する場合、過学習の可能性があります

感度・特異度(二群分類の場合)

  • 感度 (Sensitivity): 真の陽性をどれだけ正しく検出できるか
  • 特異度 (Specificity): 真の陰性をどれだけ正しく除外できるか

注意事項

  • 判別分析 vs ロジスティック回帰: 判別分析は正規分布と等分散性を仮定しますが、ロジスティック回帰にはこれらの仮定がありません。多くの実践的な場面ではロジスティック回帰の方が頑健です
  • QDAの特異行列: サンプルサイズが小さい場合、QDAで共分散行列が特異になり計算できないことがあります
  • 因果推論: 判別分析は分類・予測のための手法であり、変数間の因果関係を示すものではありません
  • 変数選択: 重要でない変数の混入は判別精度を低下させることがあります

他の多変量解析手法

複数の説明変数によるデータ分析 (多変量解析) ページでは、本手法を含む10種類の多変量解析手法の概要と比較をご覧いただけます。

下のアプリでは、入力されたデータの目的変数・説明変数のタイプを自動判定し、適用可能な統計手法をすべて提示します。 そのため、本ページの手法以外の結果も表示されることがあります。これは同じデータ設定で複数の分析を比較検討できる仕組みです。

アプリ

入力されたデータの目的変数・説明変数のタイプを自動判定し、適用可能な統計手法をすべて提示します。 これは同じデータ設定で複数の分析を比較検討できる仕組みです。

{{calledFromSubPage? '本アプリで統合的に実行可能な': ''}}分析法の特徴一覧

手法 英語名 目的変数のタイプ 説明変数のタイプ 特徴 Wikipedia
{{ method.japaneseName }} {{ method.englishName }} {{ method.dependentVariableType }} {{ method.independentVariableType }} {{ method.characteristic }}

データ

設定

{{ column }}