ポアソン回帰 (Poisson Regression)
解説
ポアソン回帰とは
ポアソン回帰 (Poisson Regression) は、一般化線形モデル (GLM) の一種であり、カウントデータ(非負の整数)を目的変数とする回帰分析です。ポアソン分布を仮定し、対数リンク関数を用いて、説明変数と目的変数の関係をモデル化します。
通常の線形回帰は目的変数が正規分布に従う連続変数を想定しますが、ポアソン回帰は「ある期間内に発生するイベントの回数」のように、非負の整数値を取る変数に適しています。
主な用途:
- 医療統計: 入院回数、副作用発生件数、死亡数
- 疫学: 疾患発生率、感染者数
- 品質管理: 製品の欠陥数
- 交通安全: 事故件数
- 生態学: 生物の個体数カウント
本アプリでサポートする機能
| 機能 | 詳細 | 特徴 |
|---|---|---|
| ポアソン回帰 | glm (family = poisson) | 標準的なカウントデータモデル |
| 発生率比 (IRR) | exp(回帰係数) と95%信頼区間 | 効果の直感的な解釈 |
| 過分散検出 | 分散/平均の比による自動判定 | 分散 > 1.5×平均で検出 |
| 準ポアソン回帰 | glm (family = quasipoisson) | 過分散時の代替モデル |
| 負の二項回帰 | MASS::glm.nb | 過分散時の代替モデル |
| 診断プロット | 観測vs予測、残差プロット、Q-Qプロット | 3種類の視覚的診断 |
ポアソン回帰の前提条件
- 等分散性 (等散布性): 平均 = 分散(ポアソン分布の特性)
- 独立性: 各観測値が独立であること
- 対数線形性: 説明変数と対数発生率の間に線形関係があること
- 非負整数: 目的変数が非負の整数であること
データの適合性の自動チェック
本アプリでは、データのポアソン回帰への適合性を自動的にチェックします:
| チェック項目 | 条件 | 対応 |
|---|---|---|
| 負の値 | 負の値が存在 | 分析不可(ポアソン回帰の前提違反) |
| 非整数値 | 小数を含む | 警告(注意して使用) |
| ゼロの存在 | ゼロ値あり | ポアソン回帰に適切 |
| 平均値が大きい | 平均 > 5 かつゼロなし | 線形回帰の方が適切な可能性 |
| 最大値が大きい | 最大 > 50 | ポアソン分布の仮定からの逸脱 |
| 過分散 | 分散 > 1.5×平均 | 準ポアソンまたは負の二項回帰を追加実行 |
データ要件と推奨事項
変数の要件
- 目的変数: 数値型(カウントデータ: 非負の整数・準整数) 1つ
- 説明変数: 連続変数またはカテゴリカル変数(混在可)
サンプルサイズの目安
| 分析の種類 | 最低限 | 推奨 |
|---|---|---|
| 基本モデル | 50件以上 | 100件以上 |
| 複数の説明変数 | 説明変数1個あたり15件以上 | 説明変数1個あたり30件以上 |
結果の解釈
発生率比 (IRR: Incidence Rate Ratio)
| IRR | 解釈 |
|---|---|
| IRR = 1 | 説明変数はイベント発生回数と関連なし |
| IRR > 1 | 説明変数が1単位増加するとイベント発生率が増加 |
| IRR < 1 | 説明変数が1単位増加するとイベント発生率が減少 |
診断プロットの読み方
- 観測値 vs 予測値プロット: 点が45度線(y=x)に近いほどモデルの当てはまりが良い
- ピアソン残差プロット: ランダムなパターンが理想。系統的なパターンがあればモデルの不備を示唆
- 逸脱残差Q-Qプロット: 点が直線に沿っていればポアソン分布の仮定が妥当
過分散時のモデル比較
過分散が検出された場合、AIC (赤池情報量規準) を用いてモデルを比較します:
- AICが最も低いモデル: 最適なモデル
- 準ポアソン回帰: 標準誤差を補正。パラメータ推定値は同じ
- 負の二項回帰: 過分散パラメータを明示的にモデル化。より柔軟
注意事項
- 過分散: ポアソン回帰の最も一般的な問題です。分散が平均を大幅に超える場合、標準誤差が過小評価され、擬陽性のリスクが高まります
- ゼロ過剰: ゼロの出現頻度がポアソン分布の予測より多い場合、ゼロ過剰ポアソンモデル (ZIP) の検討が必要です(本アプリでは未対応)
- オフセット項: 観察期間や曝露量が異なる場合、オフセット項を含める必要があります(本アプリでは未対応)
- 外れ値: カウントデータの外れ値(極端に大きい値)は結果に強い影響を与えます
他の多変量解析手法
複数の説明変数によるデータ分析 (多変量解析) ページでは、本手法を含む10種類の多変量解析手法の概要と比較をご覧いただけます。
下のアプリでは、入力されたデータの目的変数・説明変数のタイプを自動判定し、適用可能な統計手法をすべて提示します。 そのため、本ページの手法以外の結果も表示されることがあります。これは同じデータ設定で複数の分析を比較検討できる仕組みです。
アプリ
| 分類内容 | 値 | |
| {{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
削除対象の行
データ入力
AI による R コードの解説
R の出力結果
R出力図形
AI による R 出力結果の解説
- データ: カラム名 (列名) をそのまま記述するか、"列名" のようにダブルクォートで挟んで指定
- 算術演算子: +, -, *, /, ()
- 基本関数: abs(), sqrt(), pow(), exp(), log(), log10()
- 三角関数: sin(), cos(), tan(), asin(), acos(), atan()
- 丸め関数: round(), floor(), ceil()
体重 / pow(身長, 2), "体重" / ("身長" * "身長")
{{ column }}
{{title}}
入力されたデータの目的変数・説明変数のタイプを自動判定し、適用可能な統計手法をすべて提示します。 これは同じデータ設定で複数の分析を比較検討できる仕組みです。
{{calledFromSubPage? '本アプリで統合的に実行可能な': ''}}分析法の特徴一覧
| 手法 | 英語名 | 目的変数のタイプ | 説明変数のタイプ | 特徴 | Wikipedia |
|---|---|---|---|---|---|
| {{ method.japaneseName }} | {{ method.englishName }} | {{ method.dependentVariableType }} | {{ method.independentVariableType }} | {{ method.characteristic }} |
データ
設定
統計手法
| 変数名 | 数値 | 連続変数 | カテゴリカル /離散変数 |
|||
|---|---|---|---|---|---|---|
| {{ variable }} | {{ type.numerical ? '〇' : '-' }} | {{ type.originallyContinuous ? '〇' : '-' }} | {{ type.originallyCategorical ? '〇' : '-' }} |
データの分類は以下のルールに従っています
変数タイプは手動で調整できます
- : 有効 / : 無効
- クリックすると切り替わり、各統計手法に渡されるデータ形式を明示できます。
| 手法 | 目的変数のタイプ | 説明変数のタイプ | 適用 |
|---|---|---|---|
| {{ method.japaneseName }} | {{ method.dependentVariableType }} | {{ method.independentVariableType }} | {{ method.reason }} |
結果
{{method.japaneseName}} ({{method.englishName}})
- {{ warning }}