線形混合効果モデル (LMM)
解説
線形混合効果モデル(Linear Mixed Effects Model, LMM)は、統計モデリングの一種で、データ解析において非常に有用なツールです。 LMMは、データの中に階層構造やクラスター構造がある場合や、データが時間依存性を持つ場合など、様々な応用で利用されます。
LMM の特徴
- 固定効果とランダム効果の組み合わせ
- LMMは、固定効果とランダム効果を組み合わせてモデル化することが特徴です。
- 固定効果は一般的な回帰モデルと同様に、説明変数と応答変数の関係を表します。
- ランダム効果はデータの階層構造やクラスタリングを考慮し、個体差やグループ間の変動をモデル化します。
- 階層モデル
- LMMは階層モデルの一種であり、データが階層的な構造を持つ場合に適しています。
- 階層を交互作用として指定します。
- 例えば、生徒が学校内のクラスに分かれており、それぞれのクラス内でテストスコアが異なる場合、LMMはこれを考慮してモデル化します。
- 対応データと時間依存性
- LMMは、複数回の測定データや時間依存性を持つデータを扱う際にも利用されます。
- 同じ被験者に対する複数の観測値がある場合、これらの相関構造をモデル化するのに適しています。
- 最尤法に基づく推定
- LMMのパラメータ(固定効果とランダム効果)は、最尤法もしくは制限最尤法 (REML) に基づいて推定されます。
LMMは比較的新しい統計手法ですが、実験デザインやデータの性質に応じて、ランダム効果を使ってデータの変動をより適切にモデル化できるため、幅広い分野で応用されつつあります。
Reactive stat では、クラウド R にて lme4パッケージを利用できます。
数学的表現
一般的な線形混合効果モデルは以下のように表現されます
\[ Y = X\beta + Z\gamma + \epsilon \]
ここで、\(Y\) は従属変数、\(X\) と \(Z\) はそれぞれ固定効果とランダム効果に対応するデザイン行列、\(\beta\) は固定効果の係数、\(\gamma\) はランダム効果の係数、\(\epsilon\) は誤差項です。
Reactive stat での利用
LMMは幅広い応用範囲を持っており、階層構造、クラスタリング、時間依存性など、さまざまなデータ構造に対応できます。 R のlme4パッケージを利用する際には、解決しようとしている問題とデータの特性を理解して、それに応じたモデル式を設定する必要があります。
きわめて多様な設定が可能であり、そのすべてを「マウスで選択するだけの簡単でわかりやすいインターフェース」でお手軽に利用することは現実的に不可能です。
また、得られた結果を、モデルに応じて解釈する必要があり、画一的に解釈できるものではありません。
そこで、Reactive stat では、比較的一般的かつ理解しやすい典型的なモデルから選択することで、理解を容易にして、解釈の誤りを回避できるように考えてあります。 そのため、応用範囲は限られてしまい、R の lme4パッケージの限られた実力しか発揮させられないことは予めご了承ください。 今後、ユーザー様の意見を取り入れながら、適用できる範囲を広げてゆきたいと考えています。
得られた結果に対する AI による解説に関して
ほかの統計手法と同様に、LMM においても、得られた結果に対して AI に解説させる機能が実装してあります。 しかし、まだ AI の学習データに含まれる LMM についての情報が少ないため、他の古典的手法よりも不正確な解説となる危険があります。 その点は予めご理解の上で、注意してご利用ください。
時系列データの解析に用いる場合の注意
応答変数に時系列データを用いる場合は、データの形式を 一行に時系列データがすべて含まれる「広い形式 (wide format)」ではなく、 各行が特定の時間点での単一の観測値を表す「長い形式 (long format)」で用意してください。
広い形式 (wide format) の例
この形式では時系列の分析は行えません。
ID | 治療 | 第0日 | 第1日 | 第2日 |
---|---|---|---|---|
1 | A | 10 | 15 | 20 |
2 | B | 5 | 7 | 9 |
長い形式 (long format) の例
この形式に事前に変換をお願いします。 値 を応答変数とし、治療 と 経過日数 を固定効果、ID を交互作用に指定します。
ID | 治療 | 経過日数 | 値 |
---|---|---|---|
1 | A | 0 | 10 |
1 | A | 1 | 15 |
1 | A | 2 | 20 |
2 | B | 0 | 5 |
2 | B | 1 | 7 |
2 | B | 2 | 9 |
データ形式は、必要に応じて変換できます。
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
データ入力
{{ replaceNewlinesInStrings(replacedScript) }}
R の出力結果
{{ rResult }}
R出力図形
AI による R 出力結果の解説
データ
設定
結果
クラウド R 分析