Long format から Wide Format に変換

Long Format と Wide Format の違いと用途

データフォーマットの比較

特徴

Wide Format

  • データが横に広がります。
  • 各行が1つの対象 (例: 人や製品) を表します。
  • 各列が異なる変数や測定時点を表します。

Long Format

  • データが「縦長」に並んでいます。
  • 各行が1つの観測や測定を表します。
  • 変数の種類を示す列と、その値を示す列があります。

具体例 (数学と英語のテスト結果)

Wide Format

名前 数学 英語
太郎 80 75
花子 85 90
次郎 70 80

Long Format

名前 科目 点数
太郎 数学 80
太郎 英語 75
花子 数学 85
花子 英語 90
次郎 数学 70
次郎 英語 80

Wide Format が適切な解析手法の例

  • 対応のある群間検定 (対応のあるt検定、Wilcoxon の符号順位検定 など)
    • 例: 同じ生徒の数学の点数を、ある教育方法の実施前と後で比較する。
    • 理由: 各生徒の前後の測定値が同じ行にあり、個人内の変化を直接比較しやすい。
  • 多変量解析
    • ANOVA、ロジスティック回帰、ANCOVA、重回帰分析、多変量分析、主成分分析 (PCA)、因子分析 など。
    • 例:
      • ANOVA (多元配置分散分析): 学年、性別、学習方法が試験成績に与える影響を同時に分析する。
      • ロジスティック回帰モデル: 生徒の属性 (年齢、学習時間、出席率) から合格/不合格を予測する。など
    • 理由:
      • 複数の変数間の関係を同時に分析し、交互作用や複雑なパターンを検出できる。

Long Format が適切な解析手法の例

  • 対応のない群間検定 (t検定、Mann-Whitney U検定 など)
    • 例: 異なる2つのクラスの数学の点数を比較する。
    • 理由: 各観測値が独立した行にあり、群 (クラス) 間の比較がしやすい。
  • 混合効果モデル
    • 例: 生徒の成績に対する、教師の影響と生徒個人の特性の影響を分離して分析する。
    • 理由: 個人内変動と個人間変動を同時に扱えるため。

使用方法

カラムの設定

IDカラムの設定

  • 「ID のカラム」セクションで、個体や参加者を識別するためのカラムを選択します
  • 複数のカラムを選択可能です (例: 被験者ID + グループID)
  • オプション設定
    • 「IDのいずれかが欠損値の場合はデータを除外する」にチェックを入れると、IDに欠損がある行を除外します
    • ID列に半角スペースが含まれる場合、「ID列の半角スペースを “_” に置き換える」オプションが表示されます
    • 複数のID列を選択した場合:
      • 新しいIDカラムが自動生成されます
      • ID列の区切り文字を選択できます (アンダースコア、ハイフン、カンマ、空白)

値のカラムの設定

  • 「値のカラム」セクションで、分析対象となる数値が含まれるカラムを選択します
  • 一つのカラムのみ選択可能です

分類カラムの設定

  • 「分類カラム」セクションで、Wide Format の列見出しとなるカラムを選択します
  • 複数のカラムを選択可能です
  • オプション設定:
    • 生成されるカラム名に半角スペースが含まれる場合、「生成されるカラム名の半角スペースを “_” に置き換える」オプションが表示されます
    • 生成されるカラム名に、分類カラムの値だけでなく、分類カラム名を接頭辞として付与することができます

未指定カラム

上記のいずれにも指定されなかったカラムは、ワイドフォーマットのデータのカラムに移されます。

重複データの処理

Long format では、同一被験者のデータが複数行にわたって示されますが、例えば性別などのカラムもある場合には、その値が繰り返し出現します。 この場合は話は単純です。

しかし、体重や年齢は、時系列データの場合には途中で変わることがあります。 そのようなデータを Wide format にする場合には、代表値を選ぶ必要があります。 試験開始時・終了時、中央値など、状況に応じて選択してください。

指定カラムの重複データ処理

同じID・条件の組み合わせに複数の値が存在する場合、 全ての値を “,” で接続重複を取り除いた値を “,” で接続最初の値のみ最後の値のみ平均値中央値最小値最大値合計 から処理方法を選択できます。

未指定カラムの重複データ処理

ID、値、分類のいずれにも指定されなかったカラムについても、同様の処理方法を選択できます。

元データ (Long format)

変換設定

生成されるカラム名は、 です。