データファイルの形式
Reactive stat で読み込むことのできるデータファイル
Reactive stat では、以下の2つのファイル形式でデータを読み込むことができます
- CSVファイル (.csv)
- エクセルファイル (.xlsx, .xls, .xlsm)
CSVファイル
CSVは「Comma-Separated Values(コンマ区切り値)」の略です。 データをカンマなどの区切り文字で区切って並べた形式のファイルのことです。
CSVファイルの特徴:
- 単純なテキストファイルなので、扱いが容易です。
- 一行目は項目名になっている場合が多いです。
- 1行ごとに1つのデータ(レコード)を表します。
- 各データの項目はカンマ(,)もしくはタブ(キーボードのTabキーで入力する空白)で区切られます。
- エクセルからコピペしてメモ帳などに貼り付けた場合には、タブ区切りとなります。
Reactive stat でCSVファイルを使う際の特徴:
- 日本語の文字コード (Windows では Shift-JIS (SJIS), Mac では UTF-8, インターネットの標準は UTF-8, ほかに EUC-JP や ISO-2022-JP など) は自動的に判断されるので、ユーザーが気にする必要はありません。
- ファイルの1行目は、項目名(カラム名)として扱われます。
- 項目名の制限と自動変換については後述します。
- データのクリーンアップ
- 各セルの前後にある余分な空白を削除します。
- 不要な引用符を取り除きます。
- 完全に空の行は削除します。
CSVファイルの編集方法:
- メモ帳などの「テキストエディタ」というで編集できます。
- Microsoft Excel や、Libre Office Calc などの表計算ソフトでも編集できます。
- Microsoft Excel では、意図しない変換を行う場合がしばしばありますので、Libre Office Calc をお勧めします。
- Libre Office は無料で利用できます。
エクセルファイル
- 1つのファイルの中に複数の表(シート)が存在する場合、そのうちの一つを選択して読み込みます。
- セルの属性は無視されます。
- 先頭行は、項目名(カラム名)として扱われます。
- 項目名の制限と自動変換については後述します。
- 内部構造に不整合がある一部のエクセルファイルは、エラー回避のために最初のシートを読み込みます。
- エクセル統計ソフト HAD のファイルを読み込むことができます。
項目名の制限と自動変換
データの項目名には以下の制限があり、自動的に変換されます。
- 空文字列の場合
- 最初の空の列名は “__EMPTY” に変換されます。
- 2番目以降の空の列名は “__EMPTY_1”, “__EMPTY_2” のように、連番が付与されます。
- 重複する場合
- 2回目以降に出現する同じ列名には、“_1”, “_2” のように連番が付与されます。
- 例: “あ”, “あ”, “あ” → “あ”, “あ_1”, “あ_2” |
これらの処理は、列名の重複を避け、データ処理時の問題を防ぐために適用されます。
自動変換の例
例えば、このような CSV データは
"","","あ","あ","あ","い","い","う" "11","12","あ11","あ12","あ13","い11","い12","う11" "21","22","あ21","あ22","あ23","い21","い22","う21"
次のように変換されます。
注: 初期バージョンではカラム名にピリオド '.' が含まれる場合にアンダースコア '_' に変換していましたが、その必要がなくなりましたので変換を中止しました。