変数のタイプ

変数の特性を理解する際には、それらを「カテゴリカル変数」と「連続変数」の二つの主要なタイプに分けることができます。これらの分類は、データ分析や統計的方法の適用において重要な役割を果たします。

カテゴリカル変数は、複数のカテゴリやグループに分類されるデータを含みます。これらの変数は数値を持つことがありますが、それらの数値は計算には使用されず、単に識別や分類のために存在します。カテゴリカル変数には、「名義変数」と「順序変数」の2つのサブセットがあります。

  名義変数は、項目を互いに排他的かつ網羅的なカテゴリに分けるのに使用されますが、これらのカテゴリ間には順序や階層がありません。例としては、性別、国籍、新聞の種類などが挙げられます。

国名

  順序変数は、名義変数の特性を持ちながら、カテゴリ間に明確な順序が存在します。しかし、カテゴリ間の距離は一定ではないため、具体的な数値差は測定できません。例えば、大腸がん深達度 (Tis (上皮内がん), T1 (粘膜下層浸潤), T2 (筋層浸潤), T3 (外筋層までの浸潤), T4a (粘膜側腹膜面までの浸潤), T4b (他臓器または構造物に浸潤))、教育レベル(高校、大学、大学院)や満足度のスケール(低、中、高)がこれに該当します。

大腸がん深達度

数値変数であっても、その間隔が一定でない場合には、順序変数 (順序のあるカテゴリカル変数) として扱うべきです。

がんの疼痛スケール

連続変数は、理論上、任意の二つの値の間に無限の可能性を持つ数値変数です。これには、「間隔スケール」と「比率スケール」の2つのサブセットが存在します。

  間隔スケールでは、変数の値間の距離は一定ですが、真の絶対ゼロ点が存在しないため、比率は意味をなしません(例: 摂氏温度)。

  比率スケールは、間隔スケールの特性を全て持ち、加えて絶対ゼロ点を持っています。これにより、値の比率(例: 一つがもう一つの2倍であるなど)を取ることができます(例: 速度、収入、体重、年齢など)。

「順序変数」と「名義変数」は「カテゴリカル変数」のサブセットであり、「比率スケール」と「間隔スケール」は「連続変数」のサブセットです。そして、全ての「連続変数」は「数値変数」である一方で、「カテゴリカル変数」の一部(特に順序変数や数値コードを持つ名義変数)は「数値変数」の形を取ることがあります。