変数変換

変数変換機能により、データセット内の特定の列(カラム)の値を様々な方法で変換することができます。 ユーザーはデータを分析または表示する前に、これらの変換を利用してデータを前処理することが可能です。

変数変換はデータの特性を改善し、統計的手法の適用を容易にし、結果の解釈を改善するための重要なステップです。 データの分布を理解すれば、データの持つ本質的な意味を理解しやすくなります。 データの性質と目的に応じて適切な変換を選択することが、信頼できる統計的分析を行う上での鍵となります。

例えば、原理的に指数関数に従うことが予想される数値 (一部の腫瘍マーカーなど) に対しては、事前に対数変換しておくことが、正しい解釈に繋がります。

有意差がないと思い込んでいたデータでも、変数変換により有意差が明らかとなり、より重要な結論が導かれることは多々あります。 逆に、有意差があったけれども正規分布に近づける変換を行ったところ有意差が出なくなる場合は、その意義を再考する必要があります。

統計処理において変数変換は重要な役割を果たします。 特に、データの分布形状や統計的手法の仮定に関連しています。

多くの統計的手法は、データが正規分布(ガウス分布)に従っていることを前提としています。 しかし、実際のデータはしばしば非正規分布を示します。

変数変換(例:対数変換、平方根変換)を適用することで、データを正規分布に近似させることが可能な場合があります。

これにより、線形回帰、ANOVA(分散分析)などの統計手法の効果的な適用が可能になります。

データが正規分布に従わない場合や、変数変換による正規分布への近似が適切でない場合、ノンパラメトリック(非パラメトリック)手法が適用されます。

これらの手法はデータの分布形状に依存せず、順位や中央値などの要約統計を利用します。 その場合でも、変数変換を行うことで、データの構造を明確にし、ノンパラメトリック手法の解釈が容易になる場合があります。

正規化(値を0から1の範囲にスケーリング)や標準化(平均0、標準偏差1にスケーリング)といった変数変換は、異なるスケールの変数を持つデータセットを同一グラフ上に表示したい場合などで有用です。

また、主に機械学習などにおいて重要となります。 正規化や標準化により、特徴のスケールがモデルの性能に与える影響を減少させることができます。

特定の変数変換は、データ内の外れ値の影響を軽減するのに役立ちます。例えば、対数変換はデータの範囲を縮小し、極端な値の影響を減少させることができます。

  • ページの上部にある「元データの列」のセクションから、変換したいデータの列を選択できます。
  • 列の一覧はドロップダウンメニューで表示されます。
  • をクリックすると、選択された列のプレビューが可能です。
  • 次に、「変換設定」セクションで、適用したい変換関数を選択します。
  • 利用可能な変換は、以下のとおりです。
    • 対数: 対数変換により、指数的な変化を線形に変換
      • 対数変換は、データセット内の極端な値や偏りを緩和するのに役立ちます。特に、指数関数的な成長や減少を示すデータに対して有効です。
    • 自然対数: 底がeの自然対数変換
      • 自然対数は、連続的な成長率をモデル化する際によく用いられ、データの自然な成長パターンを線形化します。
    • 平方根
      • 平方根変換は、外れ値の影響を減らし、データセットの分散を緩和します。特に、カウントデータや比率スケールデータに有効です。
    • 絶対値
      • 絶対値変換は、データセット内の負の数値を取り除くことで、データの解釈を容易にします。
    • 2乗
      • 二乗変換は、データポイント間の違いを強調し、小さい値と大きい値の間の差を拡大します。
    • 逆数
      • 逆数変換は、大きな数値データの影響を緩和し、データセットのばらつきを均一にします。
    • 標準化: 平均が0で標準偏差が1のデータセットを生成
      • 標準化は、異なる尺度で測定されたデータを共通の基準に合わせ、分析や予測モデリングにおけるバイアスや歪みを減らします。
    • 正規化: 値の範囲を0から1の間に変換
      • 正規化は、データを特定の範囲にスケーリングするプロセスで、特に異なる尺度で測定されたデータを比較する際に有用です。
    • 平均値調整: 平均値を0に調整
      • 平均値調整は、データの平均値を0にすることで、データの中心位置を標準化します。
    • 分散調整: データセットの標準偏差で除算し、分散を1に調整
      • 分散調整は、データの分散を1にすることで、データの広がりを標準化します。
    • 時間単位の変換: 時間に関連するデータの単位を変更できます。
      • 変換元の単位変換先の単位 をそれぞれ選択します。利用可能な単位には、秒・分・時・日・週・月・年 があります。
        • 日の単位を年の単位に変換するには 365.25 で割ります。(うるう年を考慮します)
        • 月の単位を週にするには、(365.25 / 12) をかけて、7 で割ります。
  • 空白および数値以外の文字列 (数値として認識できない文字列) は、変数返還の対象とはなりませんので、どのように扱うかを設定しておく必要があります。
    • 事前に変換しない: 変換対象とはせず、元の文字列をそのまま新しいカラムに代入します。
    • 数値の 0 に事前に変換する: 数値の 0 に変換し、変数変換を適用します。
    • 非数値を表す NaN に事前に変換する: 非数値を表す “NaN” に変換します。R では非数値をNaNで表すことが一般的ですので、これに準拠しています。

計算の結果がどうなるかを確認できます。

ヒストグラムと基礎的な統計量が表示されますので、分布の概要が把握できます。

  • 新しい列 (カラム) 名 セクションにて、計算結果を格納する新しいカラムの名前を設定します。
  • 計算方法の設定時に、自動的にカラム名画設定されますが、適宜変更して構いません。
  • 既存のカラムに上書きすることはできません。