Alteryxの予測モデルのための予測変数(質的変数)の選び方

Alteryx

Alteryxの予測モデルのためのデータ準備(2)では、予測変数の選び方について記載しましたが、実際に質的(カテゴリ)変数を選択する際のツールの使い方を紐解いていきたいと思います。

質的変数の場合は、以下のツールが利用可能です。

  • 分割表ツール
  • t検定ツール

分割表ツール(Contingency Table Tool)

分割表は、2つのカテゴリ変数間に統計的に有意に差があるかを得られるツールです。このため、ターゲット変数を分類するような場合は、時には予測変数としてのカテゴリ変数同士のマルチコ(多重共線性)の回避の判断に使われたりします。

ブログの画像のサイズの関係で、コンパクトなデータで試したいと思います。今回は、決定木・ランダムフォレストモデルのサンプルファイルのインプットを使ってみたいと思います。

まず、分割表ツールを以下のように設定します。

ここで、カイ二乗検定を計算結果に含めるかどうかで出てくる結果が変わります。

カイ二乗検定を含める場合

カイ二乗検定を含める場合は、2つの変数を比較します。選択した2つの変数の分布が異なるかどうか、を判定します。

今回は、「Chk_Bal」というフィールドに4つの値(A11、A12、A13、A14)と「Default」というフィールドにYes、Noの2つの値が入っています。この分布は以下のようにレポーティングされます。

このレポートの一番下のところにp値が出てきます。非常に小さい値を示している、ということで統計的に有意に相関がある、ということになります。

カイ二乗検定を含めない場合

カイ二乗検定を含めない場合は、4つの変数を比較することが可能です。その他、出力されるものはカイ二乗検定を含めた場合と同様です。

例えば、以下のような設定を行います。

結果として、以下のようなテーブルがいくつも出ます。

各相関がどうなのか、ということは自分で表を見て判断する必要があります。

t検定ツール(Test of Means Tool)

t検定ツールは、データ調査カテゴリではなく、予測カテゴリにカテゴライズされているツールです。このツールはt検定ツールとありますが、ウェルチのt検定を行うツールです。つまり、2つのグループの平均が有意に異なるかどうか、ということを判断できます。

平均が異なる、ということは、つまり、各値の散らばりに傾向があるということになり、予測変数として機能する、ということになります。

設定としては、あるカテゴリと数値フィールドを設定します。サンプルでは、分類問題でよく使われる「あやめ」のデータですが、指定したカテゴリフィールドは3種類の値を持っています。すなわち「Iris-setosa」「Iris-versicolor」、そして「Iris-virginica」です。これらの値に対して、SepalLengthCmというフィールドの平均値がそれぞれ有意に異なるかどうか、ということになります。

上の設定では、基準となるカテゴリ(Species)の値を「Iris-setosa」としており、その他の値とSepalLengthCmの平均値が異なるかどうか、というのが結果として出力されます。つまり、以下のようなアウトプットが得られます。

結果としては、p値(p-Value)が十分小さいため、平均値は有意に異なる、ということになります(t-Statisticが平均値の差です)。

結論として、Speciesの値それぞれに対して、SepalLengthCmの値は有意に異なるため、SepalLengthCmとSepecies感には相関がありそうだ、ということになります。

このツールの問題としては、各カテゴリ変数に対して一つずつ確認していく必要がある、ということでしょうか。

まとめ

  • 分割表ツールは、カテゴリ変数とカテゴリ変数の相関がわかるツールでした。つまり、主に分類問題で使われる、ということと、カテゴリ変数間のマルチコ(多重共線性)の判断が可能なツールでした
  • t検定ツールは、カテゴリ変数と数値間の相関がわかるツールでした

各ツールをうまく使い分けて、特徴量として採用するかどうかを決めていく必要があります。

参考資料

Pre-Predictive: Using the Data Investigation Tools – Part 2 of 4

Pre-Predictive: Using the Data Investigation Tools – Part 2 of 4は、度数分布表ツール、分割表ツール、分布分析ツールについて解説されています。

Tool Mastery | Test of Means

Tool Mastery | Test of Meansは、ツールマスタリーシリーズのt検定ツールです。

コメント

タイトルとURLをコピーしました