Alteryxのステップワイズツールによる予測変数の選択

Alteryx

Alteryx Predictive Master資格取得を目指すシリーズです。

ステップワイズツールは、ステップワイズ法を用いて予測変数を削減するツールです。対応しているモデルは、線形回帰、ポアソン回帰、ロジステック回帰の3つです(ガンマ回帰は対応していません)。

ステップワイズ法による予測変数削減については色々な意見があるようです(基本的にAICやBICなどの値を見て機械的に予測変数を削減するものなので、モデルをしっかりと解釈して予測変数を削減しているわけでないためです)。

ステップワイズツール(Stepwise)の使い方

ステップワイズツールは、2つの入力を持っています。

入力2つはどちらにでも同じように入力することができますが、片方は学習した線形回帰、ポアソン回帰またはロジステック回帰のモデルを入力し、もう片方は学習時に用いたトレーニングデータを入力します。

つまり、線形回帰であれば以下のようなワークフローになります。

設定

設定は非常にシンプルです。検索の方向と調整済み適合度指標の2つのみです。

検索の方向

  • 前進と後退の両方向
  • 後退のみ

「後退」は、選択したすべての予測変数を含むモデルがスタートです。そこから重要ではない変数を、適合度指標が改善しなくなるまで削除します。一方「前進」は、切片(定数)のみのモデルから開始し、適合指標を最も改善する予測変数を追加していき、適合指標の改善がなくなるまで変数を追加します。

調整済み適合度指標

変数を選択する際の指標としてAICとBICから選択することができます。

  • AIC(Akaike’s Information Criterion):赤池情報量規準
  • BIC(Bayesian Information Criterion):ベイズ情報量規準

BICはモデルに含まれる変数が多い場合にペナルティを与えるため、一般的にAICよりも変数が少なくなります。

レポートを読み解く

基本的に元になったモデルと同じレポートが出てきます。それによって、元のモデルと比較することができます。

一番わかり易いのは、係数とF統計量のところの項目かと思いますので、まずそれを比較してみましょう。

こちらはステップワイズで両方向、AICのオプションで実行したときのものです。

一方、フルモデルはこちらです。

フルモデルでは、予測変数が18個ありますが、ステップワイズツールを実行すると12個まで削減されました。また、削減後のモデルのほうが、各予測変数の有意性コードで星の数が増えているものがあります。

残差標準誤差も0.0032899からステップワイズにより0.0027772まで改善しています。

オプションを変えて比較

次にオプションを変えてみましょう。

前進と後退の両方向、AIC

前進と後退の両方向、BIC

後退のみ、AIC

これらの結果をまとめてみましょう。

モデルオプション予測変数の数残差標準誤差F統計量
両方向、AIC120.002777265644
両方向、BIC110.00281469751
後退のみ、AIC120.002777265644

どうやら、「両方向のAIC」と「後退のみのAIC」では同じ予測変数が選択されています。

さらに、モデル比較ツールでRMSEなどの指標で比較することもできます。

本来は検証用データで行うべきですが、今回はトレーニングデータで行っています。

まとめ

  • ステップワイズツールは、線形回帰ツール、ポアソン回帰ツール、ロジスティック回帰ツールにて、予測変数を削減することが可能です
  • 予測変数は適切なものを選択できたら、毎回ステップワイズを行うのは時間の無駄なので、元の線形回帰ツールなどに適応して削除してしまうのが良いかと思います(ステップワイズツールでできあがるのは単なる元のモデルから予測変数を削除しただけのものなので)。もちろん、ステップワイズツールで作成したモデル自体はそのまま保存して利用することができます。

参考

ステップワイズツールについて書かれたデータサイエンスブログです。

サンプルワークフロー

コメント

タイトルとURLをコピーしました