Alteryx Predictive Master資格取得を目指すシリーズです。
Alteryxの予測モデルのためのデータ準備(1)に引き続き、予測モデルのためのデータ準備について読み解いていきましょう。今回は、予測モデルのためにどの変数を使っていくか、というお話です。
言葉の定義について
まず、変数について様々な呼び方があるので、ここで定義したいと思います。
ターゲット変数:予測をしたい変数。統計学でいうところの「目的変数」。海外製のツールなどでは「ターゲット変数」とされていることが多いかもしれません(ネット調べ)。他の変数の結果として得られるものと考えてよいかと思います。
予測変数:予測をしたい変数を説明するもの。統計学でいうところの「説明変数」。ターゲット変数の要因となる変数。予測変数を予測モデルに入れることで、ターゲット変数を得ることができます。
ここでは、効果的な予測変数を選択するために、どのツールを使って決定するか、ということを学びます。
量的変数とカテゴリ変数
予測変数には、量的変数と質的(カテゴリ)変数があります。
量的変数:数値の大小に意味がある変数。例えば、売上、利益、テストの得点、体重、身長など。ただし、数値で表されていても、カテゴリを示すような場合(例えば、1が男性、2が女性、としたような場合)は質的変数(カテゴリ変数)となります。
質的変数:カテゴリ変数。数値以外の変数もしくは数値であっても数値の大小に意味がない変数。例えば、色や味、性別、住所などが該当します。
この二種類の変数については、それぞれ取り扱いが異なります。一部の質的変数は量的変数へと変換することが可能なので、そのような場合は量的変数にしてしまいましょう(例えば、サイズの大、中、小を3、2、1にするなど)。
また、機械学習のモデルによっては、質的変数はそのまま使うことができないため、ワンホットエンコーディング(One-Hot Encoding)という技術を用いる必要があります(が、Alteryxの機械学習モデルは自動的にワンホットエンコーディングを行ってくれます)。
基本的に、予測変数として選択すべきものは、予測変数とターゲット変数間に相関があるような変数です。つまり、ターゲット変数と予測変数の間の相関を調べることで、予測変数として採用すべきかどうかを検討することができます。
さて、量的変数と質的変数で、それぞれどの変数を説明変数として採用すべきかどうか、相関を調べるためにはそれぞれ異なった手法で行います。その手法について見ていきたいと思います。
量的変数の場合
Alteryxで相関を計算するためのツールは以下のものです。
- ピアソン相関ツール
- スピアマン相関ツール
- アソシエーション分析ツール
ピアソン相関とスピアマン相関はデータによって使い分ける必要があります。
ピアソン相関は、連続的な値の際に使用し、スピアマン相関は、離散的な値(階級値など)の際に使用します。いずれも2つの値の相関しか取れないのですが、アソシエーション分析ツールを使えば、複数のフィールドを一気に比較することができます。結論的には、相関のある変数を見つけたい場合はアソシエーション分析を主に使う、ということになります。
いずれにしても、ピアソン相関もスピアマン相関も放物線のような散らばりの場合は相関をうまく判定できません。ある程度線形的なものに限ります。
質的変数の場合
カテゴリ変数の場合は、以下のツールを使います。
- 分割表ツール
- t検定ツール
正直なところ、カテゴリ変数の場合は面倒です。アソシエーションツール的に一気に複数の変数について見れるものがないため、地道に確認を行っていく必要があります。
分割表ツールは、カイ二乗検定を含めることで、統計的に有意に差があるかどうかを判定することが可能です。
t検定ツールは、ウェルチのt検定を行い、2つの母集団が等しい平均を持つかどうか(統計的に有意に平均値に差があるかどうか)を判断することができます。カテゴリ変数内で、値によって平均値に差があるかどうかを判断することができます。性質上、利用場所はカテゴリ変数と数値の組み合わせに限られます。
多重共線性(Multicollinearity)
多重共線性(英語のMulticollinearityを略してマルチコとよく言われます)は避ける、というのが良いモデルを作る際のセオリーです。多重共線性とは、予測変数同士で強い相関を持つことです。
ただし、2変数間の相関を見るだけでは不足しており、3変数間で相関していたり、といった際も気にしなければならないです。これを見るにはVIF(Variance Inflation Factors)を計算する必要があります。Alteryxでは、Variance Inflation Factors ToolがCommunity Galleryで配布されています(Predictive Master試験の範囲外だと思われるため説明は割愛します)。
それでは次回、量的変数、質的変数の場合についてそれぞれ各ツールを見ていきたいと思います。
参考資料
Pre-Predictive: Using the Data Investigation Tools – Part 2 of 4
Pre-Predictive: Using the Data Investigation Tools – Part 2 of 4は、度数分布表ツール、分割表ツール、分布分析ツールについて解説されています。
コメント