Alteryx Predictive Master資格取得を目指すシリーズです。
今回は、Alteryxの「予測」カテゴリにある教師あり学習の機械学習モデルの概要について見ていきたいと思います。なお、インテリジェンススイートや時系列カテゴリなどにはその他のモデルもあります。
機械学習で予測する際、ターゲット変数の種類に応じて分類と回帰の二種類に分かれます。それぞれの処理ができるモデルは複数あります。分類専用、回帰専用のモデルもありますし、両方できるものもあります。Alteryxの「予測」カテゴリでは以下のようになります。
回帰しかできないモデル、分類しかできないモデル、回帰・分類両方できるモデルの3種類に分けることができます。両方できるモデルは、分類の方が得意なモデル、回帰のほうが得意なモデル、とそれぞれのモデルに特徴があります。
回帰は、基本的に数値(基本的には整数ではなく、小数を含むような数値)を予測するモデルで、分類モデルは、2値(バイナリ)、すなわちYes/No、1/0、True/Falseを予測するモデルと、3以上のカテゴリ予測を行うものに分けられます。
ちなみに、分類モデルのうち、教師なし学習のもの、つまりクラスタリングは別の記事に記載しております。
回帰モデル(Regressors)
回帰専用のモデルとしては、
の3つが利用可能です。この3つのモデルは、データの分布で使い分ける形となります。すなわち、直線上の分布であれば、線形回帰、ガンマ分布であれば、ガンマ回帰、ポアソン分布であれば、ポアソン回帰となります。それぞれ、分布分析ツールで確認することが可能です(もしくは、散布図で目で見て確認)。
ポアソン分布は、何かが一定時間に起きる確率です。これは、Wikipediaの例がわかりやすいです。例:「1時間に特定の交差点を通過する車両の台数。」
回帰専用モデルについては、「Alteryxの回帰専用モデル」に詳細を記載しました。
分類モデル(Classifiers)
分類専用のモデルとしては、
の2つが利用可能です。なお、ロジスティック回帰は2値予測専用のモデルです。単純ベイズ分類器は、スパムメールの判定などに使われます。
分類専用モデルについてはこちら「Alteryxの分類専用モデル」に詳細を記載しました。
回帰・分類モデル
回帰も分類もできるモデルとしては、
- 決定木(Decision Tree)
- ランダムフォレスト(Forest Model)
- 勾配ブースティング(Boosted Model)
- ニューラルネットワーク(Neural Network)
- SVM(Support Vector Machine)
- スプラインモデル(Spline Model)
が利用可能です。
このうち、決定木、ランダムフォレスト、勾配ブースティングについては、ベースは決定木のモデルで、複数の決定木を組み合わせたのがランダムフォレスト、勾配ブースティングとなります。勾配ブースティングについては、Kaggleなどでも非常に人気のあるXGBoostやLightGBMなどの元になるモデルで精度も高いです。
ニューラルネットワークは、ディープラーニングの元となっているモデルで、隠れ層が1つのみの非常に単純なディープラーニングのモデルと言えるかもしれません。
SVMは、各カテゴリを分類する際に、カテゴリごとの真ん中に線(や平面)を作成するようなモデルで、このときマージン最大化という考え方を取り入れています。分類が得意なモデルです。
スプラインモデルは、線形回帰を折れ線で表現するようなモデルです。
それぞれのモデルで、分類が得意なモデル、回帰が得意なモデル、とそれぞれ特徴がありますが、いずれも非線形データに対して対応可能なモデルとなります。
決定木、ランダムフォレスト、勾配ブースティングについては、「Alteryxの分類・回帰モデル」に詳細を記載しました。その他のモデルはそれぞれ個別ページに詳細を記載しました。「Alteryxのニューラルネットワークツールを読み解く」、「AlteryxのSVM(サポートベクターマシーン)ツールを読み解く」、「Alteryxのスプラインモデルツールを読み解く」。
コメント