Alteryx Predictive Masterの試験内容を紐解く

Alteryx

それでは、Alteryx Predictive Masterの出題範囲について、「Predictive Master Certification Exam Prep Guide」に書かれている内容を紐解いていきたいと思います。

なお、関連記事を書きましたら、こちらの記事もリンクを張るなどのアップデートを行っていきたいと思います。

試験の概要

前回も引用しましたが、再度引用します。

Alteryx Predictive Master認定試験は、複雑な予測分析の問題を解決するためにプラットフォームを使用する能力を測定します。以下のパレットにあるツールの包括的な知識を持っている必要があります。Data Investigation、Predictive、Time Series、Predictive Grouping、Prescriptiveの各パレットのツールの包括的な知識と、それらを使用して複雑なタスクを効率的かつ効果的に実行する能力が必要です。

Alteryx Predictive Master Exam Prep GuideをDeepLで翻訳

認定試験で問われるのは、以下のツールパレット内のツールとなります。

  • データ調査(Data Investigation)
  • 予測(Predictive)
  • 時系列(Time Series)
  • 予測グルーピング(Predictie Grouping)
  • 処方的分析(Prescriptive)

さらに、PDFの内容を見ていきましょう。

配分

  • 分類・・・28%
  • 回帰・・・30%
  • クラスタリング・・・10%
  • 時系列・・・17%
  • 最適化・・・15%

この配分だと、6問中、大問として1問ずつ割り当てて分類か回帰のいずれかが2問くらいあるのでしょうか?いずれにしても、分類と回帰だけ100%できれば65%は突破できるという計算になるのかもしれません。いずれにしても分類と回帰はしっかり抑えておきたいところです。

データ準備

  • 欠損値のインピュテーション(インピュテーションツール)
  • アンバランスなデータセットの取り扱い(オーバーサンプルフィールドツール)
  • 学習用と検証用のデータセットの作成(サンプル作成ツール)

データ準備は、いわゆる機械学習のデータ準備の内容となっています。それぞれのツールの使い方にはしっかり習熟しておく必要がありそうです(が、それほど難しくはないかと)。

欠損値のインピュテーション(インピュテーションツール)

インピュテーションツールは、データサイエンス100ノックの81日目で説明しています。

アンバランスなデータセットの取り扱い(オーバーサンプルフィールドツール)

オーバーサンプルフィールドツールは、ちょっとわかりにくいので少し慣れておきましょう。データサイエンス100本ノックの91日目で説明しています。主にはカテゴリ間でデータ量に差分がある場合に調整するためのものです。基本的に多い方のデータをサンプリングして少ない方のデータ量に合わせこんでいくため、全体的なデータ量が減ってしまうということには注意すべきですが、そこまで問題には出てこないかもしれないですね。

学習用と検証用のデータセットの作成(サンプル作成ツール)

サンプル作成ツールは、データサイエンス100本ノックの89日目で説明しています。

データ調査

  • 特徴量エンジニアリング
  • PCA(主成分分析)を使った特徴量の次元削減
  • 相関メトリクスを用いた予測変数の選択
  • 予測変数の適切な標準化
  • データ調査レポートの解釈

特徴量エンジニアリング

特徴量エンジニアリングは、様々な手法が出るので、出た問題に対して対応するしかないと思いますが、基本的にはまったく新しい項目を作り出して特徴量に含める、という問題が出るとは思えません(問題文中に指示があって、それを作る、ということはあるかもしれませんね)。

PCA(主成分分析)を使った特徴量の次元削減

PCA(主成分分析)は、サンプルワークフローがあるので見ておきましょう。メニューの「ヘルプ」-「サンプルワークフロー」-「Predictive tool samples」-「Predictive Analytics」にある「Principal Components」がそれです。「Alteryxの主成分分析ツールを読み解く」で詳しく解説します。

相関メトリクスを用いた予測変数の選択

Alteryxの予測モデルのためのデータ準備(2)にて予測変数の選択法について記載しました。ここからさらに量的変数と質的変数についてそれぞれ利用できるツールを解説していきます。また、改めて「ピアソンの積率相関係数とスピアマン順位相関係数」にてピアソン相関とスピアマン相関について違いを書いてみました。

予測変数の適切な標準化

「予測変数の適切な標準化」については、データサイエンス100本ノックでも出てきた標準化正規化、あたりは計算することになるかもしれませんね・・・。

Alteryxでも実は不偏標準偏差(n-1で割るバージョン)を使った標準化については、「Standardize z-score」というマクロがプリインストールされていて(C:\Program Files\Alteryx\bin\RuntimeData\Macros\Predictive Tools\Supporting_Macros)、こちらを使うこともできます(AMP Engineオンだと結果がおかしくなるので、オフで使いましょう)。

同様に、正規化も「Standardize Unit Interval」というマクロが標準化と同じようにプリインストールされています(こちらもAMP Engineオフで使いましょう)。

データ調査レポートの解釈

Alteryxの予測モデルのためのデータ準備(1)というページにデータ調査ツールの記事を書きました。Alteryxでは、各フィールドの情報をデータ調査ツールで調べることができます。その他、「基本データプロファイル」というツールも同様の情報を得られますが、データの持ち方が異なり、こちらはデータを縦持ちで持っているため、自動化の際などに向いているツールとなります。

また、みなさん普段から使っている「閲覧」ツールでも確認することができます。クイックに見たい時はこちらがおすすめです。

モデル学習

  • 分類のための予測モデルの学習(勾配ブースティング、ロジステック回帰、単純ベイズ分類器、決定木、SVM、ランダムフォレスト、ニューラルネットワーク)
  • 回帰のための予測モデルの学習(線形回帰、ガンマ回帰、ステップワイズによる変数削減を用いた線形回帰)
  • 時系列予測のための予測モデルの学習(ETS、ARIMA)
  • クラスター分析のための予測モデルの学習
  • 最適化のための予測モデルの学習

クラスター分析も最適化も基本的に学習はないと思うのですが・・・クラスター付加ツールなどまで使うイメージでしょうか・・・。

いずれにしても、分類モデル、回帰モデル、時系列モデルは学習ができるようにする必要があります。また、K重心クラスター分析(K-Centroids Cluster Analysis)については、クラスター付加というツールがあるので、そちらも使えるようにしておくべきかと思います。

全体的な機械学習カテゴリのツールの概要については、「Alteryxの機械学習モデル概要」に記載しましたが列挙しただけです。

線形回帰、ガンマ回帰、ポアソン回帰については、「Alteryxの回帰専用モデル」に詳細を記載しました。ステップワイズによる変数削減については「Alteryxのステップワイズツールによる予測変数の選択」に詳細を記載しました。

分類モデル専用のロジスティック回帰、単純ベイズ分類器については「Alteryxの分類専用モデル」に詳細を記載しました。決定木、ランダムフォレスト、勾配ブースティングについては「Alteryxの分類・回帰モデル」に詳細を記載しました。SVMは「AlteryxのSVM(サポートベクターマシーン)ツールを読み解く」、スプラインモデル「Alteryxのスプラインモデルツールを読み解く」、ニューラルネットワークは「Alteryxのニューラルネットワークツールを読み解く」に詳細を記載しました。

時系列予測については、「Alteryxで時系列予測を行ってみる」に詳細を記載しました。

クラスタリングについては、「Alteryxでクラスタリングを行ってみる」に詳細を記載しました。

最適化については「Alteryxの最適化ツールの使い方」に詳細を記載しました。

モデル比較

  • モデル比較ツール、クロスバリデーションツールを使ったモデル比較と検証
  • 次元削減を行ったモデルとフルモデルのパフォーマンス比較
  • 2つのモデル間で統計的に差異があるかどうか判断
  • 時系列予測モデルの比較

いずれもサンプルワークフローがあるものばかりなので、一通り抑えておくべきでしょう。

クロスバリデーションツールについては、標準ツールみたいな顔をしつつ、ギャラリーから落としてくる必要があります。本体はこちらサンプルワークフローも落としましょう。

1つ目のモデル比較については、「Alteryxで機械学習モデルを比較する方法」に詳細を記載しました。

2つ目(および3つ目も同様です)、次元削減を行ったモデルとフルモデルのパフォーマンス比較は、F検定ツール(Nested Test)を使います。これは線形回帰ツールのサンプルワークフローで使い方を確認できます。記事「Alteryxで予測変数を削除したときの影響を確認する方法」も記載しました。

時系列予測については、「Alteryxで時系列予測を行ってみる」に詳細を記載しました。

適合統計量の解釈

  • 誤差の解釈(RMSE、MAPE、MASE)
  • クラスの精度指標(precision measures)の比較
  • F1スコアとモデルの平均精度(average accuracy)の比較
  • クラスタ情報統計の解釈

こちらは出てきたモデルの良し悪しの判断をするための統計量の解釈をできるようにする、ということで、モデルのレポートの解釈ができる必要があります。

基本的に誤差は小さいほうが良いモデルです。

なお、それぞれの解釈については各レポートの読み解きで行っています。RMSE/MAPE/MASE、F1スコアなどは「Alteryxの線形回帰ツールの結果を詳細に読み解く」を参照ください。

結果の解釈と適用

  • 誤って分類されたレコードの特定
  • 線形回帰モデルの係数(coefficients)の解釈と特定の変数の影響を判断
  • 残差(residuals)と適合値(fitted value)のプロットの解釈
  • 混同行列(confusion matrix)の解釈
  • 交互作用が存在するかどうかを決定する
  • 主成分分析(PCA)の分散の割合の測定値の解釈
  • 最も良い予測変数を特定
  • (時系列予測)将来の期間を予測する
  • 学習済みモデルで新しいデータを予測する
  • (クラスタリング)インスタンスをクラスタに割り当てる

このあたりも、モデルのレポートなどの解釈ができるようにしておく必要があります。残差と適合値プロットであれば、「Alteryxの線形回帰ツールの結果を詳細に読み解く」を参照ください。

学習済みモデルで新しいデータを予測する

Alteryxで学習した機械学習モデルを使って予測する方法」にスコアリングツールの使い方を詳細説明しています。

(クラスタリング)インスタンスをクラスタに割り当てる

こちらは、「Alteryxでクラスタリングを行ってみる」に記載した通り、K重心クラスター分析ツールの結果にクラスター付加ツールを使ってクラスタの割当を行っていきます。

まとめ

全体的に、小難しいワークフローを組むというより、予測ツールをしっかりレポートまで含めて理解しておく必要がありそうです。あと、日本語じゃなくて英語で理解できるようにする(単語をしっかり抑えておく)必要がありそうです。

基本的にDesignerでできる範囲のことが出題されるのではないかと思うので、しっかりデータ調査、予測、予測グルーピング(MB除く)、時系列、処方的分析(最適化のみ)を抑えておけば良いのではないかと思います。

コメント

タイトルとURLをコピーしました