それでは、Alteryx Predictive Masterの出題範囲について、「Predictive Master Certification Exam Prep Guide」に書かれている内容を紐解いていきたいと思います。
なお、関連記事を書きましたら、こちらの記事もリンクを張るなどのアップデートを行っていきたいと思います。
試験の概要
前回も引用しましたが、再度引用します。
Alteryx Predictive Master認定試験は、複雑な予測分析の問題を解決するためにプラットフォームを使用する能力を測定します。以下のパレットにあるツールの包括的な知識を持っている必要があります。Data Investigation、Predictive、Time Series、Predictive Grouping、Prescriptiveの各パレットのツールの包括的な知識と、それらを使用して複雑なタスクを効率的かつ効果的に実行する能力が必要です。
Alteryx Predictive Master Exam Prep GuideをDeepLで翻訳
認定試験で問われるのは、以下のツールパレット内のツールとなります。
- データ調査(Data Investigation)
- 予測(Predictive)
- 時系列(Time Series)
- 予測グルーピング(Predictie Grouping)
- 処方的分析(Prescriptive)
さらに、PDFの内容を見ていきましょう。
配分
- 分類・・・28%
- 回帰・・・30%
- クラスタリング・・・10%
- 時系列・・・17%
- 最適化・・・15%
この配分だと、6問中、大問として1問ずつ割り当てて分類か回帰のいずれかが2問くらいあるのでしょうか?いずれにしても、分類と回帰だけ100%できれば65%は突破できるという計算になるのかもしれません。いずれにしても分類と回帰はしっかり抑えておきたいところです。
データ準備
- 欠損値のインピュテーション(インピュテーションツール)
- アンバランスなデータセットの取り扱い(オーバーサンプルフィールドツール)
- 学習用と検証用のデータセットの作成(サンプル作成ツール)
データ準備は、いわゆる機械学習のデータ準備の内容となっています。それぞれのツールの使い方にはしっかり習熟しておく必要がありそうです(が、それほど難しくはないかと)。
欠損値のインピュテーション(インピュテーションツール)
インピュテーションツールは、データサイエンス100ノックの81日目で説明しています。
アンバランスなデータセットの取り扱い(オーバーサンプルフィールドツール)
オーバーサンプルフィールドツールは、ちょっとわかりにくいので少し慣れておきましょう。データサイエンス100本ノックの91日目で説明しています。主にはカテゴリ間でデータ量に差分がある場合に調整するためのものです。基本的に多い方のデータをサンプリングして少ない方のデータ量に合わせこんでいくため、全体的なデータ量が減ってしまうということには注意すべきですが、そこまで問題には出てこないかもしれないですね。
学習用と検証用のデータセットの作成(サンプル作成ツール)
サンプル作成ツールは、データサイエンス100本ノックの89日目で説明しています。
データ調査
- 特徴量エンジニアリング
- PCA(主成分分析)を使った特徴量の次元削減
- 相関メトリクスを用いた予測変数の選択
- 予測変数の適切な標準化
- データ調査レポートの解釈
特徴量エンジニアリング
特徴量エンジニアリングは、様々な手法が出るので、出た問題に対して対応するしかないと思いますが、基本的にはまったく新しい項目を作り出して特徴量に含める、という問題が出るとは思えません(問題文中に指示があって、それを作る、ということはあるかもしれませんね)。
PCA(主成分分析)を使った特徴量の次元削減
PCA(主成分分析)は、サンプルワークフローがあるので見ておきましょう。メニューの「ヘルプ」-「サンプルワークフロー」-「Predictive tool samples」-「Predictive Analytics」にある「Principal Components」がそれです。「Alteryxの主成分分析ツールを読み解く」で詳しく解説します。
相関メトリクスを用いた予測変数の選択
Alteryxの予測モデルのためのデータ準備(2)にて予測変数の選択法について記載しました。ここからさらに量的変数と質的変数についてそれぞれ利用できるツールを解説していきます。
予測変数の適切な標準化
「予測変数の適切な標準化」については、データサイエンス100本ノックでも出てきた標準化、正規化、あたりは計算することになるかもしれませんね・・・。
Alteryxでも実は不偏標準偏差(n-1で割るバージョン)を使った標準化については、「Standardize z-score」というマクロがプリインストールされていて(C:\Program Files\Alteryx\bin\RuntimeData\Macros\Predictive Tools\Supporting_Macros)、こちらを使うこともできます(AMP Engineオンだと結果がおかしくなるので、オフで使いましょう)。
同様に、正規化も「Standardize Unit Interval」というマクロが標準化と同じようにプリインストールされています(こちらもAMP Engineオフで使いましょう)。
データ調査レポートの解釈
Alteryxの予測モデルのためのデータ準備(1)というページにデータ調査ツールの記事を書きました。Alteryxでは、各フィールドの情報をデータ調査ツールで調べることができます。その他、「基本データプロファイル」というツールも同様の情報を得られますが、データの持ち方が異なり、こちらはデータを縦持ちで持っているため、自動化の際などに向いているツールとなります。
また、みなさん普段から使っている「閲覧」ツールでも確認することができます。クイックに見たい時はこちらがおすすめです。
モデル学習
- 分類のための予測モデルの学習(勾配ブースティング、ロジステック回帰、単純ベイズ分類器、決定木、SVM、ランダムフォレスト、ニューラルネットワーク)
- 回帰のための予測モデルの学習(線形回帰、ガンマ回帰、ステップワイズによる変数削減を用いた線形回帰)
- 時系列予測のための予測モデルの学習(ETS、ARIMA)
- クラスター分析のための予測モデルの学習
- 最適化のための予測モデルの学習
クラスター分析も最適化も基本的に学習はないと思うのですが・・・クラスター付加ツールなどまで使うイメージでしょうか・・・。
いずれにしても、分類モデル、回帰モデル、時系列モデルは学習ができるようにする必要があります。また、K重心クラスター分析(K-Centroids Cluster Analysis)については、クラスター付加というツールがあるので、そちらも使えるようにしておくべきかと思います。
モデル比較
- モデル比較ツール、クロスバリデーションツールを使ったモデル比較と検証
- 次元削減を行ったモデルとフルモデルのパフォーマンス比較
- 2つのモデル間で統計的に差異があるかどうか判断
- 時系列予測モデルの比較
いずれもサンプルワークフローがあるものばかりなので、一通り抑えておくべきでしょう。
クロスバリデーションツールについては、標準ツールみたいな顔をしつつ、ギャラリーから落としてくる必要があります。本体はこちら、サンプルワークフローも落としましょう。
2つ目(および3つ目も同様です)、次元削減を行ったモデルとフルモデルのパフォーマンス比較は、F検定ツール(Nested Test)を使います。これは線形回帰ツールのサンプルワークフローで使い方を確認できます。
適合統計量の解釈
- 誤差の解釈(RMSE、MAPE、MASE)
- クラスの精度指標(precision measures)の比較
- F1スコアとモデルの平均精度(average accuracy)の比較
- クラスタ情報統計の解釈
こちらは出てきたモデルの良し悪しの判断をするための統計量の解釈をできるようにする、ということで、モデルのレポートの解釈ができる必要があります。
基本的に誤差は小さいほうが良いモデルです。
結果の解釈と適用
- 誤って分類されたレコードの特定
- 線形回帰モデルの係数(coefficients)の解釈と特定の変数の影響を判断
- 残差(residuals)と適合値(fitted value)のプロットの解釈
- 混同行列(confusion matrix)の解釈
- 交互作用が存在するかどうかを決定する
- 主成分分析(PCA)の分散の割合の測定値の解釈
- 最も良い予測変数を特定
- (時系列予測)将来の期間を予測する
- 学習済みモデルで新しいデータを予測する
- (クラスタリング)インスタンスをクラスタに割り当てる
このあたりも、モデルのレポートなどの解釈ができるようにしておく必要があります。
(クラスタリング)インスタンスをクラスタに割り当てる
こちらは、Alteryxでクラスタリングを行ってみるに記載した通り、K重心クラスター分析ツールの結果にクラスター付加ツールを使ってクラスタの割当を行っていきます。
まとめ
全体的に、小難しいワークフローを組むというより、予測ツールをしっかりレポートまで含めて理解しておく必要がありそうです。あと、日本語じゃなくて英語で理解できるようにする(単語をしっかり抑えておく)必要がありそうです。
基本的にDesignerでできる範囲のことが出題されるのではないかと思うので、しっかりデータ調査、予測、予測グルーピング(MB除く)、時系列、処方的分析(最適化のみ)を抑えておけば良いのではないかと思います。
コメント