それでは、Alteryx Predictive Masterの出題範囲について、「Predictive Master Certification Exam Prep Guide」に書かれている内容を紐解いていきたいと思います。
なお、関連記事を書きましたら、こちらの記事もリンクを張るなどのアップデートを行っていきたいと思います。
なお、2024/6/1に全体的に見直しを行いました。
試験の概要
前回も引用しましたが、再度引用します。
Alteryx Predictive Master認定試験は、複雑な予測分析の問題を解決するためにプラットフォームを使用する能力を測定します。以下のパレットにあるツールの包括的な知識を持っている必要があります。Data Investigation、Predictive、Time Series、Predictive Grouping、Prescriptiveの各パレットのツールの包括的な知識と、それらを使用して複雑なタスクを効率的かつ効果的に実行する能力が必要です。
Alteryx Predictive Master Exam Prep GuideをDeepLで翻訳
認定試験で問われるのは、以下のツールパレット内のツールとなります。
- データ調査(Data Investigation)
- 予測(Predictive)
- 時系列(Time Series)
- 予測グルーピング(Predictie Grouping)
- 処方的分析(Prescriptive)
さらに、PDFの内容を見ていきましょう。
配分
- 分類・・・28%
- 回帰・・・30%
- クラスタリング・・・10%
- 時系列・・・17%
- 最適化・・・15%
配分としては、この通り出題されます。私が3回受けた経験では、6問の大問で、分類が2問、それ以外は1問ずつとなります。ただし、回帰は1問ですがその分問題が長くなります(大問2問分くらいのボリュームになります)。分類、回帰がすべてできるとこれだけで58%で合格が近くなるので抑えておきたいところです。
また、各問題は最初にメインの主題を解き、それに続いて小問を複数解くような構成になっています。基本的に主題となる最初の問題が解けないと小問も解けないようになっています。例えば、最適化の問題が出たときに、最初にメインの最適化を行う問題で半分くらいの点数が決まり、残りの小問が数問ある、といった形です。いずれにしても大問からの流れで答える問題なので、まず大問を正確に解く必要があります。
データ準備
- 欠損値のインピュテーション(インピュテーションツール)
- アンバランスなデータセットの取り扱い(オーバーサンプルフィールドツール)
- 学習用と検証用のデータセットの作成(サンプル作成ツール)
データ準備は、いわゆる機械学習のデータ準備の内容となっています。それぞれのツールの使い方にはしっかり習熟しておく必要があります(が、それほど難しくはないかと)。
欠損値のインピュテーション(インピュテーションツール)
インピュテーションツールは、本ブログの「データサイエンス100ノックの81日目」で説明しています。学習用データでインピュテーションした場合、検証用、予測用のデータに対しても同じ値でインピュテーションする必要があります。インピュテーションした場合にどのような値でインピュテーションされたのかわかるようにしておく必要があります。
アンバランスなデータセットの取り扱い(オーバーサンプルフィールドツール)
オーバーサンプルフィールドツールは、ちょっとわかりにくいので少し慣れておきましょう。本ブログの「データサイエンス100本ノックの91日目」で説明しています。予測するカテゴリ値のデータにおいて、データ量に差分がある場合に調整するためのものです。本ツールはバイナリデータに対して適用するツールで、現実の問題であれば多い方のデータをサンプリングして少ない方のデータ量に合わせこんでいくツールです(いわゆる「アンダーサンプリング」です)。
現実の問題では、全体的なデータ量が減ってしまうということには注意すべきです。試験ではそのあたりは考慮せず普通に使っていきます。現実の問題でオーバーサンプリングするのは理論的にはその通りやるべきなのでしょうがどうやってデータ量を増やすのか、というところでAlteryx単体ではカバーできず、SMOTOなどの手法をRやPythonで使っていくことになります。
学習用と検証用のデータセットの作成(サンプル作成ツール)
サンプル作成ツールは機械学習の基礎の基礎のツールです。本ブログの「データサイエンス100本ノックの89日目」で説明していますが、学習用と検証用のデータセットを分割するためのものです。
データ調査
- 特徴量エンジニアリング
- PCA(主成分分析)を使った特徴量の次元削減
- 相関メトリクスを用いた予測変数の選択
- 予測変数の適切な標準化
- データ調査レポートの解釈
特徴量エンジニアリング
特徴量エンジニアリングは、様々な手法が出るので、試験的にはあまり向いていません。ということで、問題文中にどのように行うか指示があるので、正確にその説明に沿ってデータの加工を行っていく必要があります。
PCA(主成分分析)を使った特徴量の次元削減
PCA(主成分分析)は、サンプルワークフローがあるので見ておきましょう。メニューの「ヘルプ」-「サンプルワークフロー」-「Predictive tool samples」-「Predictive Analytics」にある「Principal Components」がそれです。「Alteryxの主成分分析ツールを読み解く」で詳しく解説します。
相関メトリクスを用いた予測変数の選択
予測変数の選択は機械学習モデルの構築で非常に重要です。本ブログの「Alteryxの予測モデルのためのデータ準備(2)」にて予測変数の選択法について記載しました。ここからさらに量的変数と質的変数についてそれぞれ利用できるツールを解説していきます。また、改めて「ピアソンの積率相関係数とスピアマン順位相関係数」にてピアソン相関とスピアマン相関について違いを書いてみました。
予測変数の適切な標準化
「予測変数の適切な標準化」については、データサイエンス100本ノックでも出てきた標準化、正規化、あたりは計算できるようにしましょう。
Alteryxでも実は不偏標準偏差(n-1で割るバージョン)を使った標準化については、「Standardize z-score」というマクロがプリインストールされていて(C:\Program Files\Alteryx\bin\RuntimeData\Macros\Predictive Tools\Supporting_Macros)、こちらを使うこともできます(AMP Engineオンだと結果がおかしくなるので、オフで使いましょう)。
同様に、正規化も「Standardize Unit Interval」というマクロが標準化と同じようにプリインストールされています(こちらもAMP Engineオフで使いましょう)。
データ調査レポートの解釈
本ブログの「Alteryxの予測モデルのためのデータ準備(1)」というページにデータ調査ツールの記事を書きました。Alteryxでは、各フィールドの情報をデータ調査ツールで調べることができます。その他、「基本データプロファイル」というツールも同様の情報を得られますが、データの持ち方が異なり、こちらはデータを縦持ちで持っているため、自動化の際などに向いているツールとなります。
また、みなさん普段から使っている「閲覧」ツールでも確認することができます。クイックに見たい時はこちらがおすすめです。
モデル学習
- 分類のための予測モデルの学習(勾配ブースティング、ロジステック回帰、単純ベイズ分類器、決定木、SVM、ランダムフォレスト、ニューラルネットワーク)
- 回帰のための予測モデルの学習(線形回帰、ガンマ回帰、ステップワイズによる変数削減を用いた線形回帰)
- 時系列予測のための予測モデルの学習(ETS、ARIMA)
- クラスター分析のための予測モデルの学習
- 最適化のための予測モデルの学習
クラスター分析も最適化も基本的に学習はないので、PDFの書き方がおかしいのですが、いずれにしても普通に使えるようにしましょう。
いずれにしても、分類モデル、回帰モデル、時系列モデルは学習ができるようにする必要があります。また、K重心クラスター分析(K-Centroids Cluster Analysis)については、クラスター付加というツールがあるので、そちらも使えるようにしておくべきです。
全体的な機械学習カテゴリのツールの概要については、「Alteryxの機械学習モデル概要」に記載しましたが列挙しただけです。
線形回帰、ガンマ回帰、ポアソン回帰については、「Alteryxの回帰専用モデル」に詳細を記載しました。ステップワイズによる変数削減については「Alteryxのステップワイズツールによる予測変数の選択」に詳細を記載しました。
分類モデル専用のロジスティック回帰、単純ベイズ分類器については「Alteryxの分類専用モデル」に詳細を記載しました。決定木、ランダムフォレスト、勾配ブースティングについては「Alteryxの分類・回帰モデル」に詳細を記載しました。SVMは「AlteryxのSVM(サポートベクターマシーン)ツールを読み解く」、スプラインモデル「Alteryxのスプラインモデルツールを読み解く」、ニューラルネットワークは「Alteryxのニューラルネットワークツールを読み解く」に詳細を記載しました。
時系列予測については、「Alteryxで時系列予測を行ってみる」に詳細を記載しました。ETS、ARIMA、ARIMA共変量予測ももちろんですが、いずれもモデルのカスタマイズができるようにする必要があります。
クラスタリングについては、「Alteryxでクラスタリングを行ってみる」に詳細を記載しました。
最適化については「Alteryxの最適化ツールの使い方」に詳細を記載しました。
モデル比較
- モデル比較ツール、クロスバリデーションツールを使ったモデル比較と検証
- 次元削減を行ったモデルとフルモデルのパフォーマンス比較
- 2つのモデル間で統計的に差異があるかどうか判断
- 時系列予測モデルの比較
いずれもサンプルワークフローがあるものばかりなので、一通り抑えておくべきです。
クロスバリデーションツールについては、標準ツールみたいな顔をしつつ、ギャラリーから落としてくる必要があります。本体はこちら、サンプルワークフローも落としましょう。本番の試験では最初から入っているのでご安心を。
1つ目のモデル比較については、「Alteryxで機械学習モデルを比較する方法」に詳細を記載しました。
2つ目(および3つ目も同様です)、次元削減を行ったモデルとフルモデルのパフォーマンス比較は、F検定ツール(Nested Test)を使います。これは線形回帰ツールのサンプルワークフローで使い方を確認できます。記事「Alteryxで予測変数を削除したときの影響を確認する方法」にも記載しました。
時系列予測については、「Alteryxで時系列予測を行ってみる」に詳細を記載しました。
適合統計量の解釈
- 誤差の解釈(RMSE、MAPE、MASE)
- クラスの精度指標(precision measures)の比較
- F1スコアとモデルの平均精度(average accuracy)の比較
- クラスタ情報統計の解釈
こちらは出てきたモデルの良し悪しの判断をするための統計量の解釈をできるようにする、ということで、モデルのレポートの解釈ができる必要があります。
基本的に誤差は小さいほうが良いモデルです。
なお、それぞれの解釈については各レポートの読み解きで行っています。RMSE/MAPE/MASE、F1スコアなどは「Alteryxの線形回帰ツールの結果を詳細に読み解く」を参照ください。「Alteryxで機械学習モデルの性能評価を行う」についても合わせて参照ください。
結果の解釈と適用
- 誤って分類されたレコードの特定
- 線形回帰モデルの係数(coefficients)の解釈と特定の変数の影響を判断
- 残差(residuals)と適合値(fitted value)のプロットの解釈
- 混同行列(confusion matrix)の解釈
- 交互作用が存在するかどうかを決定する
- 主成分分析(PCA)の分散の割合の測定値の解釈
- 最も良い予測変数を特定
- (時系列予測)将来の期間を予測する
- 学習済みモデルで新しいデータを予測する
- (クラスタリング)インスタンスをクラスタに割り当てる
このあたりも、モデルのレポートなどの解釈ができるようにしておく必要があります。残差と適合値プロットであれば、「Alteryxの線形回帰ツールの結果を詳細に読み解く」を参照ください。また、結果の解釈という部分について全体的に「Alteryxで機械学習モデルの性能評価を行う」に記載しています。
学習済みモデルで新しいデータを予測する
「Alteryxで学習した機械学習モデルを使って予測する方法」にスコアリングツールの使い方を詳細説明しています。
(クラスタリング)インスタンスをクラスタに割り当てる
こちらは、「Alteryxでクラスタリングを行ってみる」に記載した通り、K重心クラスター分析ツールの結果にクラスター付加ツールを使ってクラスタの割当を行っていきます。
Prep Guideの公式学習コンテンツについて
公式の学習コンテンツは以下のとおりです。Predictive Masterのコンテンツはかなりの部分が英語のみとなっているためご注意ください。
データ調査
視聴:
読み物:
- How To: Complete Data Preparation and Investigation for Predictive Modeling(ナレッジベース)
- Pre-Predictive: Using the Data Investigation Tools – Part 3(ナレッジベース)
- Adventures in Data: Exploratory Data Analysis(ブログ記事)
- Tool Mastery: Association Analysis(ツールマスタリー)
- Tool Mastery: Test of Means(ツールマスタリー)
回帰と分類
視聴:
読み物:
- Predictive Tools Flowchart(ブログ記事)
- What is a Confusion Matrix?(ブログ記事)→混合行列についての一般的な解説です
- Holdouts and Cross-Validation: Why the Data Used to Evaluate Your Model Matters(ブログ記事)→交差検証とホールドアウト法の一般的な解説です
- Understanding the Outputs of the Decision Tree Tool(ナレッジベース)
- An Overview of Stepwise Regression(ブログ記事)
- Bias Versus Variance(ブログ記事)→偏りと分散についての一般的な解説です(日本語記事例:バイアスとバリアンス(偏りと分散)のトレードオフ(Bias-Variance Tradeoff)とは?)
- Tool Mastery: Score Tool(ツールマスタリー)
- Model Comparison Tool(AlteryxのツールHelp)
- Cross-Validation Tool(AlteryxのツールHelp)
時系列予測
視聴:
- What is Time Series Forecasting? (Data Science Learning Path)
- Preparing Time Series Data (Data Science Learning Path)
- ETS and ARIMA (Data Science Learning Path)
- Selecting and Scaling Models (Data Science Learning Path)
- Time Series Modeling
読み物:
- How to Use the ARIMA Tool(ナレッジベース)
- How to Use the ETS Tool(ナレッジベース)
- Champagne Analytics: A Time Series Tutorial(ブログ記事)
- Back to the Future: ARIMA and Forecasting with Covariates(ブログ記事)
Weekly Challenge:
- チャレンジ #18: 2019 グランプリ US – Heat1(英語版:Challenge #170: 2019 Grand Prix US – Heat 1)
- Challenge #132: When Will Community Hit 1,000,000 Posts?(古すぎて日本語版がありません)
最適化
視聴:
Prescriptive Optimization(2024/6時点、動画が非公開になっています)- Flex Your Prescriptive Optimization Muscles
読み物:
- Tool Mastery: Optimization Tool(ツールマスタリー)
- Legolytics – Optimizing Cost(ブログ記事)
- Prescriptive Analytics: Unleash the Optimization Tool(ブログ記事)
Weekly Challenge:
クラスタリング
視聴:
- Predictive Grouping (Data Science Learning Path)
- Clustering in Designer (Data Science Learning Path)
- Principal Component Analysis (Data Science Learning Path)
読み物:
- Tidying up with PCA: An Introduction to Principal Component Analysis(ブログ記事)
- Standardization in Cluster Analysis(ナレッジベース)
- Tool Mastery: K-Centroids Cluster Analysis(ツールマスタリー)
まとめ
全体的に、小難しいワークフローを組むというより、予測ツールをしっかりレポートまで含めて理解しておく必要がありますし、各作業の意味を理解する必要があります。あと、日本語じゃなくて英語で理解できているとよりよいですが、ChromeのGoogle翻訳機能が使えるのであまり気にしなくても構いません。
基本的にDesignerでできる範囲のことが出題されるのので、しっかりデータ調査、予測、予測グルーピング(MB除く)、時系列、処方的分析(最適化のみ)を抑えておけば良いでしょう。
コメント