100本ノック頻出ツール

100本ノックタイトル 100本ノック

データサイエンス100本ノックをAlteryxですべて完了したので、ちょっとした統計を取ってみたいと思います。

そもそもAlteryxのワークフローである「yxmd形式」のファイルは、中身はXMLファイルです。そのため、簡単(?)に解析することができます。

今回、solutionファイルからどのようなツールが使われているか、抽出してカウントを取りました。ちなみに、コメント、エクスプローラーボックス、ツールコンテナは省いて集計をしています。また、solutionファイル内では複数回答している問題もありますが、全て集計対象としています。

結果としては以下の通りとなります。

実際のワークフローとしては閲覧、データ入力、セレクト、サンプリング、テキスト入力はここまで多くないと思われます(問題の出し方上の都合上、どうしてもこれらのツールは実際よりも増加傾向になります)が、重要なツールであることに間違いありません。

ここに出てきているツールは基本的なツールが多く、実際にAlteryxを使っていてもよく使うツールばかりかと思います。さすがに1回しか使っていないようなツールは特定の分析を行う方が使うようなツールが多いように思います。その中でも、列分割、フィールドサマリーあたりは一般的な分析で使うツールかと思います。

私の経験も踏まえて、重要度という項目を追加してみました。

N0ツールCount重要度コメント
1閲覧304★★★必須
2セレクト191★★★必須
3サンプリング130★★★必須
4データ入力122★★★必須
5テキスト入力116★★★必須
6フィルター86★★★必須
7フォーミュラ81★★★必須
8ソート76★★★必須
9集計68★★★必須
10結合44★★★必須
11日時22★★★フォーミュラでも代替可能
12レコードカウント15★★★必須
13レコードID13★★★必須
14フィールド付加12★★★必須
15複数行フォーミュラ10★★★必須
16ユニーク9★★★集計でも代替可能
17正規表現8★★★必須
18転置7★★★必須
19複数フィールドフォーミュラ7★★★必須
20ユニオン7★★★必須
21動的リネーム5★★知っていると便利
22基本データプロファイル5★★知っていると便利
23データ出力4★★★必須
24クロスタブ4★★★必須
25検索置換4★★★結合でも代替可能な場合が多い
26オートフィールド3★★知っていると便利
27データクレンジング3★★知っていると便利
28複数結合3★★★結合ツールでも代替可能
29レコード選択3★★★必須
30ポイント作成2空間分析で使用
31インピュテーション2予測分析で使用
32タイル2★★知っていると便利
33オーバーサンプルフィールド1予測分析で使用
34サンプル作成1予測分析で使用
35フィールドサマリー1★★知っていると便利
36ランダム%サンプリング1予測分析で使用
37列分割1★★★必須
38距離1空間分析で使用

今回、使用回数が少ないのに重要なツールが2つあり、列分割は実際はもっとよく使うと思います。いずれにしても、コメントに「必須」と書いている★3つのツールは使い方を覚えておくとワークフローの作成がはかどると思います。

おまけの統計結果

上記統計結果をExcelとPDF形式で公開したいと思います。興味のある方は御覧ください。

TableauでViz化

Tableau PublicでViz化してみました。

コメント

タイトルとURLをコピーしました