今回は、新しいデータを渡されたときにどのようなデータなのか理解するためのTipsです。
まず、CSVファイルを渡されたとします(receipt.csv)。Alteryxの場合、CSVファイルはすべてV_WStringの254文字という形で読み込まれます。
それでは、閲覧ツールでこのデータを確認していきたいと思います。
閲覧ツールでは、結果ウィンドウの各項目をクリックするか、設定ウィンドウの項目名をクリックすることで、詳細のプロファイルを確認することができます。
それでは、上のスクリーンショットにはありませんが、amountという項目を見ていきましょう。
Okが104,681件となっています。ユニークな値としては488件となります。NGなデータはない、ということになっています。また、統計量としては「長さ統計」となっており、、、これはテキストとしての統計量となっています。amountは販売額なので、本来数値データであるべきです。
つまり、このまま閲覧ツールで見ても、CSVファイルは型を適切なものに変更していかないと、テキスト型としてのプロファイルとしてしか見ることができません。
さて、いきなり渡されたデータがCSVだと本来あるべき型がわかりません。ですので、ここでオートフィールドツールを使っていきましょう。
ワークフローは以下の通り。
オートフィールドツールは、データを適切な型に変換してくれます。ただし、文字列型などはギリギリまで切り詰めるので、その後の加工のときにサイズの見直しは必要かもしれません。
今回のデータのメタデータとしては、以下のようになります。
さらに閲覧ツールで見ていきましょう。先程と同様amountを選択します。
今度は統計量が「値の統計」に変わっています。これにより、数値として「最大」「最小」「平均」など見ることができるようになりました。ヒストグラムもついているので、値のばらつきなども非常にわかりやすいです。
まとめ
- オートフィールドツールと閲覧ツールを組み合わせることですばやいデータの概要把握ができました
- 本文内で触れてはいませんが、オートフィールドツールは比較的重いツールなので、本番ワークフローでは使わず、セレクトツールで必要なフィールドに適切な型を割り当てるようにしてください(セレクトツールのオプションの「フィールド設定の保存」と「読み込み」が使えます)。
次回
次回もデータの概要把握をしてみたいと思います。
コメント