データサイエンス100本ノックをAlteryxで。29日目(解答)

100本ノック

このページは解答編です。

↓ネ

↓タ

↓バ

↓レ

↓防

↓止

答えと解説

設問はこちらでした。

P-029: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに商品コード(product_cd)の最頻値を求め、10件表示させよ。

※出力データは、店舗コード(store_cd)の昇順で並べ、10件を表示すること

解答ワークフローは以下のようになります。

27,28問目との違いは、最頻値を取ることです。27,28問目は数値型に対して集計を行っていましたが、今回は文字列型に対しての集計となります。

今回は、店舗コードごとの商品コードの最頻値を取得後、昇順で最初の10件を取得する、とのことですが、27問目、28問目同様今まで行ってきた内容で十分解ける問題です。

まず、集計ツールで最頻値を取ります。店舗コードごとにグループ化し、商品コードの最頻値を取得します。今回は文字列に対しての集計なので、文字列のメニューから選択します。

設定は以下の通りです。

あとはソートツールでstore_cdの昇順で並べ替え、先頭から10件をサンプリングツール等で取得すれば完了です。

まとめ

今回も、集計の問題でした。今回テキストの最頻値を取得するということを行いましたが、集計ツールは様々な集計を行うことができるので、どのような集計が可能であるか、事前に確認しておくと後々っスムーズに対応が可能かと思います。

解答ワークフローダウンロード

コメント

タイトルとURLをコピーしました