データサイエンス100本ノックをAlteryxで。55日目(問題)

問題編 100本ノック

このページは問題編です

設問

P-055: レシート明細(receipt.csv)データの売上金額(amount)を顧客ID(customer_id)ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに10件表示せよ。カテゴリ値は順に1〜4とする。

・最小値以上第1四分位未満 ・・・ 1を付与
・第1四分位以上第2四分位未満 ・・・ 2を付与
・第2四分位以上第3四分位未満 ・・・ 3を付与
・第3四分位以上 ・・・ 4を付与

※カテゴリ値を格納するフィールド名はpct_groupとする
※結果は顧客IDの昇順でソートすること

スタートファイルダウンロード

ヒント

カテゴリ値を作成する問題ですが、まず顧客ID(customer_id)ごと合計を取ってから四分位点を求める必要があります。そこからさらに各顧客ごとの売上金額と四分位点を比較してカテゴリ値化する必要があります。結構回りくどくやらないといけない問題です。
四分位点は、集計ツールで求めることができますが、パーセンタイル値は自分で入力する必要があります。これまで集計ツールのオプションを使っていないのでわかりにくいかもしれません。

解答編へ

コメント

タイトルとURLをコピーしました