データサイエンス100本ノックをAlteryxで。59日目(問題)

問題編 100本ノック

このページは問題編です

設問

P-059: レシート明細データ(receipt.csv)の売上金額(amount)を顧客ID(customer_id)ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに10件表示せよ。標準化に使用する標準偏差は、分散の平方根、もしくは不偏分散の平方根のどちらでも良いものとする。ただし、顧客IDが”Z”から始まるのものは非会員を表すため、除外して計算すること。

※分散の平方根の標準偏差=母集団の標準偏差(nで割る)
※不偏分散の平方根=不偏標準偏差(n-1で割る)
※出力は、フィールド名をstd_amountとし、customer_idの昇順とすること

スタートファイルダウンロード

ヒント

標準化とは、データの平均値をゼロ、分散(標準偏差)が1になるように変換することです。つまり、(各値-平均値)÷標準偏差 となります。

なお、Alteryxの集計ツールで計算できる標準偏差は、不偏標準偏差(n-1で割る)となります。

解答編へ

コメント

タイトルとURLをコピーしました