このページは解答編です。
↓ネ
↓タ
↓バ
↓レ
↓防
↓止
答えと解説
設問はこちらでした。
P-029: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに商品コード(product_cd)の最頻値を求め、10件表示させよ。
※出力データは、店舗コード(store_cd)の昇順で並べ、10件を表示すること
解答ワークフローは以下のようになります。
27,28問目との違いは、最頻値を取ることです。27,28問目は数値型に対して集計を行っていましたが、今回は文字列型に対しての集計となります。
今回は、店舗コードごとの商品コードの最頻値を取得後、昇順で最初の10件を取得する、とのことですが、27問目、28問目同様今まで行ってきた内容で十分解ける問題です。
まず、集計ツールで最頻値を取ります。店舗コードごとにグループ化し、商品コードの最頻値を取得します。今回は文字列に対しての集計なので、文字列のメニューから選択します。
設定は以下の通りです。
あとはソートツールでstore_cdの昇順で並べ替え、先頭から10件をサンプリングツール等で取得すれば完了です。
まとめ
今回も、集計の問題でした。今回テキストの最頻値を取得するということを行いましたが、集計ツールは様々な集計を行うことができるので、どのような集計が可能であるか、事前に確認しておくと後々っスムーズに対応が可能かと思います。
コメント