データサイエンス100本ノックをAlteryxで。43日目(問題)

問題編 100本ノック

このページは問題編です

設問

P-043: レシート明細データ(receipt.csv)と顧客データ(customer.csv)を結合し、性別コード(gender_cd)と年代(ageから計算)ごとに売上金額(amount)を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。

ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること(縦に年代、横に性別のクロス集計)。また、年代は10歳ごとの階級とすること。

スタートファイルダウンロード

ヒント

複合的な問題です。また、最終系のアウトプットのフィールドの構成が、インプットデータのフィールドの構成と全く異なります。最終系を考えながらデータ加工を行っていく必要があります。

レコードとしては年代ごとに集計する必要があります。これはageから計算で作る必要があるので、フォーミュラツールで作っていきましょう。

ポイントは、フィールドが性別コードごとに売上金額を集計したものになることです。すなわち、縦持ちで持っているデータを横持ちに変換する必要があります。これには、クロスタブツールを使う必要があります。

問題文だけ見ると複雑そうに見えますが、それほど大量のツールを使う必要はありません。ステップごとに処理を行っていけば問題ないと思います。

解答編へ

コメント

タイトルとURLをコピーしました