このページは問題編です
設問
P-043: レシート明細データ(receipt.csv)と顧客データ(customer.csv)を結合し、性別コード(gender_cd)と年代(ageから計算)ごとに売上金額(amount)を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。
ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること(縦に年代、横に性別のクロス集計)。また、年代は10歳ごとの階級とすること。
スタートファイルダウンロード
ヒント
複合的な問題です。また、最終系のアウトプットのフィールドの構成が、インプットデータのフィールドの構成と全く異なります。最終系を考えながらデータ加工を行っていく必要があります。
レコードとしては年代ごとに集計する必要があります。これはageから計算で作る必要があるので、フォーミュラツールで作っていきましょう。
ポイントは、フィールドが性別コードごとに売上金額を集計したものになることです。すなわち、縦持ちで持っているデータを横持ちに変換する必要があります。これには、クロスタブツールを使う必要があります。
問題文だけ見ると複雑そうに見えますが、それほど大量のツールを使う必要はありません。ステップごとに処理を行っていけば問題ないと思います。
コメント