データサイエンス100本ノックをAlteryxで。91日目(問題)

問題編 100本ノック

このページは問題編です

設問

P-091: 顧客データ(customer.csv)の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

※売上実績がある顧客、ない顧客の状況を示すフィールド名を、is_buy_flagとし、売上実績あればYes、なければNoを格納すること
※解答は、最終的にYes、Noのカウントを出力すること

スタートファイルダウンロード

ヒント

予測データに大きな偏りがあると良い結果をもたらしません。このような場合アンダーサンプリングで多すぎるサンプルを削除し、偏りをなくします。ただし、少数派のデータ数があまりにも少ない場合はサンプル自体が減ってしまうという問題があるため気をつける必要があります。

Alteryxではオーバーサンプルフィールドツールでアンダーサンプリングを行います。名前がなんだか逆な気がしますが、そこは気にしないようにお願いします(ものすごく紛らわしい名前ですね)。

解答編へ

コメント

タイトルとURLをコピーしました