このページは問題編です
設問
P-091: 顧客データ(customer.csv)の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。
※売上実績がある顧客、ない顧客の状況を示すフィールド名を、is_buy_flagとし、売上実績あればYes、なければNoを格納すること
※解答は、最終的にYes、Noのカウントを出力すること
スタートファイルダウンロード
ヒント
予測データに大きな偏りがあると良い結果をもたらしません。このような場合アンダーサンプリングで多すぎるサンプルを削除し、偏りをなくします。ただし、少数派のデータ数があまりにも少ない場合はサンプル自体が減ってしまうという問題があるため気をつける必要があります。
Alteryxではオーバーサンプルフィールドツールでアンダーサンプリングを行います。名前がなんだか逆な気がしますが、そこは気にしないようにお願いします(ものすごく紛らわしい名前ですね)。
コメント