このページは問題編です
設問
P-058: 顧客データ(customer.csv)の性別コード(gender_cd)をダミー変数化し、顧客ID(customer_id)とともに10件表示せよ。
※レコードの順序は、元の順序を保持すること
※新しく作成されるフィールド名は、「gender_cd_」に値を組み合わせたものとすること
スタートファイルダウンロード
ヒント
ダミー変数化とは、カテゴリ変数に対して行われる操作で、機械学習の際にラベル自体は扱えないため、数値に置き換えて機械学習に用いることができるようにするための処理です。
今回はgender_cdという形ですでに数値化されているためいわゆるOne-Hot encodingと呼ばれる処理を行いましょう。これは、gender_cdで言えば中身の値として、0,1,9となっています。それぞれの値に対して個別のフィールドを作り、対応するフィールドに1と記載するのがOne-Hot encodingです。
これを実現するにはクロスタブツールが有効です。
コメント