「データサイエンス100本ノック(構造化データ加工編)」というものをご存じでしょうか?
一般社団法人データサイエンティスト協会さんが無償でGitHubにて公開されているデータサイエンスの学習コンテンツです。Amazonで販売されている解説書の説明によると、以下のように書かれています。
実践的でワクワクするような課題に取り組みながら、プログラミング、データ分析のスキルを楽しく習得することを目指した、データサイエンス初学者のための問題集です。
データサイエンス100本ノック構造化データ加工編ガイドブック
実際に問題の中身を見てみると、テーブルタイプ(構造化データ)のデータの加工を実際にやっていくもので、最初は基本的な問題から徐々に難易度があがっていくような形です。内容的にも実際のデータ加工で必要とされる内容が網羅されています。
本来はPython、R、SQLで実施するもので、それぞれの言語用にDocker環境が用意されています。
内容的にはPython、R、SQLの初学者が学習するのに非常に良い教材かと思います。同様に、Alteryxの初学者にも非常に内容的に良いかと思います。
どのようなことが学習できるのか
それではこれを使ってどのようなことが学習できるのか見ていきたいと思います。同梱されているガイド(100knocks_guide.pdf)の内容から抜粋したいと思います。
No. | 大区分 | 設問数 |
1 | 列に対する操作 | 3 |
2 | 行に対する操作 | 6 |
3 | あいまい条件 | 7 |
4 | ソート | 4 |
5 | 集計 | 13 |
6 | 副問合せ | 2 |
7 | 結合 | 7 |
8 | 縦横変換 | 2 |
9 | データ変換 | 14 |
10 | 数値変換 | 4 |
11 | 四則演算 | 7 |
12 | 日付型の計算 | 5 |
13 | サンプリング | 2 |
14 | 外れ値・異常値 | 2 |
15 | 欠損値 | 5 |
16 | 乗算エラー対応 | 1 |
17 | 座標データ | 2 |
18 | 名寄せ | 2 |
19 | データ分割 | 2 |
20 | 不均衡データ | 1 |
21 | 正規化・非正規化 | 2 |
22 | ファイル入出力 | 7 |
これを見るとデータ準備に必要なことは、一通り基本的なことは抑えられているような感じですね!
基本的にはPython、R、SQL用ですが、Alteryxでも基本的に求められることは同様です。Alteryx Communityのラーニングパスを学習した方がやってみるには良い感じの内容です。
コンテンツのダウンロード方法
PythonやR、SQLで学習するにはインストールするなど必要ですが、Alteryxの場合はインプットデータと問題文、解答があれば問題ありません。もちろん環境を構築することでも入手可能ですが、それぞれZIP形式でダウンロードすることで簡単に入手可能です。
データサイエンス100本ノック(構造化データ加工編)にアクセスすると、以下のような画面が出てきます。正直GitHubの画面って慣れるまではわかりにくい印象です。
コンテンツをダウンロードするには、上のスクショの右上の方にある緑色の「Code」ボタンをクリックしましょう。ドロップダウンメニューが出てきますので、「Download ZIP」をクリックしてください。すると、コンテンツがZIP形式でダウンロードされます(8M程度のファイルです)。
これを解凍してみると、サイトの構成そのままのファイルがローカルで取得できます。
この中のdockerフォルダを開きましょう。
このフォルダを開くと、.jupyter、db、doc、workとフォルダがあるので、workを開きます。
この中にある「data」フォルダにインプット用データが保存されています。
これらのファイルを解凍してどこかに保存しておきましょう。
肝心の問題文は、少し上の階層に戻る必要があります。dockerフォルダの中のdocフォルダ内に問題文があります。
PDFとhtml二種類存在しますが、お好きな方の利用で構わないと思います。HTMLの場合は、各言語ごとにファイルが異なりますが、個人的にはPythonのファイルを見ています。ちなみに、100knocks_guide_pdfは100本ノックの全体的な説明が書かれています(インストール方法や狙いなど)。
解答についてもdocフォルダ内のanswerフォルダ内に格納されています。
解答も言語ごとにファイルが分かれています。
全体のファイル構造は以下の通りです。
さて、これらのファイルの整理ができれば、準備はできたことになるので、実際に本ブログで解説をしていきたいと思います。
Python、R、SQLのガイドブックはAmazonから購入することができます。
Amazonへのリンク
コメント