データサイエンス100本ノックをAlteryxでやってみよう

100本ノックタイトル 100本ノック

データサイエンス100本ノック(構造化データ加工編)」というものをご存じでしょうか?

一般社団法人データサイエンティスト協会さんが無償でGitHubにて公開されているデータサイエンスの学習コンテンツです。Amazonで販売されている解説書の説明によると、以下のように書かれています。

実践的でワクワクするような課題に取り組みながら、プログラミング、データ分析のスキルを楽しく習得することを目指した、データサイエンス初学者のための問題集です。

データサイエンス100本ノック構造化データ加工編ガイドブック

実際に問題の中身を見てみると、テーブルタイプ(構造化データ)のデータの加工を実際にやっていくもので、最初は基本的な問題から徐々に難易度があがっていくような形です。内容的にも実際のデータ加工で必要とされる内容が網羅されています。

本来はPython、R、SQLで実施するもので、それぞれの言語用にDocker環境が用意されています。

内容的にはPython、R、SQLの初学者が学習するのに非常に良い教材かと思います。同様に、Alteryxの初学者にも非常に内容的に良いかと思います。

どのようなことが学習できるのか

それではこれを使ってどのようなことが学習できるのか見ていきたいと思います。同梱されているガイド(100knocks_guide.pdf)の内容から抜粋したいと思います。

No.大区分設問数
1列に対する操作3
2行に対する操作6
3あいまい条件7
4ソート4
5集計13
6副問合せ2
7結合7
8縦横変換2
9データ変換14
10数値変換4
11四則演算7
12日付型の計算5
13サンプリング2
14外れ値・異常値2
15欠損値5
16乗算エラー対応1
17座標データ2
18名寄せ2
19データ分割2
20不均衡データ1
21正規化・非正規化2
22ファイル入出力7

これを見るとデータ準備に必要なことは、一通り基本的なことは抑えられているような感じですね!

基本的にはPython、R、SQL用ですが、Alteryxでも基本的に求められることは同様です。Alteryx Communityのラーニングパスを学習した方がやってみるには良い感じの内容です。

コンテンツのダウンロード方法

PythonやR、SQLで学習するにはインストールするなど必要ですが、Alteryxの場合はインプットデータと問題文、解答があれば問題ありません。もちろん環境を構築することでも入手可能ですが、それぞれZIP形式でダウンロードすることで簡単に入手可能です。

データサイエンス100本ノック(構造化データ加工編)にアクセスすると、以下のような画面が出てきます。正直GitHubの画面って慣れるまではわかりにくい印象です。

コンテンツをダウンロードするには、上のスクショの右上の方にある緑色の「Code」ボタンをクリックしましょう。ドロップダウンメニューが出てきますので、「Download ZIP」をクリックしてください。すると、コンテンツがZIP形式でダウンロードされます(8M程度のファイルです)。

これを解凍してみると、サイトの構成そのままのファイルがローカルで取得できます。

この中のdockerフォルダを開きましょう。

このフォルダを開くと、.jupyter、db、doc、workとフォルダがあるので、workを開きます。

この中にある「data」フォルダにインプット用データが保存されています。

これらのファイルを解凍してどこかに保存しておきましょう。

肝心の問題文は、少し上の階層に戻る必要があります。dockerフォルダの中のdocフォルダ内に問題文があります。

PDFとhtml二種類存在しますが、お好きな方の利用で構わないと思います。HTMLの場合は、各言語ごとにファイルが異なりますが、個人的にはPythonのファイルを見ています。ちなみに、100knocks_guide_pdfは100本ノックの全体的な説明が書かれています(インストール方法や狙いなど)。

解答についてもdocフォルダ内のanswerフォルダ内に格納されています。

解答も言語ごとにファイルが分かれています。

全体のファイル構造は以下の通りです。

さて、これらのファイルの整理ができれば、準備はできたことになるので、実際に本ブログで解説をしていきたいと思います。

Python、R、SQLのガイドブックはAmazonから購入することができます。

Amazonへのリンク

 

コメント

タイトルとURLをコピーしました