WEBスクレイピングをAlteryxで行う方法

WEB上のリソースを取得する場合、API（RestAPI）が提供されている場合はそちらを使うことで安定して情報の取得が可能ですが、APIが提供されていない場合はスクレイピングを行う必要があります。

世間一般的にはPythonでBeautifulSoupなどを使ってスクレイピングするのが一般的かと思いますが、Alteryxの場合はどうするのか、ご紹介したいと思います。

Contents

AlteryxでWEBスクレイピングを行う方法
1. ダウンロードツール
2. 正規表現ツール
実際に試してみる
まとめ
サンプルワークフローダウンロード

AlteryxでWEBスクレイピングを行う方法

基本的にはダウンロードツールを最初に使います。ダウンロードツールでWEBページにアクセス（ローカルにファイルとして落とす）し、その後は正規表現ツール等を使って必要な情報を得ていく、というのがAlteryxでのスタンダードな方法となります。

ダウンロードツール

ダウンロードツールはWEBへアクセスする機能を提供します。APIを呼び出す場合もこのツールを使いますが、WEBスクレイピングを行う場合はもっとシンプルに使うことができます。

基本的にはテキスト入力ツールやデータ入力ツールにアクセス先のURLを記載しておき、そのデータをダウンロードツールに入力していきます。ログイン等が必要でなければそのままデータがダウンロードされてきます。例えば、以下のようなワークフローになります。

ダウンロードツールの設定は以下のようになります。基本的には「URL」の「フィールド」にアクセス先のURLが格納されたフィールドを指定するだけです。

アクセスするURLが画像などのバイナリファイルの場合は、「出力」の「フィールドへ」で「BLOB」を選択します。通常のホームページの場合は、「文字列」でオッケーです。

正規表現ツール

正規表現ツールは、文字列から欲しいデータをパターン一致させ抜き出すツールです。非常に強力なツールではありますが、「正規表現」と呼ばれる記法を理解する必要があります。この記法に慣れるのに若干時間がかかるため、初心者には若干ハードルが高いツールとなっています。しかしながら、そのハードルを超えると非常に簡単に欲しい物が得られるようになるため、使いこなすことができるようになったときのリターンが非常に大きいツールです。

なお、正規表現はフォーミュラツールでも利用可能ですが、WEBのスクレイピングでは正規表現ツールを使った方が圧倒的に楽です。

実際に試してみる

それでは、簡単なデータの抽出を行ってみたいと思います。

今回は、Alteryx CommunityのウィークリーチャレンジのIndexページから各チャレンジのリンクを抜き出してみたいと思います。

テキスト入力ツールに「URL」というフィールドを作成し、先程のウィークリーチャレンジのIndexページのURLを貼り付けます。その後ダウンロードツールに「URL」フィールドを設定することでデータ（HTMLページ）をダウンロードすることができます。このデータから正規表現ツールでURLだけ抜き出してくるわけですが、まずそこまでのワークフローは以下のとおりです。

ダウンロードツールでダウンロードすると、「DownloadData」「DownloadHeaders」というフィールドが自動的に作成され、「DownloadData」に情報が格納されます。また、「DownloadHeaders」はHTTPアクセスを行った際のヘッダ情報が格納されます。このヘッダ情報にはアクセスして問題なかったかどうか、という情報が格納されています。エラー検知などを行う場合はこの「DownloadHeaders」を参照していきます（今回は301が出ており、リダイレクトされていますが、その先で「HTTP/1.1 200 OK」となっているので問題ありません。エラー検知は「200 OK」が出ていれば問題なし、という判定で良いと思います）。

なお、この「DownloadHeaders」と「URL」フィールドはもう使わないのでセレクトツールで削除しています。なお、複数のURLに一度に接続する場合はレコードIDツールなどで行番号を入れておくことをオススメします。また、同じサーバーに対して大量にアクセスする場合、スパム行為とされる場合があるため、ダウンロードツールのオプション設定で速度を絞ることをオススメします。