WeeklyAlteryxTips#93　データベースを使っていてデータ量が多い場合への対応

今回は、データベースを使っている方向けのお話となります。データベースを使っている場合に非常に大量のデータになっていると、データの処理に非常に苦労すると思います。まず、データベースにアクセスしてデータを取ってくるところで非常に時間がかかると思いますが、この対処法を見ていきたいと思います。

Contents

データベースの大量データへの対処法
1. １．SQL文で対応する
2. ２．In-DBを使う
WF開発の際の実行速度を改善する
1. １．ワークフローのキャッシュと実行を使う
2. ２．YXDBに保存しておく
まとめ
次回

データベースの大量データへの対処法

データベースのデータが大量の場合、Alteryxからテーブルに対して接続する場合、SQL文は、

SELECT * FROM [テーブル名];

のような形になり、全件取得となってしまいます。しかし、大抵の場合、集計をかけたり、ある程度の範囲のデータ（ある月のデータなど）を抜き出したり、テーブルの全データが必要ではないケースもあるかと思います。このような場合は、データベースからデータを持ってくる際にデータを絞り込むことでデータ量を減らすことができます（特にSnowflakeやBigQueryなどのDWHなどになってくると相当量のデータを抱えていると思います）。

この場合、Alteryxでの対処法は2つあります。

SQL文で対応する
In-DBを使う

１．SQL文で対応する

SQL文で対応するためには、そのままSQLエディターでSQLを書くか、ビジュアルクエリビルダを使うかのどちらかの方法になります。初心者向きなのは、ビジュアルクエリビルダですが、複雑なSQLを書くにはちょっと大変かもしれません。

ビジュアルクエリビルダについての説明は過去の記事を参照ください。

SQLエディタで自由にSQLを書くこともできますが、ChatGPTやGeminiに聞けばある程度のものを作ってくれるので、これも一つの選択肢かもしれません。ただ、本当にちゃんと想定通りのものができているのか、という検証は必要ですし、SQLの知識がまったくないと難しいかもしれません。

２．In-DBを使う

次に、In-DBを使う方法をご紹介します。

In-DBはデータベース内処理という意味ですが、通常Designerは全てのデータをDesignerが動作しているPCのメモリに読み込み実行する、というスタイルを取っています。これに対してIn-DB機能を使うと、データベース内で処理をさせる、ということが可能です。これは、DBが高速な場合に処理をDB側で行わせることで高速化を図る、データ量を減らしてからDesigner側に持ってくる、などの効果があります。

In-DB機能を使うためには、Designerのツールパレットの「インデータベース」カテゴリのツールを使います（ちなみに、Designer CloudのNativeモードはすべてIn-DBで動いています）。

DBからデータを読み込む際は、「接続In-DB」ツールを使います。

これで読み出したデータはDB内にとどまっているため、とりあえず接続In-DBで繋いで実行しても一瞬で終わります。というのが、Designer側には実行結果は何も出力されないからです。In-DBカテゴリのツールを使う場合、アンカーをクリックしても何もデータは見れないので、「閲覧In-DB」を使ってデータを閲覧する必要があります。閲覧In-DBツールはデフォルトでは先頭の100レコードのみを閲覧できるため、これを追加してもそれほどワークフローの実行時間はかかりません（が、大量のデータの集計をしているような場合は少し待たされると思います）。

In-DBツールは、セレクト、サンプリング、結合、集計、ユニオン、フィルター、フォーミュラなど基本的なツールが揃っています。内部的には、Designer側でSQL文を生成し、DBに投げる、というのがこれらのツールの動作になるため、SQLベースで動いていると考えてください（SQLでできることができる、ということです）。フォーミュラIn-DBツールも、数式を使いたい場合は、接続しているデータベースで使える数式を書く必要があるため、若干のSQLの知識が必要とされることに注意してください。主な通常のツールとの違いは以下のとおりです。