WeeklyAlteryxTips#98 2025.1の新規ツール「データクレンズPro」とは?

Alteryx

本ブログシリーズは、毎週AlteryxのTipsをお伝えしていく週刊AlteryxTipsブログです。

2025/5/12-15にアメリカのLas Vegasで行われたAlteryx社年次イベント「Inspire 2025」にて2025.1シリーズが発表されました(今回はInspire直前の新バージョン公開でした)。

今回新ツールで「データクレンズPro」というツールが追加されています。これは従来「データクレンジング」ツールとして提供されていたツールのバージョンアップ版で、今まではマクロでしたが今回からネイティブのツールになっています。

データクレンジングツールとは?

そもそもデータクレンジングツールとは何でしょうか?これはNull値を0にしたり大文字を小文字に統一したりなど、いくつかデータをきれいにするタスクを一つのツールにまとめたパック的なツールです。

これまでのデータクレンジングツールは、データ量が多いときに速度が遅いと言われており、ほぼ同等の機能を持つCReWデータクレンズというツールが3rdパーティから提供されたり、個別にフォーミュラツールなどで処理したほうが早い、とガチ勢には少し評判の悪いツールでした(便利ではあったのですが)。

データクレンズProになってどう変わった?

速度向上

データクレンズProになって、まず速度が大幅に向上しました。旧データクレンジングツールと速度を比較してみましょう。処理するレコード数としては、1,046,810レコードです。

旧データクレンジングツール

データクレンズPro

AMP Engineのデータプロファイリングは正確ではないので、ワークフローの実行時間で比較したいと思いますが、4分の1くらいの速度になっていますね。

ちなみに、CReWデータクレンズは以下のような感じです。

少し早い、って感じですね。やはりネイティブのデータクレンズProには敵わないです。

機能追加

もちろん機能も追加されました!

もともとのデータクレンジングの機能を大きく分けると、Nullデータの削除(行、列単位)、文字を削除、文字列/数字列を置換(Nullを0に置換など)、大文字小文字変換の三機能になっています。このうち、文字の削除、文字列/数字列を置換の機能に新機能が追加されています。

文字を削除の追加機能

削除機能に、「HTMLタグ」「不可視文字」の削除が追加されたのと、文字や数字、句読点と特殊文字の削除の際に指定文字を除く機能が追加されました。これは地味に便利ですね。

HTMLタグを削除する場合、正規表現ツールで「<(“[^”]“|'[^’]‘|[^'”>])*>」などを指定して消していましたが、もうそんなことしなくてもオッケーです。ノーコードツールらしくチェックボックス一つで消去できます!(実はCReWクレンズマクロにはHTMLタグ削除機能が実装されています)

不可視文字も、以前本ブログで話題にしましたが、これも正規表現など使わなくてもさくっとチェックボックス一つで消すことができるようになりました。

また、文字、数字、句読点と特殊文字を削除する機能から、次を除く、という機能が追加されたので、特定の句読点を残したり、文字を残したり、といったことができるようになっています。例えば、文字列になっている数値があって、そこから千の桁区切りのカンマを消したいけどそれをすると小数点のピリオドやマイナスのハイフンも消えてしまうといったときに、「次を除く」にマイナスやピリオドを設定しておけばカンマだけ消すことができます(もしくはその他の不要な文字も)。

置換機能

これらの「Nullを空白で置換」「Nullを0で置換」はもともとあった機能ですが、逆パターンの「空白をNullで置換」「0をNullで置換」というのが今回追加されています。確かにこういうケースもあるかもしれませんね・・・。

クレンジング列の絞り込み機能

地味にクレンジングする列の絞り込み機能も追加されています。

こういうのって地味に便利ですよね・・・。

まとめ

  • 2025.1から新ツール「データクレンズPro」が追加されました
  • 以下の追加機能がありました
    • 列の絞り込み機能
    • 文字を削除機能
    • 置換機能
  • パフォーマンスが大きく向上しました

新しくなって高速化されたデータクレンズPro、ぜひ使ってみてください。

次回

未定です。

コメント

タイトルとURLをコピーしました