e-Statの国勢調査の小地域データをAlteryxで使いやすく加工する

本記事はe-Statの国勢調査のデータを扱うシリーズです。前回の記事は、こちら。

前回のブログで保存したデータですが、まだ縦持ちになっており使いにくい形になっています。

例えば、「男女別人口総数及び世帯総数」のデータを読み込んでみます。

ちょっと見にくいのでメタデータだけ見てみましょう。

ここで、データカテゴリをグループ化してどんな項目があるのか見てみましょう。

「value」フィールドの種別がデータカテゴリなのですが、つまりこのデータは「人口総数」「世帯総数」「男」「女」の４種類のデータが格納されているということになります。

ここで、「データカテゴリ」というのをフィールド名にして、値としては「value」フィールドを格納すると非常に見やすくなります（BIツールで読み込むならこのままでも問題ないかもしれません）。

それではワークフロー化していきたいと思います。

Contents

ワークフローを作成する

データ入力ツールでデータを読み込んだ後、データを横持ちにしてくわけですが、単位をどうするかまず考えたほうが良さそうです。「男女別人口総数及び世帯総数」であれば、人口と世帯で単位が異なるため、単位をどう残すか、という課題があります。

今回は、フィールド名自体に付加してしまいましょう。

フォーミュラツールでデータカテゴリフィールドと結合します。なお、「男」「女」は頭に全角空白入っているので、Trimで削除しておきます。

Trim([データカテゴリ],"　")+"_単位_"+[unit]

次に、クロスタブツールでデータを横持ちにしていきます。「列ヘッダーの変更」は「データカテゴリ」、「新しい列の値」は「value」をセットします。

「以下の値でデータをグループ化」のところは、残したいデータをチェックしていくのですが、上のスクショではスクロールで見切れています。以下のフィールドにチェックを入れましょう。

これにより以下のようになります。ついでにarea_codeでソートしておくと良いかもしれません。

データ量も減るので、一石二鳥です。

ワークフローとしては、以下のようになります。

サンプルワークフローは、データ量を減らした入力データにしています。