e-Statの境界データについて

その他の技術的な話

政府の運営している政府統計のポータルサイトe-Statでは国勢調査のデータが公開されています。国勢調査のデータは、境界データと呼ばれるGISなどで利用する地形データ(Shape、KML、GML形式)と統計データの二種類で構成されています。単にテーブルデータとして扱うには統計データのみあれば良いのですが、これを地図に表示したい、ということになると境界データやメッシュデータをダウンロードして紐づけして使う必要があります。

境界データのダウンロード元としては、こちらとなります。正直なところ、e-Statのトップからたどると迷子になりやすいので、Google等で「国勢調査 境界データ」などで検索したほうがすんなりたどり着けますね・・・。

境界データは、以下の形式でダウンロードが可能です。

  • 小地域
  • 3次メッシュ(1kmメッシュ)
  • 4次メッシュ(500mメッシュ)
  • 5次メッシュ(250mメッシュ)

ちなみに、単に地図がほしいだけであれば、国土数値情報ダウンロードサイトの行政区域のポリゴンをダウンロードするのが一番手っ取り早いかと思います。ただし、市区町村レベルまでの細かさしかありません。

メッシュとは?

メッシュは、日本地図を網目状に分割したものです。そのため、基本的に単なる正方形のデータとなります。地図としては利用できません。イメージとしては、以下のようになります。

定義としては以下のようになります。

メッシュデータとは、地図上の情報をデジタル化したり各種統計情報をとるために地図上の経緯度方眼として定められた地域メッシュのことです。
国土数値情報のメッシュデータは、総務省(旧総務庁)が定めた「統計に用いる標準地域メッシュおよび標準地域メッシュコード」に従って、それぞれの区域に関する統計データを編集したものです。

国土数値情報ダウンロードサービスより引用

メッシュ自体は、基準となるポリゴンを等分して作っていくもので、計算式でポリゴンの4点の緯度経度を求めることができるのが特徴です。ただ、日本独特のものなので、海外製のソフトなどでは実装されていないので注意が必要です。ただ、日本では一般的に使われているため、Pythonのモジュールなどもフリーで公開されていたりします。

小地域

小地域というのは地図そのものと考えて結構です。住所ごとに小分けにされたポリゴンを入手可能です。

小地域データですが、現在3種類入手可能です。

  • 小地域(基本単位区)
  • 小地域(町丁・字等)
  • 人口集中地区

一番細かいのは、小地域(基本単位区)です。2020年のデータから入手可能となっています。サンプルとして、埼玉県さいたま市西区のデータを表示してみました。

同様に、小地域(町丁・字等)のデータを表示してみました。基本単位区に比べるとポリゴンが荒いです。ただ、町名までのレベルで分割されているため、地図としては十分かと思います。

人口集中地区はすべての住所があるわけではなく、人口集中地区と規定された一部の住所のポリゴンしかありません。例えば、北海道であれば以下のように赤色の部分のみとなっています。

一括ダウンロード

ところで、この境界データですが、全国分を一括でダウンロードできません。

小地域(町丁・字等)については、都道府県ごとにダウンロードが可能なので、47回がんばってダウンロードすればすべてダウンロードすることが可能です。

しかし、小地域(基本単位区)になってしまうと、市区町村ごとに分割されており、ダウンロードは大変です。

基本単位区の地区一覧はこちら(国勢調査の「都道府県・市区町村別の主な結果」)にあるExcelファイルで確認することができます。ダウンロードすると「major_results_2020.xlsx」という名称でした。これによると、1965行のデータに分割されていました。ただ、「全国」「札幌市」などのいくつかの地域をまとめた行もあるので、ダウンロードするファイル数としては1965個あるわけではありませんが、例えば1割がまとめたものとしても1800個を超えるファイルをダウンロードする必要があります。

さすがに手動だと手に追える数ではないかと思います。

ところで、このダウンロードのURLですが、決まったフォーマットになっています。例としてさいたま市西区のURLを見てみましょう。さいたま市西区は、ダウンロードする際に、「11101 さいたま市西区」と表記されています。この頭の数字の部分に着目すると、URLの赤い部分に該当します。

https://www.e-stat.go.jp/gis/statmap-search/data?dlserveyId=B002005212020&code=11101&coordSys=1&format=shape&downloadType=5&datum=2000

つまり、この地区名についている数字を入れ替えればダウンロードが楽になるのではないか、と予測がつきます。

また、町丁・字等の場合はどうでしょうか?同じく埼玉県のURLは以下のとおりです。埼玉県の県コードは「11」で、以下のURLの赤い部分に該当します。

https://www.e-stat.go.jp/gis/statmap-search/data?dlserveyId=A002005212020&code=11&coordSys=1&format=shape&downloadType=5&datum=2000

先程のExcelファイルを見てみると、都道府県名のところに「11_埼玉県」と出ているので、この項目が使えそうです。

実際、この数値を変更してブラウザのURLバーに貼ると、ファイルがダウンロードできます。

いずれにしても、さすがに1800個以上のファイルをダウンロードするのは非常に手間がかかるので、なんとかしたいところです。

次回の記事では、Alteryxで一括ダウンロードする方法をご紹介します。

コメント

タイトルとURLをコピーしました