前回に引き続き、同じようなネタになりますが、今回もデータの理解のTipsです。
前回は、閲覧ツールを使って新規データのデータ概要の把握を行いましたが、今回はフィールドサマリーツールを使いたいと思います。
フィールドサマリーツールを使う場合の利点は、一覧性にあります。テーブルタイプで出力されるため、一つ一つ見ていく閲覧ツールより一覧性が高いです。
それでは、前回同様にreceipt.csvを見ていきましょう。ワークフローは以下の通りです。
フィールドサマリーツールは、出力が3つあります。それぞれ表示しているものが異なったりするため、それぞれに閲覧ツールをつけて見れるようにした方が良いかと思います。
O出力:基礎的な統計量がテーブル形式で出力されます。数値データの場合は、横軸をレコード番号、縦軸を値とした散布図をレポートとして見ることができます。
R出力:O出力と出てくる内容は同じなのですが、レポート形式で出力されます。
I出力:インタラクティブチャートの形式で、ヒストグラムが表示されます。文字列の場合は、度数分布表が表示されます。
O出力の内容:
上のように、各フィールドに対して統計量が表示されています。項目はフィールドの型によって異なります。上のスクショは数値タイプに対しての統計量です。日時型、空間オブジェクト等それぞれ表示される項目は異なるのでそれぞれ確認してみてください。Helpで確認できます。
ちなみに、「Remarks」という項目で、推奨事項が記載されています。
例えば、今回「Quantity」という項目には以下のように記載されています。
This field has a small number of unique values, and appears to be a categorical field. Consider changing the field data type to “string”.
簡単に言うと、数値が少ないユニークな番号で構成されているので、カテゴリフィールドかもしれないので、Stringも検討してください、と書かれています。※まぁ、今回は普通に数量なので推奨事項に従う必要はないのですが・・・。
R出力の内容:
基本O出力と同じ内容ですが、レポート形式で型ごとに出力してくれるので見やすいかもしれません(スペース的にはコンパクトです)。
I出力の内容:
ヒストグラムが出力されます。
次回
次回もオートフィールドツールにまつわるお話です。
コメント