Alteryx Predictive Master資格取得を目指すシリーズです。
一度ピアソン相関ツールとスピアマン相関ツールについて書きましたが、もう少し深掘りしたいと思います。
いずれも2つの変数の相関を取るものですが、それぞれ違いがあります。共通したポイントとしては、-1から1の間の数値を取り、-1は負の相関、1は正の相関、0は相関なし、ということになります。つまり、絶対値を取ったときに1に近いほど相関がある、ということになります。
ピアソンの積率相関係数とは?
単に相関、といえばピアソンの積率相関係数のことを言います。
2つの変数間に線形(直線的)な関係があるかどうかを測る指標です。非線形の場合は相関の値が弱くなります。
2つの変数の共分散(covariance)とそれらの標準偏差(Standard Deviation)の積の間の比率として計算されます。
ピアソン相関は、パラメトリック(前提として、データが正規分布であることを仮定するという意味)な手法です。
例えば、データが以下のような分布を示しているときは、相関係数は-1になります。
スピアマン順位相関係数とは?
順位相関とありますが、その通りの計算方法となり、2つの変数をランク付けし、そのランク間の相関を計算して求めます(ランク付けは、変数の値の小さい方から大きいものに順に割り当てます)。
スピアマン相関は、ノンパラメトリック(前提とする分布は仮定しない)な手法です。そのため、正規分布であるデータ以外にも使用可能です。
変化が一様かどうかは関係ないため、非線形の関係でも利用可能です。一緒に変化しているかどうか、というところが判断されます。
例えば、以下のような場合、ピアソン相関は0.83となりますが、スピアマン相関は1となります(値は関数で作成しており、計算式としては、ln(x+11)です)。ちなみに、青い直線がピアソン相関の相関値です。
相関関係と因果関係
気をつけなければいけないのは、相関があっても因果関係があるかどうかはわかりません。相関は、あくまで2つの変数間に同じ傾向が見られるということを言っているだけです。つまり、ある片方の変数の値が変化すればそれにつられてもうひとつの変数の値が変わるかどうかはわからない、ということです(因果関係があれば、変わります)。
Alteryxのピアソン相関ツールとスピアマン相関ツールの違いについて
ところで、Alteryxのピアソン相関ツールとスピアマン相関ツールの違いについて若干できることが異なるため、マルバツをつけてみたいと思います。
内容 | ピアソン相関ツール | スピアマン相関ツール | コメント |
---|---|---|---|
ピアソン相関 | ○ | x | |
スピアマン相関 | x | ○ | |
グループ化 | x | ○ | スピアマンツールの場合は、カテゴリ変数でグループ化してそれぞれに対しての相関を計算可能 |
複数変数一括実行 | ○ | x | ピアソンツールの場合は、複数の変数に対してチェックをつけて一度に実行可能 |
それぞれのツールでグループ化、複数の変数一括実行(マトリックス標的に一括で実行)ができる、できないが異なるので気をつけてください。複数変数一括実行がしたい場合は、アソシエーション分析ツールであれば、スピアマン相関を取ることも可能なので、そちらを使った方が良いかと思います。
コメント