Alteryxの予測カテゴリに配置されている「ガンマ回帰」「ポアソン回帰」の結果レポートについて詳細に解説していきます。
ガンマ回帰ツールの結果を詳細に読み解く
ガンマ回帰ツールのレポートは項目として以下のとおりです。
- 基本の要約
- 逸脱度残差
- 係数
- Null逸脱度
- 残差逸脱度
- McFaddem R-二乗
- Fisherスコアリング反復回数
- 逸脱度検定のタイプII分析
- Basic Diagnostics Plot ※なぜかタイトルが日本語化されていません
1ページ目
基本的には線形回帰ツールのレポートを踏襲しているイメージです。
線形回帰と異なるポイントがいくつかあります。
基本の要約
ガンマ回帰もポアソン回帰もどちらも呼び出しているRの関数はglmです。呼び出す際のパラメータの与え方もここを見ればわかるようになっています。
逸脱度残差(Deviance Residuals)
ガンマ回帰、ポアソン回帰いずれもモデルの適合度は残差ではなく逸脱度残差で評価します。ガンマ回帰などでは残差は正規分布とならないため、残差を使った評価は適切にできません。そのため、逸脱度残差を使ってモデルを評価します。
係数
係数も基本的には線形回帰ツールと同様ですが、評価の際にt valueではなくz valueが使われています。
z value(Z値)
パラメータが0のWald検定の検定統計量。計算式は以下のとおりですが、βがパラメータのためβ=0となります。
B:推定値、β:母パラメータ、SE:標準誤差
Pr(>|z|)(p値)
ここでのp値はZ値を使って計算されています。
Null逸脱度(Null deviance)
変な日本語訳になっていますが、本来は、「Null deviance:649.92 on 122 degree of freedom」なので、Null逸脱度が649.92で、自由度122のカイ2乗分布となっている、ということになります。
Null逸脱度は、切片のみのモデルの残差逸脱度です。つまり、説明変数を一つも使っていない場合なので、ここでの評価はもっとも当てはまりの悪いモデル逸脱度となります。
残差逸脱度(Residual deviance)
変な日本語訳になっていますが、本来は、「Residual deviance:127.14 on 109 degree of freedom」なので、残差逸脱度が127.14で、自由度109のカイ2乗分布となっている、ということになります。
残差逸脱度は値が小さいほど適合度が良いということになります。
McFaddem R-二乗(McFadden R-Squared)、赤池情報量基準(Akaike Information Criterion)
McFaddem R-二乗(McFadden R-Squared):線形回帰の決定係数に相当するもの。
赤池情報量基準(Akaike Information Criterion):略してAICなどと呼ばれることが多いです。モデルの選択基準で、値が小さいのが良いモデルです。
Fisherスコアリング反復回数(Number of Fisher Scoring iterations)
モデルが収束するまでにパラメータ推定を行った回数です、通常6~8回程度で収束することが期待されています。
2ページ目
最初の表は「逸脱度検定のタイプII分析」のグラフとなっています(タイトルだけ1ページ目にあります)。
逸脱度検定のタイプII分析
逸脱度検定のタイプII分析については、線形回帰と若干違いがあります。
LR Chi-Sq(Likelifood Ratio test Chi-Sq)尤度比検定 カイ二乗値
線形回帰ツールでは、F統計量を使っていましたが、ガンマ回帰・ポアソン回帰では尤度比検定を行います。基本的には尤度比はカイ二乗値と同じような値になります。
DF(自由度)
自由度は、予測変数がカテゴリ変数の場合はカテゴリ数がそのまま自由度となります
Pr(>Chi-Sq)
カイ二乗値を元にしたp値です。
その他、Basic Diagnortic Plotsについては線形回帰と同じような見方で問題ないかと思います(よってここでは省略します)。
ポアソン回帰ツールの結果を詳細に読み解く
ポアソン回帰ツールの結果は、ガンマ回帰ツールとほぼ同様ですのでここでは省略します。使っているRの関数は「glm」で、ガンマ回帰と同じです。
参考URL
回帰分析の1ページ目の用語について説明が記載されています
一般化線形モデルについての解説(ガンマ回帰、ポアソン回帰で使用されているRの関数がGLM)。
ガンマ回帰、ポアソン回帰で使用されているZ値に関しての説明(Z値はパラメータ0の場合のWald検定であるため)。
コメント