決定係数と修正済み決定係数

はじめに

　回帰分析で、モデルを推定したとき、実際の被説明変数の値と、モデルによる予測値がどれだけ同じか、それとも大きなずれがあるのかは、気になるところです。

　例えば、次のように、$k$個の説明変数からなる重回帰モデルがあるとします。

　　$y_i = \alpha + \beta_1 x_{1i} + \cdots + \beta_k x_{ik} + e_i \quad (i = 1 \, , \, \cdots \, , \, n)$

　これをOLSで推定すると、定数項や係数$\beta_i$の推定量が得られ、それをもとに、被説明変数の予測値$\hat{y}_i$を求めることができます。

　そのとき、$y_i$と$\hat{y}_i$がどれだけ近い値が得られているのかを知りたいとき、一般的に使わるのが、決定係数です。

　実際の被説明変数$y_i$と予測値$\hat{y}_i$について、偏差二乗和を計算し、その比がどうなっているかを見るのが、決定係数です。

　それぞれの偏差二乗和を$S_{yy} \, , \, S_{\hat{y}\hat{y}}$とし、決定係数を$R^2$とすると、

　　$R^2 = \dfrac{S_{\hat{y}\hat{y}}}{S_{yy}}$

となります。2つの偏差二乗和が近い値をとれば1に近づき、そうでなければ0に近くなるので、

　　$0 \leq R^2 \leq 1$

となります。

　すなわち、決定係数が1に近いほど、$y_i$と$\hat{y}_i$は近く、モデルは当てはまりがいいと言え、そうでなければ、モデルは当てはまりが悪いということになります。

　決定係数は直観的には分かりやすいのですが、大きな問題があります。
　それは、説明変数を増やしていくと、決定係数は1に近づき、モデルの当てはまりは良くなることが知られています。

　それでは、決定係数は意味があるものとは言えないので、説明変数を増やすほど、罰則があり、決定係数が上がらないようなものとして考えられたのが、修正済み決定係数です。

　決定係数$R^2$は、

　　$R^2 = \dfrac{S_{\hat{y}\hat{y}}}{S_{yy}} = 1 \; – \; \dfrac{\sum \hat{e}^2_i}{S_{yy}}$

ですが、修正済み決定係数$\bar{R^2}$は、

　　$\bar{R^2} = 1 \; – \; \dfrac{n \; – \; 1}{n \; – \; (k+1)} \dfrac{\sum \hat{e}^2_i}{S_{yy}}$

となります。

　決定係数$R^2$と修正済み決定係数$\bar{R^2}$の違いは、

　　$\dfrac{n \; – \; 1}{n \; – \; (k+1)}$

がついているかどうかです。この項は重回帰モデルなので、説明変数の数は2以上であり

　　$(n \; – \; 1) \; – \; (n \; – \; (k+1)) = k > 1$

となることから、

　　$\dfrac{n \; – \; 1}{n \; – \; (k+1)} > 1$

となっています。そして、式から分かるように、説明変数$k$を増やすと、この項は大きくなり、修正済み決定係数は小さくなります。

　決定係数$R^2$と修正済み決定係数$\bar{R^2}$の2つの式から、

　　$\bar{R^2} = \dfrac{(n \; – \; 1) R^2 \; – \; k}{n \; – \; (k+1)}$

となります。

【数値例】
　例えば、データ数が$31$で、説明変数が$6$、決定係数が$0.8$だったとします。
　このとき、修正済み決定係数は

　　$\bar{R^2} = \dfrac{(31 \; – \; 1) \times 0.8 \; – \; 6}{31 \; – \; (6 +1)} = 0.75$

となります。