なぜ、説明変数を増やすと、決定係数の値はよくなるのか（数式）

　最小二乗法でモデルを推計するとき、そのモデルの当てはまりを見るため、決定係数がどうであるかを調べることになります。
　そして、決定係数の値は、高いほう（1に近いほう）が望ましいと言われます。

　このとき、

　　「説明変数を増やすと、決定係数の値はよくなるので注意」

　　「変数の数を考慮した修正済み決定係数を見たほうがいい」

などと、統計学や計量経済学の本には書いてあると思います。

　ただこの説明変数を増やしたとき、なぜ決定係数の値がよくなるのかは、

　　「何となく、説明変数が増えるのだから、当てはまりはよくなるだろう」

ぐらいに思っている人も多いかもしれません。

　そこで、数学的に、どうしてそうなるかを説明したいと思います。

説明変数を増やすと決定係数がよくなる原因

　まずは、$n$個のデータについて、次のような単回帰モデルを考えます。

　　$y_i = \alpha + \beta x_i + u_i \quad (i = 1 \, , \, \cdots \, , \, n)$

　見ての通り、$x_i$は説明変数、$y_i$は被説明変数、$u_i$は誤差項となっています。

　このときの決定係数$R^2$は、次のようになります。

　　$\displaystyle R^2 = 1 \; – \; \dfrac{\displaystyle \sum_{i=1}^n e_i^2}{\displaystyle \sum_{i=1}^n (y_i \; – \; \bar{y})^2}$

　$\sum_{i=1}^n e_i^2$は残差二乗和$RSS$で、係数の推定値を$\hat{\alpha} \, , \, \hat{\beta}$とすると、

　　$\displaystyle RSS = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i)^2$

です。この残差二乗和が小さいほど、決定係数$R^2$が大きくなることが分かります。

変数を増やした場合

　上記のモデルに、変数$z_i$を付け加えた場合を考えましょう。

　　$y_i = \alpha + \beta x_i + \gamma z_i + u_i \quad (i = 1 \, , \, \cdots \, , \, n)$

　この場合の残差二乗和を$RSS’$とすると、

　　$\displaystyle RSS’ = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; \hat{\gamma}z_i)^2$

となります。

　ところで、この残差二乗和$RSS’$は最小二乗法で得られたものなので、推定値$\hat{\alpha} \, , \, \hat{\beta} \, , \, \hat{\gamma}$は、残差二乗和$RSS’$が最小となるような値になっています。

　ということは、任意に$\tilde{\alpha} \, \, \, \tilde{\beta} \, , \, \tilde{\gamma}$とした場合の残差二乗和よりは、この残差二乗和$RSS’$のほうが小さく、次式が成立しています。

　　$\displaystyle RSS’ = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; \hat{\gamma}z_i)^2　 \leq \sum_{i=1}^n (y_i \; – \; \tilde{\alpha} \; – \; \tilde{\beta}x_i \; – \; \tilde{\gamma}z_i)^2$

　ここで、$\tilde{\alpha} \, , \, \tilde{\beta} \, , \, \tilde{\gamma}$は任意なので、どのような値を入れてもいいことを考え、

　　$\tilde{\alpha} = \hat{\alpha}$ 、　$\tilde{\beta} = \hat{\beta}$　、　$\tilde{\gamma} = 0$

とします。そうすると、上記の式は、

　　$\displaystyle RSS’ = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; \hat{\gamma}z_i)^2　 \leq \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; 0 \times z_i)^2$

となります。この式の右辺はまさしく変数が1つの場合の残差二乗和$RSS$なので、

　　$RSS’ \leq RSS$

であり、変数を多くしたほうが、残差二乗和は小さいことが分かります。

　そして、決定係数は残差二乗和が小さいほど、値が高くなることかr、変数を多くしたほうが決定係数の値はよくなります。

参考

　　黒住英司『計量経済学』