最小二乗法でモデルを推計するとき、そのモデルの当てはまりを見るため、決定係数がどうであるかを調べることになります。
そして、決定係数の値は、高いほう(1に近いほう)が望ましいと言われます。
このとき、
「説明変数を増やすと、決定係数の値はよくなるので注意」
「変数の数を考慮した修正済み決定係数を見たほうがいい」
などと、統計学や計量経済学の本には書いてあると思います。
ただこの説明変数を増やしたとき、なぜ決定係数の値がよくなるのかは、
「何となく、説明変数が増えるのだから、当てはまりはよくなるだろう」
ぐらいに思っている人も多いかもしれません。
そこで、数学的に、どうしてそうなるかを説明したいと思います。
説明変数を増やすと決定係数がよくなる原因
まずは、$n$個のデータについて、次のような単回帰モデルを考えます。
$y_i = \alpha + \beta x_i + u_i \quad (i = 1 \, , \, \cdots \, , \, n)$
見ての通り、$x_i$は説明変数、$y_i$は被説明変数、$u_i$は誤差項となっています。
このときの決定係数$R^2$は、次のようになります。
$\displaystyle R^2 = 1 \; – \; \dfrac{\displaystyle \sum_{i=1}^n e_i^2}{\displaystyle \sum_{i=1}^n (y_i \; – \; \bar{y})^2}$
$\sum_{i=1}^n e_i^2$は残差二乗和$RSS$で、係数の推定値を$\hat{\alpha} \, , \, \hat{\beta}$とすると、
$\displaystyle RSS = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i)^2$
です。この残差二乗和が小さいほど、決定係数$R^2$が大きくなることが分かります。
変数を増やした場合
上記のモデルに、変数$z_i$を付け加えた場合を考えましょう。
$y_i = \alpha + \beta x_i + \gamma z_i + u_i \quad (i = 1 \, , \, \cdots \, , \, n)$
この場合の残差二乗和を$RSS’$とすると、
$\displaystyle RSS’ = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; \hat{\gamma}z_i)^2$
となります。
ところで、この残差二乗和$RSS’$は最小二乗法で得られたものなので、推定値$\hat{\alpha} \, , \, \hat{\beta} \, , \, \hat{\gamma}$は、残差二乗和$RSS’$が最小となるような値になっています。
ということは、任意に$\tilde{\alpha} \, \, \, \tilde{\beta} \, , \, \tilde{\gamma}$とした場合の残差二乗和よりは、この残差二乗和$RSS’$のほうが小さく、次式が成立しています。
$\displaystyle RSS’ = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; \hat{\gamma}z_i)^2 \leq \sum_{i=1}^n (y_i \; – \; \tilde{\alpha} \; – \; \tilde{\beta}x_i \; – \; \tilde{\gamma}z_i)^2$
ここで、$\tilde{\alpha} \, , \, \tilde{\beta} \, , \, \tilde{\gamma}$は任意なので、どのような値を入れてもいいことを考え、
$\tilde{\alpha} = \hat{\alpha}$ 、 $\tilde{\beta} = \hat{\beta}$ 、 $\tilde{\gamma} = 0$
とします。そうすると、上記の式は、
$\displaystyle RSS’ = \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; \hat{\gamma}z_i)^2 \leq \sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta}x_i \; – \; 0 \times z_i)^2$
となります。この式の右辺はまさしく変数が1つの場合の残差二乗和$RSS$なので、
$RSS’ \leq RSS$
であり、変数を多くしたほうが、残差二乗和は小さいことが分かります。
そして、決定係数は残差二乗和が小さいほど、値が高くなることかr、変数を多くしたほうが決定係数の値はよくなります。
参考
黒住英司『計量経済学』