はじめに
計量経済学において、まず最初に出てくるのが最小二乗法(OLS)です。
そして、最小二乗法により推計したモデルが、現実のデータにうまく当てはまっているを見るために、使われるのが「決定係数」です。
発想としては、元々のデータと推計によるデータを比較して、この2つが似ているほど、推計したモデルは当てはまりがよく、説明力があると考えます。
この決定係数について、通常の決定係数の導出では分かりにくい感じもあるので、直観的な考え方を中心に、説明したいと思います。
決定係数
モデル
まずは、標本数が$n$であり、被説明変数を$y_i$、説明変数を$x_i$、誤差項を$e_i$としたとき、次のようなモデルを考えるとします。
$y_i = \alpha + \beta x_i + u_i (i = 1, \quad \cdots , \quad n)$
このモデルについて、OLSで推計すると、次のような推定回帰式を得ることができます。
$\hat{y_i} = \hat{\alpha} + \hat{\beta} x_i$
なお、この2つの式について、差をとると残差$e_i$が得られます。
$e_i = y_i \; – \hat{y_i}$
決定係数
推計したモデルが説明力があるかどうかを考えるとき、分かりやすいのが、$e_i$が小さい値ほど、このモデルは説明力があると考えられるでしょう。
そして、$e_i$は正負いずれの値もとるので、$e_i$を二乗し、標本数は$n$なのでそれらを足し合わせたものを見ればいいというわけです。
$\displaystyle \sum_{i=1}^n e_i^2$
ただ、この値自体は色んな値をとり、分かりにくい面があります。
そこで、元々のモデルについて、標本平均$\bar{y} = \hat{\alpha} + \hat{\beta} \bar{x}$を考えて、モデルとの差を定義します(これを「全変動」と言います)。
$\displaystyle \sum_{i=1}^n (\hat{y_i} \; – \; \bar{y})^2$
この式によって、残差について、基準化してやると
$\dfrac{\sum_{i=1}^n e_i^2}{\sum_{i=1}^n (y_i \; – \; \bar{y})^2}$
を得ることができます。
ここで、
$\displaystyle 0 \leq \sum_{i=1}^n e_i^2 \leq \sum_{i=1}^n (y_i \; – \; \bar{y})^2$
に注意すると、
$0 \leq \dfrac{\sum_{i=1}^n e_i^2}{\sum_{i=1}^n (y_i \; – \; \bar{y})^2} \leq 1$
となります。
この式から、1に近いほど残差が大きくモデルの当てはまりがよくなく、0に近いほど残差は小さくモデルの当てはまりがよいことが分かります。
そして、説明力が高いほど、高い値をとるように、次のようにしたのが、決定係数$R^2$になります。
$\displaystyle R^2 = 1 \;- \; \dfrac{\sum_{i=1}^n e_i^2}{\sum_{i=1}^n (y_i \; – \; \bar{y})^2}$
なお、この式を変形すると、
$\displaystyle R^2 = \dfrac{\sum_{i=1}^n (\hat{y_i} \; – \; \bar{y})^2}{\sum_{i=1}^n (y_i \; – \; \bar{y})^2}$
であり、推計した値の変動と全変動の比になっていることが分かります。
参考
伴金美・跡田直澄・中村二朗『エコノメトリックス』
羽森茂之『ベーシック計量経済学』