変数の選択に使われる情報量基準について

はじめに

　計量経済学において、説明変数が多くあるとき、どの説明変数を採用したらいいかという問題があります。

　例えば、重回帰モデルにおいて、いくつも説明変数があるときに、その変数の選択により、本来よりも少ない変数でモデルを想定したり、逆に多くの変数を用いたいりと、過少定式化や過剰定式化の問題が発生することがあります。

　また、時系列モデルにおいては、過去のデータを説明変数に持ってくることになりますが、どのぐらい過去のデータを使えばいいのかが、分かりません。

　こうしたときに、どのぐらいの説明変数があればいいのかという点で、指標となるのが、情報量基準です。

　$n$個のデータ数に対して、定数項を含んだ$K$個の説明変数があるとき、赤池情報量基準（$AIC$）やベイズ情報量基準（$BIC$）というものがあります（なお、ベイズ情報量基準はシュワルツのベイズ情報量基準（$SBIC$）とも言われたりもします）。

　　$AIC = \ln \hat{\sigma}^2 + \dfrac{2K}{n}$

　　$BIC = \ln \hat{\sigma}^2 + \dfrac{K \ln n}{n}$

　ただし、

　　$\displaystyle \hat{\sigma}^2 = \dfrac{1}{n} \sum_{i=1}^n \hat{e_i}^2$　（$e_i$は誤差項）

となっています。なお、$ARMA(p \, , \, q)$のような場合には、$K=p+q$です。

　そして、いくつかの説明変数のモデルについて、この情報量基準を計算して、最も値が小さい場合のモデルを選択するということになります。

　2つの基準は、若干、式が異なりますが、次のような意味合いを持っています。

　　右辺第一項：分散の推定値であり、説明変数を多くするほど、減少します。

　　右辺第二項：いずれも説明変数を多くすると、この部分の値は大きくなります。

　このように説明変数を多くすることで、右辺第一項は情報量基準の値は小さくなり、右辺第二項は情報量基準の値は大きくなりるような形になっています。

　すなわち、説明変数を多くすることによるメリットと、逆に説明変数を多くすることによるペナルティを与えることで、最も情報量基準が小さいものが、説明変数の数として、相応しいと判断することになります。

　$AIC$と$BIC$では、右辺第二項の分子部分が異なっています。

　このとき、

　　$ln n > 2 \quad (n > 7.39$のとき$)$

であり、$n$はデータ数ということを考えれば、おおよそ$7$よりも少ないデータ数で推計することはないので、基本的にはこの不等号が成立します。

　すなわち、$BIC$のほうが、説明変数を多くすることによるペナルティが大きいことから、この2つの基準で比べたときには、$BIC$のほうは$AIC$に比べて、少ない説明変数が望ましいという結果が得やすくなっています。
　

　　黒住英司『計量経済学』