パネル・データ
パネル・データとは、複数の経済主体について、時系列のデータがあるというものです。
例えば、何年もの各都道府県の消費と投資のデータがあるという場合。
このようなときに使われるのが、パネル・データ分析です。
ただ、初めてパネル・データ分析について、勉強した方が、勘違いしたり、躓いたりするポイントがあると思っています。
そこで、パネル・データ分析の目的から、実際の分析手法の考え方を説明したいと思います。
パネル・データ分析の目的
パネル・データ分析において、まず勘違いするのは、パネル・データ分析の目的ではないかと思います。
パネル・データにおいては、複数の経済主体の時系列データがあるので、細かく分析をするのを目的としているように思ってしまいます。
特に、データの特性から、
クロスセクションモデル + 時系列モデル ⇒ パネル・データ分析
と表現されたりもし、より複雑な分析だと思いがちです。
しかし、パネル・データ分析は、
「複数の経済主体があるけど、それらに関係ない共通項を見出す、モデルを構築する」
ということを目的としています。
違う言い方をすれば、
「いろいろなデータがある中で、細かな分析をするのではなく、単純化した分析・モデル化を狙っている」
というものです。
数式で説明すれば、経済主体の数を$i$、時間を$t$とすると、
$y_{it} = \alpha + \beta x_{it} + u_{it}$
というモデルが想定されます。
しかし、このモデルにおいて、$\alpha$や$\beta$に、$i$や$t$の添え字がついていないように、経済主体や時間に関係ない$\alpha$や$\beta$を知りたいということになっています。
この点について、勘違いしやすいので、注意してください。
3つのパネル・データ分析
パネル・データ分析においては、教科書的には、次の3つのモデルがあります。
・プールOLS
・固定効果モデル
・変量効果モデル
このとき、それぞれのモデルが何をやっているのか、ちょっとややこしい感じがあります。
「それぞれ何をやっているの?」
「似ているけど、何が違うの?」
などと思ってしまいます。
しかし、考え方としては単純で、場合分けをすれば、次のような形です。
①経済主体の違い
・無視する ⇒ プールOLS(Pooled OLS)
・無視しない ⇒ ②データ間の関係
・あり ⇒ 固定効果モデル
・なし ⇒ 変量効果モデル
①経済主体の違い
まずは、パネル・データ分析の目的は、データとしては色々とありますが、単純化をしたいという話です。
そこでまず思いつくのが、経済主体の違いを無視して、推計したいという考えです。なので、経済主体ごとのデータであることは無関係に、とりあえず、OLSをやろうというのが、「プールOLS」です。
乱暴な話ですが、発想としては簡単で、OLSもそのまま使えるので、便利です。
②データ間の関係
経済主体の違いを無視してモデルを推計できればいいのですが、多くの場合、経済主体ごとでその効果・影響が出てきます。
例えば、都道府県ごとの通勤時間の時系列データがあったとしても、東京都と沖縄県では、同列にそのデータを扱うことはできません。
そこで、経済主体ごとの違い・効果を取り除く必要性が出てきます。その違いを反映させるため、定数をコントールしようというのが、固定効果モデルです。
数式でいえば、
$y_{it} = \alpha_i + \beta x_{it} + u_{it}$
となります。上記の式と違い、$\alpha$に添え字の$i$がついていることに注意してください。
そしてこれを推計すればいい話なのですが、$\alpha_i$と$x_{it}$の関係が気になります。
なぜならば、$\alpha_i$と$x_{it}$が相関しているかどうかで、モデル・方程式が変わってくるからです。ここで、場合分けが生じて、
$\alpha_i$と$x_{it}$が相関している ⇒ 固定効果モデル
$\alpha_i$と$x_{it}$が相関してない ⇒ 変量効果モデル
という選択になります。
(なお、どちらになるかは、Hausman検定を行うことになります)
まとめ
パネル・データ分析は難しいように感じますが、この基本的な考えを抑えれば難しくはありません。
そして、実際の分析においては、統計ソフトを使えば、上記のプールOLS・固定効果モデル・変量効果モデルにおける推計は簡単なので、推計結果を見て、それぞれの数値や検定結果を見て、どのモデルがいいかを判断すればいいと思います。
参考
黒住英司『計量経済学』
羽森茂之『ベーシック計量経済学』