はじめに
経済データなどを分析する際に、いくつかのデータの関係性が重要になります。
マクロ的なデータでいえば、
・GDPと財政支出の関係
・失業率とインフレ率の関係 など
ミクロ的なデータでいえば、
・学力と所得の関係
・企業の利益と経営者の属性 など
データ分析においては、それ単独で分析されることもありますが、関係性が大事であり、計量経済学ではデータ間の関係性に基づいて、分析しているといえるでしょう。
しかし、ここで入門者として犯しがちな誤りとして、相関関係と因果関係の問題があります。
相関関係と因果関係
相関関係
ある2つのデータがあるとき、同じように増減するなど、同じような動きをしているとき、その2つのデータは相関関係があるといわれます。
逆に、2つのデータについて、全く反対の動きをするときには、逆相関しているなどと言います。
そうしたとき、この2つのデータには何らかの関係があると言えるでしょう。
機械学習やAIでは大量のデータを用いて分析が行われますが、基本的にはこの相関関係に基づいて、相関関係があるものを抽出して、モデルを組み立てていると言えます。
因果関係
因果関係とは、「Aが成り立てば、Bが成り立つ」というものです。
データ分析でいえば、ある2つのデータがあるとき、Aというデータが増減したとき、違うBというデータが変化するかどうかというものです。Aが変化しても、Bが変わらないとき、因果関係はないと言えます。
また、「Aが成り立てば、Bが成り立つ」としても、逆に必ずしも「Bが成り立てば、Aが成り立つ」とはいえず、AからBへは因果関係が成立するが、BからAへは因果関係は成立しないということもあります。
相関関係と因果関係
以上から、相関関係と因果関係の2つの関係については、次のことが言えます。
「因果関係があれば、相関関係がある」
「しかし、相関関係があっても、因果関係があるとは必ずしも言えない」
ということです。
このことに注意すると、データ分析に慣れていない方が間違いやすい問題として、
相関関係を因果関係と取り違える
ということがあります。
例
これを例として、
「風が吹けば、桶屋が儲かる」
という話で考えましょう。
風量と桶屋の売上の2つのデータがあり、同じような動きをしているとします。
同じような動きをしているので、相関関係はあるといえます。
しかし、風が吹くという現象と、桶屋の儲けは因果関係が成立しているかは、何とも言えません。
①風が吹く
②寒いと感じて、風呂に行く人が増える
③風呂屋での桶が多くつかわれるようになる
④風呂屋が桶屋に多く注文し、桶屋が儲かる
というロジックがそれぞれ成立しているかが、問題になります。
また少なくとも、「桶屋が儲かれば、風が吹く」という逆に因果関係が成立していないことは明白でしょう。
以上から、「風が吹けば、桶屋が儲かる」とういものについて、
○ 相関関係
△ 因果関係(風が吹く ⇒ 桶屋が儲かる)
× 因果関係(桶屋が儲かる ⇒ 風が吹く)
ということが言えます。
最後に
このように、相関関係と因果関係の違いは非常に重要です。
データ分析をするにあたり、この点には注意が必要ですし、他者の分析でも相関関係を因果関係と捉えていないかの注意は必須です。
なお、相関関係は分かりやすいのですが、因果関係があるかどうかについては、中上級者向けでGrangerの因果関係という分析があったりもします。