データ分析_相関と因果の違い

課題や問題の解決のためには、「原因となっている事象に手を打つ」ことが必要です。

例えば、「原因:事務作業に時間がかかる」ので、「結果:長時間労働になる」のであれば、労働時間削減のために、無駄な事務作業を削減することで、その目標を達成することができます。

一方、「原因:長時間労働になる」ために、「結果:事務作業に時間がかかる」と考え、労働時間を削減しても、無駄な事務作業にかかる時間は削減されません。

このように「原因と結果」、すなわち「因果」について正しく理解する必要があります。しかしながら、しばしば「因果」と「相関」が混同されることがあります。

相関がある」とは、2つの事象の間に関係があることをいいます。
よって、相関があるということは、因果があることの前提となりますが、その関係にも様々なパターンがあります。

[出所]一般社団法人ピープルアナリティクス&HRテクノロジー協会著「ピープルアナリティクスの教科書」を基に著者作成

■因果の基本は時間軸

因果について最も基本的なことは、「原因が、結果に先行する」ということです。
例えば、「処遇の高低が、満足度の高低に影響する」のか、「満足度の高低が、処遇の高低に影響する」のか、いずれがもっともらしいと考えられるのかを検討することが最初のステップです。
人事領域では、因果の方向がいずれも成り立ちうると考えられるケースも少なくありません。

処遇の高低が、満足度の高低に影響する」という仮説を検証するのであれば、t時点の処遇データと、t+1時点の満足度データを取得し、両者の関係を確認します。

因果関係については、安易な解釈をせずに、「その因果は、妥当なものか」を冷静に考えることが必要です。

■間接的な影響のパターン

表の「Cが介在する」の例は、「従業員満足→顧客満足→売上」のようなパターンです。
この場合、従業員満足と売上の間に相関が見られるかもしれませんが、それぞれとより相関が高い「顧客満足」という変数が存在するかもしれません。

もし、「顧客満足」の存在に気が付かなければ、売上を上げるために従業員満足の向上のみに注力し、なかなか目的を達成することができないという問題に直面するかもしれません。

■共通する要因があるパターン

例えば、「血圧と所得の間に相関が見られた」とした場合、「血圧が高くなれば、所得が高くなる」と考えるには、大きな違和感を覚えます。
この場合、「血圧と年齢は関係ある。年齢と所得も関係ある。よって血圧と所得に関係ある」のように、「年齢という要因によって見かけ上、血圧と所得に相関が生じる」という考えが妥当です。

このようなことを「第3の変数による相関」といいます。

■実務上の留意点

大量のデータを分析した場合、全く関係ないデータ同士の間に「偶然の相関」が観察されることがあります。そのため、相関であれ、因果であれ、「なぜ、そのようなことが考えられるのか」について考察することが不可欠です。
誤った相関、因果の解釈により、効果のない施策、あるいはマイナスの施策につながらないよう、十分に留意が必要です。


クリックありがとうございます。
-------------------------------------
にほんブログ村 経営ブログへ

にほんブログ村 士業ブログへ



-------------------------------------