データ分析における基本的な手順
データ分析というと、「統計解析」や「機械学習」を連想しますが、実際には、元データを整理することや、解析等で得られた知見・発見を活用することまでの一連の流れがデータ分析になります。データ分析の大まかな流れは、以下のとおりです。
手順1:目的・計画の策定
まず、『何を実現したいのか』・『そのために、どのようなアクションをとるのか』を具体化することが第一歩であり、最も大切なことです。それでなければ、いくら複雑で精緻な統計解析や機械学習を行っても、その結果が無駄になりかねないからです。
また、分析結果からわかった事実をもとに、アクションを取れるか否か、事前にリソースの確認をしておくことが必要です。
加えて「いつまでにアウトプットが必要か」の把握や、分析のためにかけられる工数や予算の制約についても事前に見積もりをつけておくによって、計画倒れにならないように留意することも必要です。
手順2:必要なデータの洗い出し
分析の目的・計画を策定した後に、分析にどのようなデータを用いるのかを洗い出します。それによって、実行可能な分析であるかが、より具体化されるようになります。
例としては、入社後に活躍する人材の特徴を把握するためには、以下のデータがひつようになります。
①入社後の活躍状況を表すデータ
・業績評価
・人事考課
・多面評価
②人材の特徴を表すデータ
・採用時の適性検査
・エントリーシート
なお、入社後の活躍など、予測の対象となる事象を表すデータは「目的変数」といわれています。また、人物特徴を表すデータなど、予測に用いるデータは「説明変数」といわれています。特に、回帰分析や機械学習により、予測や分類を行う際には、この用語が使われることが多いので、覚えておく必要があります。
手順3:データの収集
目的とする分析を行うためには、異なるデータソースに蓄積されているデータを収集しなくてはならないことが多いです。その際、必要なデータを具体化しておくことで、部門間でのやり取りがスムーズになります。
例えば、「マッチングのために必要なキーは何か?」など、事前に定義しておくと手戻りが起こりにくくなります。
また、社員に人事データの活用について、どのような許諾を得ているかを確認することも併せて行うことが必要です。
手順4:データの前処理
収集したデータは、すぐに統計解析や機械学習を行える状態にないことが多いです。例えば「全角と半角の混在」や「文字列と数値の混在」があれば。正しい集計は行えず、複数のソースから収集したデータのマッチングができません。
評価データであれば、評価制度の変更により、異なる定義の評価記号に切り替わっている可能性があります。複数年の評価を累積して使用するのであれば、切り替え前後の対応表などに基づき、年度間の評価記号の統一を行わなくてはなりません。
このようなデータの修正・加工は、「クリーニング」や「クレンジング」といわれています。データの前処理は、地道で時間のかかる作業です。一方で、なるべく多くのデータを有効に、また正しく利用するためには欠かせない手順ですので、細心の注意をもって当たる必要があります。
手順5:データの可視化
データの前処理が完了した後、それぞれのデータの基本的な特徴を捉えることで、前処理が適切にできているかが確認できます。
例えば、「度数分布表」を確認することで、数値に異常値があれば、前処理に戻ることや、「散布図」で確認し、線形の関係、非線形の関係をみることで、確認したりします。
用いる変数が多い場合、この手順が省略されがちですが、ぜひ欠かさないようにしたいものです。
手順6:統計解析や機械学習の実施
ここまでのプロセスを経て、統計解析や機械学習という「分析」を行います。変数の性質によって、用いる分析方法が変わってきますので、変数の性質を把握し、適切な手法を選択することが必要です。
例えば、回帰分析の場合、目的変数が量的変数であれば、「線形回帰分析」を行いますが、0/1の2値であれば「ロジスティック回帰分析」を用います。
人事をバックグラウンドとする担当者が、統計解析や機械学習の手法を全て理解することは現実的ではない場合もあります。そのため、統計解析や機械学習の専門家とコラボレーションすることや、対話のベースとなる最低限の知識を身につけるなど、各社の状態や個人の特徴に応じた工夫が必要です。
手順7:分析結果をもとにした意思決定
分析が終わった後、「活躍度合いを、人物特徴からどの程度予測できるのか」という予測精度の確認、「活躍度の予測には、どのような変数が、どの程度影響してくるのか」というモデルの構造確認等を行います。
統計解析や機械学習の結果は、データに基づいたものであり、客観的で正しいと考えられがちではありますが、外れ値の混入などの落とし穴や、データだけからは分からないことも少なくありません。よって、分析結果については慎重に確認するとともに、必要に応じて自らの持つ知識や経験を総動員して解釈することが必要です。
その上で、統計解析や機械学習の結果を活用するか否か、また活用するとしたらどのように活用するかを決定しなくてはなりません。「データは諸刃の剣」であることを忘れないようにしなければなりません。
手順8:施策の展開
施策の展開は、あらゆる分析のゴールです。例えば、活躍者予測であれば、予測結果を採用の優先順位付けに用います。あるいは採用要件を見直すなどのアクションを取ってこそ「分析の完成」になります。
しかし、ある程度人事内部で完結する施策以外であれば、現場を巻き込んで、はじめて完成する分析もあるため、単に施策を提示・展開するだけでなく、「統計解析等を通じて、何がわかったのか。そして、それに基づいてどのような手を打つのか」をセットで伝えることが求められることも多いです。
これは、その後の様々な人事データ活用のための現場コミットメント醸成にもつながる取り組みであり、それぞれの組織において適切な方法を検討する必要があります。
全体として、手順1で策定した目的・計画どおり分析が進めばすばらしいことではありますが、実際に分析を進めるうちに制約等がみえてきたために、その目的・計画が変わることも少なくありません。その場合は、自社にとって必要なことであれば、それを変えることは、決して悪いことではありません。
よって、「目的・計画どおりに進めること」にとらわれ、手段が目的化しないように留意する必要があります。