「人事データ分析入門講座」講師の武田です。
久しぶりの配信となりますが、本日もよろしくお願いします。
前回まで、「データがやってきたら、まず何をやるべきか?」というテーマでお伝えしてきました。そして、人事データ分析ではWho(誰)という視点でデータの外観を捉え、分析対象である人と組織に対する理解を深めておくことが重要だとお伝えしました。
Whoという視点でデータの外観を捉えることをお伝えしました。
具体的には、「データ」「システム」「従業員」それぞれでどんな人が含まれているのか把握することが大切で、いずれも分析対象である人への理解を深めることがポイントになります。
データがやってきたら、まず何をやるべきか?(後編)
本投稿より、データから外観を捉える方法についてお伝えしていきます。
さて、データから外観を捉える場合、データ項目の種類によってアプローチが変わってきます。人事データに含まれるデータ項目は、大きく分けて以下2つの種類にわけることができます。
- 質的変数: 大小関係を比較したり演算ができる変数(年齢、時間外勤務時間数など)
- カテゴリカル変数: そのままでは演算ができない変数(所属、成績、職種など)
これらについては、第1回目の記事でお伝えしましたが、もう少し細かくご説明していきます。
量的変数
数字で表されていて足し引き可能な変数のことを量的変数といいます。人事データでは、年齢、時間外勤務時間数、年休消化率、在籍年数、入社年(西暦)などが代表的な変数です。
数字なので四則演算ができたり、大小を比較することができたりします。ただ、厳密には値と値の尺度を以下の二つに分けることができ、それぞれ適用できる演算が異なります。
間隔尺度
値と値の間の間隔に意味がある変数を間隔尺度の変数といいます。
人事データの中では入社年(西暦)がこれに該当します。例えば、2023 と 2024 という値について、その間隔には数量的な意味があるので、間隔尺度といわれているわけです。
このように、入社年の値には間隔があるので大小関係を比較することができます。先ほどの例では、2023 と 2024 を比べると 2024 の方が大きいということができます。また、2024 - 2023 = 1 といったような加減算をすることが可能です。そして、2024 - 2023 と 1999 - 1998 は共に1であり、値同士の差が常に一定ということなります。
これは当たり前の話に聞こえると思いますが、データ分析の基本は比較ですので、こうした概念を押さえておくことはとても大切です。
一方、基準となる数字がないので、乗除算をすることができません。例えば、1500(年)は1000(年)の1.5倍だ、ということはできません。これは西暦であるからであり、ゼロとなる基準を定めた何らかの年数を変数とする場合は変わってきます。
比例尺度
値と値の間隔に加えて、比率にも意味がある変数を比例尺度の変数といいます。
人事データの中では、年齢や時間外勤務時間数がこれに該当します。比例尺度の変数に対しては、加減乗除の四則演算をすることが可能です。
先ほどの間隔尺度の例として西暦を取り上げました。西暦は比例尺度でないのですが、西暦(出生年)から算出される年齢は比例尺度になっています。具体的な例を見てみましょう。
例として、1984年生まれのAさんと、2004年生まれのBさんのことを考えてみましょう。
2024年末時点でAさんは40歳、Bさんは20歳となります。Aさんの年齢はBさんの年齢のちょうど2倍となり、実際にAさんはBさんの2倍の長さを生きていることになりますね。こうした計算ができるのが比例尺度の変数となります。
一方、AさんとBさんの出生年である 1984 と 2004 という値は、間隔尺度のためこうした演算を行うことができません。
このように、考えてみるとそうだよなと思うことなのですが、結構重要な話です。コンピュータープログラムや統計ソフトウェアによっては、量的変数は同じような変数型として認識される場合もあります。
そして、量的変数に対してはソフトウェア上で四則演算を適用できてしまうので、ついうっかり間隔尺度の変数に掛け算をしてしまった、ということが起きてしまいます。そうなると、演算後の数字にはあまり意味がないという事態になってしまいます。私も駆け出しデータサイエンティストのころに、諸先輩から尺度について何度も指摘を受けました。
ということで、新しい数字を目にしたときには、比例尺度と間隔尺度のどちらだろうか?と考えてみるとよいでしょう。
カテゴリカル変数(質的変数)
量的変数とは違い、値として数字を取らない変数をカテゴリカル変数と呼びます。教科書によっては質的変数、カテゴリ変数などと呼ぶ場合もあります。人事データの中では、所属、職種、役職、成績、性別などがカテゴリカル変数になります。
また、組織サーベイで選択式の回答を求める時に、以下のような選択肢から回答を得た場合もカテゴリカル変数となります。
- 該当しない
- やや該当しない
- わからない
- やや該当する
- 該当する
上記のような回答の値は往々にして1, 2, …, 5のような数字で記録されるのですが、見た目が数字だからといって量的変数として扱うのは適当でない場合が多いです。なぜなら、選択肢同士の間隔が一定であることを保証できないからです。間隔が一定でないため足したり引いたりしても意味がない、ということになります。これは人事評価でよく使われる、SA, A+, A, B, C といった項目も同様です。
さて、カテゴリカル変数も尺度によって二つの種類にわけることができます。
名義尺度
カテゴリカル変数のうち、値同士に大小関係がない変数を名義尺度の変数といいます。人事データでは、職種や性別、所属が代表的でしょうか。
例えば、職種として営業職、技術職、経理職などの人事職種が定義されていた場合、これらは名義尺度となります。したがって、その値同士で四則演算や大小比較をすることができません。つまり、そのままでは数量的な分析を行えない、ということになります。
それでは名義尺度の変数は人事データ分析上意味がないのでしょうか?
そういうわけではなく、人事データ分析を行う上で名義尺度の情報はとても大切です。職種や所属といった情報は、問題の把握や人事施策の実行単位として極めて重要な意味を持つからです。
人事データ分析上、名義尺度の変数は量的変数に対して何らかのグループを与える役割を担います。BI(ビジネスインテリジェンス)の世界では、ディメンションと呼ぶこともあります。
例えば、
- 所属別および月別に時間外勤務時間数の平均を計算して推移を見る。
- 全社の職種別の在籍人数を見る。
というような分析を行うとき、太字の部分がディメンション(カテゴリカル変数)になります。もっと直観的に言うと、「○○別にみてみよう」「△△毎に平均を比較する」という言葉で表現できます。
順序尺度
カテゴリカル変数のうち、値同士に大小関係を定義できる変数を順序尺度の変数といいます。人事データの例では、人事評価の評価値、等級、役職、サーベイの大小関係がある選択式回答値などが代表的です。
例えば、目標管理において、評価値として SA, A+, A, B, C という値で評価しているとします。
このとき、 少なくとも SA > A+ > A > B > C という大小関係はあるはずです。そのため、Xさんの評価がA+でYさんの評価がSAであったなら、評価としてYさんの方が良かったということは言えるわけです。また、ハイパフォーマーの定義付けで人事評価を利用する場合に、「3期連続でA+以上の評価を得た人」という条件で抽出することも可能です。
こうした順序尺度を持つ変数の順序の情報を活かしたいという場合は、分析過程で特殊な手立てを取る必要がでてきます。逆に言うと、名義尺度として取り扱うなら、一般的なカテゴリカル変数としてシステム上で取り扱えば問題ありません。
カテゴリカル変数でありつつ、順序尺度の情報を活かす場面を以下にあげておきます。
- 組織サーベイの選択式回答で順序を持つ場合。選択肢を独立に扱うのではなく、特定の選択肢以上の回答を肯定回答と定義して、肯定回答率ベースで集計・分析する。
- 人事評価の評価値に対して順序情報を活かす場合。特定の評価値以上の閾値でデータを抽出する、あるいはデータ可視化の際に順序情報で並べ替えるなど活用。
- 順序尺度の変数を目的変数において回帰分析をする場合。順序ロジスティック回帰を適用する。
- 分類問題においてラベル評価に重みを付ける場合。もしくはランキング問題を解く場合。モデル評価に順序情報を活用する。
また、順序尺度の順序情報を活かしたい場合は、データ処理を任せるソフトウェア上で順序尺度として認識させなくてはなりません。Pythonではpandas.Categoricalを利用することができます。一方、Rではfactor型の変数を利用して定義していきます。