ピープルアナリティクス

ピープルアナリティクス

ピープルアナリティクスに関する実践知やノウハウを発信しています。

116 posts
変数の外観を捉える #3 (カテゴリカル変数)

変数の外観を捉える #3 (カテゴリカル変数)

「人事データ分析入門講座」講師の武田です。 本日もよろしくお願いします。 今回は、前回の続きで、カテゴリカル変数の外観を捉える方法をお伝えしていきます。 カテゴリカル変数の分析を始める前に 量的変数は定量的な比較ができますが、カテゴリカル変数は直接的には量的な分析を行うことはできません。そのため、量的変数に何らかのまとまり(グループ)を与えるものとして利用している方も多いのではないでしょうか。例えば、所属別に時間外時間数を比較したり、男女別にエンゲージメントを集計したり。 人事データ分析では人や組織の観点が重要で、それらが持つ属性情報が分析の切り口になります。そして、人や組織の属性情報の多くがカテゴリカル変数で表現されています。そのため、カテゴリカル変数は分析の切り口として大きな意味を持ちます。 それでは、人事データ分析を始める前にカテゴリカル変数の外観を捉えるとは、どのような作業を指すのでしょうか? 第一にやるべきことは、カテゴリカル変数に含まれる要素(カテゴリー)の種類を確かめることです。例えば、性別や所属、グレード(あるいは等級)というデータ項目があった場合、そのデ...

クロス集計

クロス集計

クロス集計とは? 2つ以上のカテゴリカル変数を組み合わせて集計した結果を表にまとめることをクロス集計といいます。例えば、所属・年代別の在籍人数を整理したり、組織サーベイで選択式の質問項目の回答結果を整理したりする場合に利用します。 このようにしてできあがった表のことをクロス集計表または分割表といいます。 分割表というと、基本的にはカテゴリカル変数の組み合わせが出現する頻度や割合を集計し、表としてまとめたものを指します。 一方、クロス集計表は頻度集計の他に、カテゴリカル変数の組み合わせ条件の下で別の量的変数の統計量を整理したピボットテーブルを指すこともあります。 どのような場面で利用するの? クロス集計は次のような場面で利用します。 * カテゴリカル変数の組み合わせでデータ件数を数え上げたいとき。 * カテゴリカル変数の組み合わせたグループの大きさや割合を比較したいとき。 * 2つのカテゴリカル変数の統計的な関係を考察したいとき。 * カテゴリカル変数でグループ化したデータの特徴量を作る時。 Pythonでクロス集計表を作る Pythonでグループ集...

グループ集計

グループ集計

グループ集計とは? データを何らかのグループに分割し、グループ別に集計をして値を求めることをグループ集計といいます。例えば、従業員の時間外時間数のデータがあったとき、組織別の平均を出して比較するような場面でグループ集計を使います。 具体的には、グループ集計を使って以下のような値を求めます。 * データ件数: データの数(カウント・数え上げ) * 平均値: すべてのデータを足してデータ件数で割った値(算術平均) * 中央値: データを小さい順に並べたときにちょうど中央にくる値 * 最頻値: もっとも多く出現する値 * 最大値: データの中で最も大きな値 * 最小値: データの中で最も小さな値 * 分散: 平均値と各データの差を2乗した値を使ってデータのばらつきを表した値 * 標準偏差: 分散の平方根をとって元のデータの単位でばらつきを表した値 どのような場面で利用するの? グループ集計は以下のような場面で利用します。 * 量的変数の外観を把握するとき。 * 量的変数の外れ値を確認するとき。 * グループ別に量的変数の統計量を比較するとき。 * 回帰モ...

変数の外観を捉える #2(量的変数)

変数の外観を捉える #2(量的変数)

「人事データ分析入門講座」講師の武田です。 本日もよろしくお願いします。 今回は、「変数の外観を捉える #1」の続きで、量的変数の外観を捉える方法をお伝えしていきます。 量的変数の分析を始める前に 量的変数を用いた分析は日常的なものです。例えば、次のような疑問に答えるために日々データと向き合っていらっしゃるのではないでしょうか。 * どの部署が時間外が多いか。働き方の改善には何が必要か。 * エンゲージメントが極端に高い、もしくは低い職場はあるか。課題は何か。 * 部署の年齢構成はどうなっているのか。配置施策をどうするか。 これらの疑問に答えるためには、関心事に対応した量的変数を調べてみる必要があります。ここでいうと、時間外、エンゲージメント、年齢ですね。そして、これらのデータを使って分析を始める前に、データの全体像を押さえておくことが大切です。 例題として年齢について考えてみたいと思います。当サイトで公開している「HRトイデータ_人事情報_拡張版」から10件ほどランダムサンプリングして年齢を確認すると、以下のような値となりました。 37, 34, 24, 2...

ジョイントプロットによる解析

ジョイントプロットによる解析

散布図とKDEプロットを組み合わせたジョイントプロットによる人事データの可視化例です。2つの量的変数による2次元空間上に、各データがどのように分布しているか確認するために利用します。 人事データ可視化の例 人事データ可視化の狙い * 働き方とエンゲージメントの関係が職場によってどのように異なるのか考察したい。 人事データ可視化アプローチ 利用するグラフ 以下2つのグラフを組み合わせたジョイントプロット。 * 散布図: 量的変数と量的変数の関係を可視化。 * KDE(カーネル密度推定): 量的変数の分布を滑らかな曲線で近似して確認する。 アプローチ * 時間外時間数とエンゲージメントの関係を散布図で可視化する。 * 職場別の傾向を把握するため、カテゴリカル変数である部の情報を用いて色分けする。 * 点の重なりが多いため、横軸・縦軸それぞれの量的変数に対して部別の分布を確認すべく、KDEによる可視化を行う。 * 全体を把握しながら職場別の傾向や特徴を探る。 グラフの作り方 * Pythonのseaborn.jointplotを使った可視化例...

比率順の帯グラフ

比率順の帯グラフ

比率順に並べた帯グラフを使って人事データを可視化した例です。注目する指標やデータ観点があった場合、その比率が高い組織と低い組織がどのように分布しているのか確認する上で役立ちます。 人事データ可視化の例 人事データ可視化の狙い * パイパフォーマーを多く排出している組織またはマネジャーを探す。 * 人事評価のバイアスを確認する。 人事データ可視化アプローチ 利用するグラフ * 帯グラフ(横型の100%積み上げ棒グラフ): データが持つカテゴリカル変数の属性に対し、データ全体またはグループ別の構成比を色分けされた帯状のグラフで可視化する。 アプローチ * 成績情報の中で、関心のある項目をまとめあげて新しいデータ項目として保存する。 * 所属別に新しいデータ項目に対する帯グラフを描き、分布の偏りを確認する。 * 帯グラフをソートし、パイパフォーマーを多く輩出している組織を探索する。 グラフの作り方 * Pythonのpandas.plot.barを使った可視化例。 import pandas as pd import matplotlib.py...

You’ve successfully subscribed to People Analytics Idea HUB
Welcome back! You’ve successfully signed in.
Great! You’ve successfully signed up.
Success! Your email is updated.
Your link has expired
Success! Check your email for magic link to sign-in.
Please enter at least 3 characters 0 results for your search