リッジラインプロットを使った人事データの可視化例です。一般的に量的変数のばらつきや分布を確認するためにヒストグラムやKDEプロットが使われますが、リッジラインプロットはそれらを重ねて可視化することで、経年や部署での傾向を掴むことができます。

人事データ可視化の例

リッジラインプロット

人事データ可視化の狙い

  • 全社の年齢構成を確認し、アノマリーやバイアスを見る。

人事データ可視化アプローチ

利用するグラフ

  • リッジラインプロット:多グループに分けられた量的変数に対して、グループ毎にカーネル密度推定を行って分布を可視化する。グループの数が多い場合でも全体を把握できるように、分布を重ねて表示させる。

アプローチ

  • 所属別の年齢分布をリッジラインプロットで描く。
  • 所属に在籍する従業員数が大きく異なるため、各分布図はそれぞれの所属の人数に対する比率で表示できるようにする。
  • グラフ全体を見ながら年齢の偏りや複数の年齢クラスターの存在、極端な年齢構成を取る所属がないか確認する。

グラフの作り方

  • Pythonのjoypyを使ったグラフ可視化例。
import pandas as pd
import japanize_matplotlib
import joypy

# データの読み込み
df_hr = pd.read_csv('./hr-toydata-basic-600.csv')

# グラフ
fig, ax = joypy.joyplot(
    df_hr.sort_values('所属コード').groupby('所属', sort=False), 
    by='所属', column='年齢', alpha=.8, ylim='own',
    overlap=1, linecolor='w', title='所属毎の年齢分布',
    figsize=(8,12), background='w')

この記事で使ったデータ

以下のページでデータを配布しています。

人事トイデータの公開
こちらのページでは、クニラボで作成した人事トイデータを公開しています。 トイデータとは? トイデータ(Toy Data)とは、演習用に使えるリアルでないデータのことをいいます。データ分析や機械学習のライブラリに附属する場合もあり、手元にデータがなくてもそのライブラリをすぐに試せるのが利点です。 人事データ分析の演習にご活用ください ピープルアナリティクスを学んでみたいが手元に良いデータがない、という方も多いのではないでしょうか。人事データは個人情報を含むため、ピープルアナリティクスプロジェクトの正式なメンバーでないと触ることができません。 そこで、演習用にデータを自作しGoogleドライブより公開しています。これまでも代表のnote記事の中でリンクを張っていたのですが、複数の記事で利用するためこのページを作りました。 * 2023/11/29追記 「HRトイデータ_人事情報_拡張版.csv 」を追加しました。 * 2024/3/23追記 「HRトイデータ_月別時間外.csv 」を追加しました。 * 2024/11/18追記 「HRトイデータ_エンゲージメントスコア