散布図とKDEプロットを組み合わせたジョイントプロットによる人事データの可視化例です。2つの量的変数による2次元空間上に、各データがどのように分布しているか確認するために利用します。

人事データ可視化の例

ジョインとプロット

人事データ可視化の狙い

  • 働き方とエンゲージメントの関係が職場によってどのように異なるのか考察したい。

人事データ可視化アプローチ

利用するグラフ

以下2つのグラフを組み合わせたジョイントプロット。

  • 散布図: 量的変数と量的変数の関係を可視化。
  • KDE(カーネル密度推定): 量的変数の分布を滑らかな曲線で近似して確認する。

アプローチ

  • 時間外時間数とエンゲージメントの関係を散布図で可視化する。
  • 職場別の傾向を把握するため、カテゴリカル変数である部の情報を用いて色分けする。
  • 点の重なりが多いため、横軸・縦軸それぞれの量的変数に対して部別の分布を確認すべく、KDEによる可視化を行う。
  • 全体を把握しながら職場別の傾向や特徴を探る。

グラフの作り方

  • Pythonのseaborn.jointplotを使った可視化例。
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import japanize_matplotlib
import seaborn as sns

sns.set_theme(style='ticks')
japanize_matplotlib.japanize()

# データの読み込み
df_hr = pd.read_csv('./hr-toydata-basic-600.csv')

# グラフ
sns.jointplot(data=df_hr, x='時間外時間数_月平均', y='エンゲージメント', hue='部', height=8, alpha=0.6, palette='tab10')

この記事で使ったデータ

以下のページでデータを配布しています。

人事トイデータの公開
こちらのページでは、クニラボで作成した人事トイデータを公開しています。 トイデータとは? トイデータ(Toy Data)とは、演習用に使えるリアルでないデータのことをいいます。データ分析や機械学習のライブラリに附属する場合もあり、手元にデータがなくてもそのライブラリをすぐに試せるのが利点です。 人事データ分析の演習にご活用ください ピープルアナリティクスを学んでみたいが手元に良いデータがない、という方も多いのではないでしょうか。人事データは個人情報を含むため、ピープルアナリティクスプロジェクトの正式なメンバーでないと触ることができません。 そこで、演習用にデータを自作しGoogleドライブより公開しています。これまでも代表のnote記事の中でリンクを張っていたのですが、複数の記事で利用するためこのページを作りました。 * 2023/11/29追記 「HRトイデータ_人事情報_拡張版.csv 」を追加しました。 * 2024/3/23追記 「HRトイデータ_月別時間外.csv 」を追加しました。 * 2024/11/18追記 「HRトイデータ_エンゲージメントスコア