変数の外観を捉える #2（量的変数）

「人事データ分析入門講座」講師の武田です。
本日もよろしくお願いします。

今回は、「変数の外観を捉える #1」の続きで、量的変数の外観を捉える方法をお伝えしていきます。

量的変数の分析を始める前に

量的変数を用いた分析は日常的なものです。例えば、次のような疑問に答えるために日々データと向き合っていらっしゃるのではないでしょうか。

これらの疑問に答えるためには、関心事に対応した量的変数を調べてみる必要があります。ここでいうと、時間外、エンゲージメント、年齢ですね。そして、これらのデータを使って分析を始める前に、データの全体像を押さえておくことが大切です。

例題として年齢について考えてみたいと思います。当サイトで公開している「HRトイデータ_人事情報_拡張版」から10件ほどランダムサンプリングして年齢を確認すると、以下のような値となりました。

37, 34, 24, 23, 39, 60, 47, 37, 28, 41

たまたまではありますが、23歳から60歳まで幅広い従業員が在籍していることがわかります。ここで、平均年齢を知りたいと思って全件の平均を取ってみると、40.28歳となりました。概ね40歳をピークとして、様々な年齢の従業員が存在していると予想できます。

さて、平均年齢が40歳ときいて、どのような印象をお持ちになりますか？

様々な予想ができますが、何となく40歳付近の従業員が多く、20代や60代の従業員は少なめと思う方が多いのではないでしょうか。その一方で、20歳から60歳くらいまでの従業員がまんべんなく存在していて、そのど真ん中が40歳だったのだろうと思う方もいらっしゃるかもしれません。

この2つの予想をヒストグラムで表現してみると以下のような形になります。左側のグラフは40歳をピークに山の形に分布していて、右側のグラフはどの年齢も似たような構成になっています。みなさんの予想はどちらのグラフに近いでしょうか？

これらのグラフは、Pythonで乱数を生成して作ったデータを作図したものです。データの平均値は左のグラフで40.27、右側のグラフで40.75となっていて、大きな差はありません。またデータ件数はどちらも5,000件です。しかし、グラフで見ると全く違う分布に見えますね。

このように、量的変数を分析する場合、単純に平均を見てみるだけでは分からないことも多く、結果として分析実務に支障をきたすこともあります。また、分析結果を受け取る人に誤解を与える恐れもあるでしょう。そのため、量的変数を分析する前に、その外観を把握する必要があるのです。