武田 邦敬

武田 邦敬

データドリブンHRコンサルタント。ピープルアナリティクス内製化パートナーとして、データ活用を経営と人事の「文化」にする伴走者。

119 posts
データ分析をする前に、分析結果が得られた後のことを書き出す

データ分析をする前に、分析結果が得られた後のことを書き出す

はじめてデータ分析に取り組むときには「どうやって分析したらよいのだろう?」と悩むものです。しかし、それ以前にデータ分析の目的を整理することが大切で、分析アプローチの検討よりも難しいこともあります。 例えば、ハイパフォーマーの要因分析というテーマを考えたとき、どのように集計してモデル化するかと考えるよりも、なぜハイパフォーマーの分析をする必要があるのだろうかと考えることが大切になります。もし目的が曖昧なままで分析を進めてしまったら、分析プロセスが迷走するだけでなく、最終的なレポートは何にも活用されないかもしれません。私もそういった経験を何度もしています。 目的が大切というのは当たり前の話に感じられると思いますが、意識していてもストレートに解決できない場合もあります。データアナリストやデータサイエンティストの方でしたら、この問題に直面したことがあるのではないでしょうか。特に、ピープルアナリティクスのような新しい分野ではWhyよりもHowが先行してしまう場合もあるでしょう。コストセンターのKPI作りの難しさも背景にあります。 データ分析プロジェクトの立ち上げ時点で目的が曖昧なとき、デー...

相関分析

相関分析

相関分析とは? 相関分析は2つの量的変数の統計的な関連性を把握する分析です。具体的には、片方の量的変数の大小ともう片方の量的変数の大小が関係しているかどうかを確かめます。こうした関係がある場合、2つの変数には相関関係があるといいます。 世の中一般にみられる相関関係の例をあげてみます。 * 身長が高いと体重も重たくなる傾向にある。 * 気温が高くなると冷たい飲料の販売額が伸びる。 * 新卒入社の従業員の場合、勤続年数が大きいと年齢も高くなる。 これらは片方の変数が大きいと、もう片方の変数も大きくなるような例となっています。このような関係を「正の相関がある」といいます。 一方、上の例とは逆に、片方の量的変数が大きくなるともう片方が小さくなる事象もあります。これを「負の相関がある」といいます。具体的な例は以下のとおりです。 * 気温が下がると入浴剤の売上が伸びる。 * エンゲージメントが低下すると離職率が高くなる。 どのような場面で利用するの? 相関関係は予測や観察の土台になるものです。しかし、相関関係は手元にあるデータの値の連動性を記述したものにすぎません。...

変数の外観を捉える #3 (カテゴリカル変数)

変数の外観を捉える #3 (カテゴリカル変数)

「人事データ分析入門講座」講師の武田です。 本日もよろしくお願いします。 今回は、前回の続きで、カテゴリカル変数の外観を捉える方法をお伝えしていきます。 カテゴリカル変数の分析を始める前に 量的変数は定量的な比較ができますが、カテゴリカル変数は直接的には量的な分析を行うことはできません。そのため、量的変数に何らかのまとまり(グループ)を与えるものとして利用している方も多いのではないでしょうか。例えば、所属別に時間外時間数を比較したり、男女別にエンゲージメントを集計したり。 人事データ分析では人や組織の観点が重要で、それらが持つ属性情報が分析の切り口になります。そして、人や組織の属性情報の多くがカテゴリカル変数で表現されています。そのため、カテゴリカル変数は分析の切り口として大きな意味を持ちます。 それでは、人事データ分析を始める前にカテゴリカル変数の外観を捉えるとは、どのような作業を指すのでしょうか? 第一にやるべきことは、カテゴリカル変数に含まれる要素(カテゴリー)の種類を確かめることです。例えば、性別や所属、グレード(あるいは等級)というデータ項目があった場合、そのデ...

クロス集計

クロス集計

クロス集計とは? 2つ以上のカテゴリカル変数を組み合わせて集計した結果を表にまとめることをクロス集計といいます。例えば、所属・年代別の在籍人数を整理したり、組織サーベイで選択式の質問項目の回答結果を整理したりする場合に利用します。 このようにしてできあがった表のことをクロス集計表または分割表といいます。 分割表というと、基本的にはカテゴリカル変数の組み合わせが出現する頻度や割合を集計し、表としてまとめたものを指します。 一方、クロス集計表は頻度集計の他に、カテゴリカル変数の組み合わせ条件の下で別の量的変数の統計量を整理したピボットテーブルを指すこともあります。 どのような場面で利用するの? クロス集計は次のような場面で利用します。 * カテゴリカル変数の組み合わせでデータ件数を数え上げたいとき。 * カテゴリカル変数の組み合わせたグループの大きさや割合を比較したいとき。 * 2つのカテゴリカル変数の統計的な関係を考察したいとき。 * カテゴリカル変数でグループ化したデータの特徴量を作る時。 Pythonでクロス集計表を作る Pythonでグループ集...

グループ集計

グループ集計

グループ集計とは? データを何らかのグループに分割し、グループ別に集計をして値を求めることをグループ集計といいます。例えば、従業員の時間外時間数のデータがあったとき、組織別の平均を出して比較するような場面でグループ集計を使います。 具体的には、グループ集計を使って以下のような値を求めます。 * データ件数: データの数(カウント・数え上げ) * 平均値: すべてのデータを足してデータ件数で割った値(算術平均) * 中央値: データを小さい順に並べたときにちょうど中央にくる値 * 最頻値: もっとも多く出現する値 * 最大値: データの中で最も大きな値 * 最小値: データの中で最も小さな値 * 分散: 平均値と各データの差を2乗した値を使ってデータのばらつきを表した値 * 標準偏差: 分散の平方根をとって元のデータの単位でばらつきを表した値 どのような場面で利用するの? グループ集計は以下のような場面で利用します。 * 量的変数の外観を把握するとき。 * 量的変数の外れ値を確認するとき。 * グループ別に量的変数の統計量を比較するとき。 * 回帰モ...

変数の外観を捉える #2(量的変数)

変数の外観を捉える #2(量的変数)

「人事データ分析入門講座」講師の武田です。 本日もよろしくお願いします。 今回は、「変数の外観を捉える #1」の続きで、量的変数の外観を捉える方法をお伝えしていきます。 量的変数の分析を始める前に 量的変数を用いた分析は日常的なものです。例えば、次のような疑問に答えるために日々データと向き合っていらっしゃるのではないでしょうか。 * どの部署が時間外が多いか。働き方の改善には何が必要か。 * エンゲージメントが極端に高い、もしくは低い職場はあるか。課題は何か。 * 部署の年齢構成はどうなっているのか。配置施策をどうするか。 これらの疑問に答えるためには、関心事に対応した量的変数を調べてみる必要があります。ここでいうと、時間外、エンゲージメント、年齢ですね。そして、これらのデータを使って分析を始める前に、データの全体像を押さえておくことが大切です。 例題として年齢について考えてみたいと思います。当サイトで公開している「HRトイデータ_人事情報_拡張版」から10件ほどランダムサンプリングして年齢を確認すると、以下のような値となりました。 37, 34, 24, 2...

You’ve successfully subscribed to People Analytics Idea HUB
Welcome back! You’ve successfully signed in.
Great! You’ve successfully signed up.
Success! Your email is updated.
Your link has expired
Success! Check your email for magic link to sign-in.
Please enter at least 3 characters 0 results for your search