データ分析Tips

データ分析Tips

データ分析の問題設定や分析方法など、データアナリスト向けの情報をまとめています。

43 posts
クロス集計

クロス集計

クロス集計とは? 2つ以上のカテゴリカル変数を組み合わせて集計した結果を表にまとめることをクロス集計といいます。例えば、所属・年代別の在籍人数を整理したり、組織サーベイで選択式の質問項目の回答結果を整理したりする場合に利用します。 このようにしてできあがった表のことをクロス集計表または分割表といいます。 分割表というと、基本的にはカテゴリカル変数の組み合わせが出現する頻度や割合を集計し、表としてまとめたものを指します。 一方、クロス集計表は頻度集計の他に、カテゴリカル変数の組み合わせ条件の下で別の量的変数の統計量を整理したピボットテーブルを指すこともあります。 どのような場面で利用するの? クロス集計は次のような場面で利用します。 * カテゴリカル変数の組み合わせでデータ件数を数え上げたいとき。 * カテゴリカル変数の組み合わせたグループの大きさや割合を比較したいとき。 * 2つのカテゴリカル変数の統計的な関係を考察したいとき。 * カテゴリカル変数でグループ化したデータの特徴量を作る時。 Pythonでクロス集計表を作る Pythonでグループ集...

グループ集計

グループ集計

グループ集計とは? データを何らかのグループに分割し、グループ別に集計をして値を求めることをグループ集計といいます。例えば、従業員の時間外時間数のデータがあったとき、組織別の平均を出して比較するような場面でグループ集計を使います。 具体的には、グループ集計を使って以下のような値を求めます。 * データ件数: データの数(カウント・数え上げ) * 平均値: すべてのデータを足してデータ件数で割った値(算術平均) * 中央値: データを小さい順に並べたときにちょうど中央にくる値 * 最頻値: もっとも多く出現する値 * 最大値: データの中で最も大きな値 * 最小値: データの中で最も小さな値 * 分散: 平均値と各データの差を2乗した値を使ってデータのばらつきを表した値 * 標準偏差: 分散の平方根をとって元のデータの単位でばらつきを表した値 どのような場面で利用するの? グループ集計は以下のような場面で利用します。 * 量的変数の外観を把握するとき。 * 量的変数の外れ値を確認するとき。 * グループ別に量的変数の統計量を比較するとき。 * 回帰モ...

変数の外観を捉える #2(量的変数)

変数の外観を捉える #2(量的変数)

「人事データ分析入門講座」講師の武田です。 本日もよろしくお願いします。 今回は、「変数の外観を捉える #1」の続きで、量的変数の外観を捉える方法をお伝えしていきます。 量的変数の分析を始める前に 量的変数を用いた分析は日常的なものです。例えば、次のような疑問に答えるために日々データと向き合っていらっしゃるのではないでしょうか。 * どの部署が時間外が多いか。働き方の改善には何が必要か。 * エンゲージメントが極端に高い、もしくは低い職場はあるか。課題は何か。 * 部署の年齢構成はどうなっているのか。配置施策をどうするか。 これらの疑問に答えるためには、関心事に対応した量的変数を調べてみる必要があります。ここでいうと、時間外、エンゲージメント、年齢ですね。そして、これらのデータを使って分析を始める前に、データの全体像を押さえておくことが大切です。 例題として年齢について考えてみたいと思います。当サイトで公開している「HRトイデータ_人事情報_拡張版」から10件ほどランダムサンプリングして年齢を確認すると、以下のような値となりました。 37, 34, 24, 2...

散布図

散布図

散布図とは? 散布図は2つの量的変数の関係を分析するために使うグラフです。 散布図では、グラフの縦軸と横軸に量的変数をとり、一つ一つのデータを点で表します。点がどのように分布しているか、何か特徴的な傾向はないかなど確認していきます。 上にあげた散布図の例は、会社従業員の年齢と勤続年数の関係を表したグラフになります。年齢が高いほど勤続年数も高くなっていることがわかります。このように、2つの量的変数の大きさが連動しているような関係を相関関係と呼びます。 また、こちらの散布図を見ると、中央下部に全体から外れた点が存在していることもわかります。これも大切な情報で、「これらの外れたデータは何を意味するのだろう?」と考えてみると、様々な発見につながることがあります。 Pythonで散布図を描く この記事で掲載している散布図は、当サイトで提供している人事トイデータ(拡張版)を使用したものです。また、ツールとしてPythonのSeabornを用いて作図しました。具体的なPythonコードは以下のようになります。 まずは初期設定とデータの読み込みから。 # ライブラリの読み込みと初期設...

箱ひげ図・ストリッププロット

箱ひげ図・ストリッププロット

箱ひげ図とは? 箱ひげ図は量的変数のばらつきを視覚的に表すことができるグラフで、中央値を中心にデータがどのように分布しているか一目で確認することができます。 ひとつの量的変数に対して箱ひげ図を作ることもできますが、別の質的変数でグループを作ってグループ同士でばらつきを比較するときによく使います。中央値、四分位数といった統計量を用いて描写するため、データ量が多くても素早く描写することができます。 箱ひげ図の見方 箱ひげ図は、量的変数に対する統計量である四分位数を線と箱で描写したものです。 具体的には、データを小さい順に並べて四等分し、その境界にあるデータ点を統計量としてとらえて作図していきます。 * 最小値 * 25%点(第1四分位数) * 中央値(第2四分位数) * 75%点(第3四分位数) * 最大値 このうち、25%点から75%点に含まれるデータ範囲を四分位範囲といい、中央値を中心に全体の半分のデータが収まる範囲となります。箱ひげ図では四分位範囲を四角い箱で描写します。また、最小値から25%点、75%点から最大値までの間は線で表現され、「ひげ」と呼...

変数の外観を捉える #1 (変数の種類について)

変数の外観を捉える #1 (変数の種類について)

「人事データ分析入門講座」講師の武田です。 久しぶりの配信となりますが、本日もよろしくお願いします。 前回まで、「データがやってきたら、まず何をやるべきか?」というテーマでお伝えしてきました。そして、人事データ分析ではWho(誰)という視点でデータの外観を捉え、分析対象である人と組織に対する理解を深めておくことが重要だとお伝えしました。 Whoという視点でデータの外観を捉えることをお伝えしました。 具体的には、「データ」「システム」「従業員」それぞれでどんな人が含まれているのか把握することが大切で、いずれも分析対象である人への理解を深めることがポイントになります。 データがやってきたら、まず何をやるべきか?(後編) 本投稿より、データから外観を捉える方法についてお伝えしていきます。 さて、データから外観を捉える場合、データ項目の種類によってアプローチが変わってきます。人事データに含まれるデータ項目は、大きく分けて以下2つの種類にわけることができます。 * 質的変数: 大小関係を比較したり演算ができる変数(年齢、時間外勤務時間数など) * カテゴリカル変数: そのままで...

データがやってきたら、まず何をやるべきか(後編)

データがやってきたら、まず何をやるべきか(後編)

こんにちは。 「人事データ分析入門講座」講師の武田です。本日もよろしくお願いします。 この講座では、人事データ分析に取り組み始めた方に向けて、データ分析の考え方や方法をお伝えしています。本レターで7回目の配信となりました。 今回は昨年末に配信した「データがやってきたら、まず何をやるべきか」の続きになります。 前編では、データ分析を始める前にデータの発生源を押さえるため、What, Where, When, Howという観点で確認することをお伝えしました。本レターでは、Whoという視点でデータの外観を捉えることをお伝えしていきます。 手元に人事データがやってきたとき、「そのデータには誰が含まれているのか?」と問うことは大変重要です。 人事データ分析の主軸は人と組織です。 組織が人の集合体と考えると、データの外観を捉える上で「誰が」という切り口はもっとも大切な要素といえます。 3つの観点でWhoを考える 皆さんの手元に人事データやサーベイの結果があったとします。さて、このデータはどのような経路をたどってやってきたのでしょうか? 前編で取り上げたWhat, When...

人事データ分析に役立つ本の紹介 #1

人事データ分析に役立つ本の紹介 #1

★2025.8.13追記 ピープルアナリティクスを学ぶ人におすすめする本を改めてまとめ直しました。人事からデータ分析技術まで幅広い本を整理しています。こちらの記事もご覧くださいませ。 * ピープルアナリティクスを学ぶ人におすすめする本 あけましておめでとうございます。 「人事データ分析入門講座」講師の武田です。 この講座では、人事データ分析に取り組み始めた方に向けて、データ分析の考え方や方法をお伝えしています。本レターで6回目の配信となりました。 年初1回目の配信ということで、今回はいつもと嗜好を変え、人事データ分析に役立つ本をご紹介します。一度ではすべてをご紹介できませんので、月イチで本を紹介していければと考えております。 本日は初回ということで、人事データ分析のスキルアップに直結する入門書を2冊ご紹介します。 人事のためのデータサイエンス,入江崇介著 Amazon.co.jp: 人事のためのデータサイエンス 電子書籍: 入江崇介: Kindleストア 人事データ分析といえばこの本!というくらい有名な本です。2018年出版の本で、人事データ分析を始め...

データがやってきたら、まず何をやるべきか(前編)

データがやってきたら、まず何をやるべきか(前編)

こんにちは。「人事データ分析入門講座」講師の武田です。本日もよろしくお願いします。 このニュースレターでは、人事データ分析に取り組み始めた方に向けて、データ分析の考え方や方法をお伝えしています。本レターで5回目の配信となりました。年末ということで年内では最後の配信になりますね。 前回は、人事データ分析を進めていくためのヒントとして、分析テーマから必要なデータを考える方法と、分析を深掘りするための切り口についてお伝えしました。また、人事データ分析でよく利用するデータ項目をマインドマップにしてご提供しました。 マインドマップをご覧いただくと、ひと口に人事データといっても多種多様なデータ項目があることが分かるかと思います。分析テーマとこれらのデータ項目を結びつけることが、基本的なアプローチになります。 ところで、目の前に人事データがあって、その中から目的のデータ項目が見つかれば、すぐに分析を開始することができるのでしょうか? 本レターでは、データが手元にやってきたときに分析者がやるべきことをお伝えしていきます。...

You’ve successfully subscribed to People Analytics Idea HUB
Welcome back! You’ve successfully signed in.
Great! You’ve successfully signed up.
Success! Your email is updated.
Your link has expired
Success! Check your email for magic link to sign-in.
Please enter at least 3 characters 0 results for your search