武田邦敬

113 posts

線形手法と非線形手法の両方を試す

データ分析プロジェクトでは、何らかの分析手法を利用することになります。予測モデルを作るなら教師あり学習手法を用いてモデル化していくでしょうし、じっくり探索するような場面ではグラフや統計モデルを使いながらあれこれ試行錯誤するかもしれません。分析の目的、つまり問題設定によってデータ分析アプローチは大きく変わります。その一方で、同じような問題であったとしても、利用できるデータ分析手法はたくさんあります。もし、コストと時間を無限に使えるのでしたら、世界中にある分析手法をすべて試して最も問題に適したアプローチを採用すればよいでしょう。しかし、現実にはそれは難しいことですし、分析チームが古今東西のすべての手法に精通するというのも現実的ではないと思います。そこで、すべての分析手法を試す時間がないときに「線形手法と非線形手法の両方を試してみる」という戦術をよく使います。これは、回帰のような予測タスクであっても、教師あり学習手法を用いた探索であっても同様です。特に分析の初期フェーズでは問題の難しさを見るうえで便利です。分類問題の例例えば、離職予測モデルを作るような場面を想像してみま...

by 武田邦敬

ピープルアナリティクスデータ分析Tips

作業の省力化のために予測モデルを使う

データ活用プロジェクトで予測モデルを作る場面はよくありますね。AIや機械学習技術が浸透してきた今日、データから予測モデルを作ることは特別なものではなくなってきました。ところで、どのような場面で予測モデルを利用されていますか？予測という言葉を文字通り捉えると、何となく将来的なものを予測するように感じる方もいらっしゃるかもしれません。参考書によっては、予測モデルを用いたアプローチについて「何が起こりそうか？」という問いと紐づけて説明しているものもあります。この表現は大変わかりやすいのですが、もう少し幅を広げて考えることもできます。データサイエンスにおける「予測」とは？データサイエンスにおいて「予測」を考えるとき、それは必ずしも将来の予測だけを意味するわけではありません。例えば、以下のようなタスクも予測タスクといいます。 * Webに投稿された記事のジャンルを推定してタグ付けする。 * ユーザーが次に何を買いたいか予測してレコメンドする。 * 従業員の労務記録からストレス状態を推定する。 * メールの文面からスパムかどうか判別して仕分ける。 * 画像に含まれる物...

by 武田邦敬

ピープルアナリティクスデータ分析Tips

他分野のデータ分析手法から発想する

データ分析プロジェクトで分析テーマが決まった後は、分析アプローチを考えることになります。例えば、エンゲージメントと働き方の関連を探るプロジェクトでは、エンゲージメントのデータとしての取扱いを吟味しつつ、働き方のモデリングを行った上で回帰問題として取り扱うかもしれません。このように、回帰問題などの定番の分析アプローチに落とし込める場合は、スムーズに検討を進めることができます。しかし、テーマを聞いたときに分析アプローチがすぐには思い浮かばない場合もあります。そのようなときは、他分野のデータ分析手法を調べてみると解決できるかもしれません。一例として配置の問題を取り上げてみましょう。人事担当者から「異動による配置パターンを分析してほしい」と依頼があったとして、どのようにアプローチすればよいでしょうか。異動傾向を掴むために配置パターンを類型化したいというご要望と考えてください。ふんわりとしたテーマですが、配置案作成の省力化やハイパフォーマーの経験分析など、様々な場面でサブタスクとしてよく出てくるテーマです。言葉で「配置パターン」と書くと簡単そうに見えますが、実際に...

by 武田邦敬

ピープルアナリティクスデータ分析Tips

データ分析をする前に、分析結果が得られた後のことを書き出す

はじめてデータ分析に取り組むときには「どうやって分析したらよいのだろう？」と悩むものです。しかし、それ以前にデータ分析の目的を整理することが大切で、分析アプローチの検討よりも難しいこともあります。例えば、ハイパフォーマーの要因分析というテーマを考えたとき、どのように集計してモデル化するかと考えるよりも、なぜハイパフォーマーの分析をする必要があるのだろうかと考えることが大切になります。もし目的が曖昧なままで分析を進めてしまったら、分析プロセスが迷走するだけでなく、最終的なレポートは何にも活用されないかもしれません。私もそういった経験を何度もしています。目的が大切というのは当たり前の話に感じられると思いますが、意識していてもストレートに解決できない場合もあります。データアナリストやデータサイエンティストの方でしたら、この問題に直面したことがあるのではないでしょうか。特に、ピープルアナリティクスのような新しい分野ではWhyよりもHowが先行してしまう場合もあるでしょう。コストセンターのKPI作りの難しさも背景にあります。データ分析プロジェクトの立ち上げ時点で目的が曖昧なとき、デー...

by 武田邦敬

ピープルアナリティクスデータ分析Tips Python

相関分析

相関分析とは？相関分析は2つの量的変数の統計的な関連性を把握する分析です。具体的には、片方の量的変数の大小ともう片方の量的変数の大小が関係しているかどうかを確かめます。こうした関係がある場合、2つの変数には相関関係があるといいます。世の中一般にみられる相関関係の例をあげてみます。 * 身長が高いと体重も重たくなる傾向にある。 * 気温が高くなると冷たい飲料の販売額が伸びる。 * 新卒入社の従業員の場合、勤続年数が大きいと年齢も高くなる。これらは片方の変数が大きいと、もう片方の変数も大きくなるような例となっています。このような関係を「正の相関がある」といいます。一方、上の例とは逆に、片方の量的変数が大きくなるともう片方が小さくなる事象もあります。これを「負の相関がある」といいます。具体的な例は以下のとおりです。 * 気温が下がると入浴剤の売上が伸びる。 * エンゲージメントが低下すると離職率が高くなる。どのような場面で利用するの？相関関係は予測や観察の土台になるものです。しかし、相関関係は手元にあるデータの値の連動性を記述したものにすぎません。...

by 武田邦敬

ピープルアナリティクスニュースレターデータ分析Tips

変数の外観を捉える #3 （カテゴリカル変数）

「人事データ分析入門講座」講師の武田です。本日もよろしくお願いします。今回は、前回の続きで、カテゴリカル変数の外観を捉える方法をお伝えしていきます。カテゴリカル変数の分析を始める前に量的変数は定量的な比較ができますが、カテゴリカル変数は直接的には量的な分析を行うことはできません。そのため、量的変数に何らかのまとまり（グループ）を与えるものとして利用している方も多いのではないでしょうか。例えば、所属別に時間外時間数を比較したり、男女別にエンゲージメントを集計したり。人事データ分析では人や組織の観点が重要で、それらが持つ属性情報が分析の切り口になります。そして、人や組織の属性情報の多くがカテゴリカル変数で表現されています。そのため、カテゴリカル変数は分析の切り口として大きな意味を持ちます。それでは、人事データ分析を始める前にカテゴリカル変数の外観を捉えるとは、どのような作業を指すのでしょうか？第一にやるべきことは、カテゴリカル変数に含まれる要素（カテゴリー）の種類を確かめることです。例えば、性別や所属、グレード(あるいは等級)というデータ項目があった場合、そのデ...

by 武田邦敬

ピープルアナリティクス Python データ分析Tips

クロス集計

クロス集計とは？ 2つ以上のカテゴリカル変数を組み合わせて集計した結果を表にまとめることをクロス集計といいます。例えば、所属・年代別の在籍人数を整理したり、組織サーベイで選択式の質問項目の回答結果を整理したりする場合に利用します。このようにしてできあがった表のことをクロス集計表または分割表といいます。分割表というと、基本的にはカテゴリカル変数の組み合わせが出現する頻度や割合を集計し、表としてまとめたものを指します。一方、クロス集計表は頻度集計の他に、カテゴリカル変数の組み合わせ条件の下で別の量的変数の統計量を整理したピボットテーブルを指すこともあります。どのような場面で利用するの？クロス集計は次のような場面で利用します。 * カテゴリカル変数の組み合わせでデータ件数を数え上げたいとき。 * カテゴリカル変数の組み合わせたグループの大きさや割合を比較したいとき。 * 2つのカテゴリカル変数の統計的な関係を考察したいとき。 * カテゴリカル変数でグループ化したデータの特徴量を作る時。 Pythonでクロス集計表を作る Pythonでグループ集...

by 武田邦敬

ピープルアナリティクス Python データ分析Tips

グループ集計

グループ集計とは？データを何らかのグループに分割し、グループ別に集計をして値を求めることをグループ集計といいます。例えば、従業員の時間外時間数のデータがあったとき、組織別の平均を出して比較するような場面でグループ集計を使います。具体的には、グループ集計を使って以下のような値を求めます。 * データ件数：データの数（カウント・数え上げ） * 平均値：すべてのデータを足してデータ件数で割った値（算術平均） * 中央値：データを小さい順に並べたときにちょうど中央にくる値 * 最頻値：もっとも多く出現する値 * 最大値：データの中で最も大きな値 * 最小値：データの中で最も小さな値 * 分散：平均値と各データの差を2乗した値を使ってデータのばらつきを表した値 * 標準偏差：分散の平方根をとって元のデータの単位でばらつきを表した値どのような場面で利用するの？グループ集計は以下のような場面で利用します。 * 量的変数の外観を把握するとき。 * 量的変数の外れ値を確認するとき。 * グループ別に量的変数の統計量を比較するとき。 * 回帰モ...

by 武田邦敬

Members ピープルアナリティクスニュースレター

変数の外観を捉える #2（量的変数）

「人事データ分析入門講座」講師の武田です。本日もよろしくお願いします。今回は、「変数の外観を捉える #1」の続きで、量的変数の外観を捉える方法をお伝えしていきます。量的変数の分析を始める前に量的変数を用いた分析は日常的なものです。例えば、次のような疑問に答えるために日々データと向き合っていらっしゃるのではないでしょうか。 * どの部署が時間外が多いか。働き方の改善には何が必要か。 * エンゲージメントが極端に高い、もしくは低い職場はあるか。課題は何か。 * 部署の年齢構成はどうなっているのか。配置施策をどうするか。これらの疑問に答えるためには、関心事に対応した量的変数を調べてみる必要があります。ここでいうと、時間外、エンゲージメント、年齢ですね。そして、これらのデータを使って分析を始める前に、データの全体像を押さえておくことが大切です。例題として年齢について考えてみたいと思います。当サイトで公開している「HRトイデータ_人事情報_拡張版」から10件ほどランダムサンプリングして年齢を確認すると、以下のような値となりました。 37, 34, 24, 2...

by 武田邦敬

武田 邦敬