他分野のデータ分析手法から発想する

データ分析プロジェクトで分析テーマが決まった後は、分析アプローチを考えることになります。例えば、エンゲージメントと働き方の関連を探るプロジェクトでは、エンゲージメントのデータとしての取扱いを吟味しつつ、働き方のモデリングを行った上で回帰問題として取り扱うかもしれません。

このように、回帰問題などの定番の分析アプローチに落とし込める場合は、スムーズに検討を進めることができます。しかし、テーマを聞いたときに分析アプローチがすぐには思い浮かばない場合もあります。

そのようなときは、他分野のデータ分析手法を調べてみると解決できるかもしれません。

一例として配置の問題を取り上げてみましょう。

人事担当者から「異動による配置パターンを分析してほしい」と依頼があったとして、どのようにアプローチすればよいでしょうか。異動傾向を掴むために配置パターンを類型化したいというご要望と考えてください。

ふんわりとしたテーマですが、配置案作成の省力化やハイパフォーマーの経験分析など、様々な場面でサブタスクとしてよく出てくるテーマです。

言葉で「配置パターン」と書くと簡単そうに見えますが、実際に人事データを目の前にするとなかなか難しいです。配置の計量方法から考える必要がありますので。

配置のパターンは個体としての従業員が形成するものですが、配置そのものは組織に依存している場合が多く、アウトプットは所属の系統で示さなくてはなりません。つまり、人事担当者が期待するアウトプットは、次ような形になるはずです。

配置パターンA
営業本部営業部 → 営業本部マーケティング部 → 営業本部営業部
配置パターンB
開発本部第二開発部 → 開発本部品質保証部 → コンサルティング本部産業コンサル部
配置パターンC
コーポレート本部総務部 → 開発本部総務部 → コーポレート本部人事部

もし組織の配置パターンが類型化できれば、本部内での異動が多いのか、それとも組織横断型の異動があるのかといったことが見えてきます。さらには、そうしたパターンとパフォーマンスやエンゲージメントとの関連も分析できるかもしれませんし、配置担当者に有益な情報を提示することも可能でしょう。

しかし、このようなアウトプットを一発で出してくれるライブラリは今のところなさそうです。もし何らかの事例があったとしても、組織の異動業務というのは多種多様ですので、個別に計量していかなくてはなりません。

配置パターンを考えるにあたっては、初手として全従業員の異動履歴を集計して特徴を調べることが多いです。もっとも単純なやり方は異動履歴の情報を活用し、従業員の所属経験をカウントする方法です。以下に例をあげていますが、実際にはもっと巨大なテーブルになり、しかもほとんどのセルが0になるはずです。さて、この表からどうやってパターンを抽出したらよいでしょうか？

従業員	A部	B部	C部	…
Aさん	0	1	0	…
Bさん	0	0	2	…
Cさん	2	1	0	…
…	…	…	…	…

こちらのテーブルは一般的な横持ちデータに見えます。もし回帰問題としてとらえると、部別に回帰モデルをつくることになりますね。その場合、以下のような形でモデルを考察することになります。部が多くなると大変そうですし、その後パターンを類型化するにはどうしたらよいか分からなくなりそうです。

A部 = a11 × B部 + a12 × C部 …
B部 = a21 × A部 + a22 × C部 …

この問題に初めて取り組んだとき、手持ちのピープルアナリティクスの参考書には類似ケースが見当たりませんでしたので、一層悩むことになりました。そこで、他分野の分析アプローチを参考にすることにしたのです。

結論からいうと、ECサイトのレコメンドで利用されている行列分解という手法を用いることにしました。具体的には非負値行列因子分解という手法を用いて、パターンの抽出を試みたところ、そこそこ納得感のある情報を抽出することができました。

技術の詳細はいったん脇において、なぜそのアプローチを思いついたかというと、先ほどのテーブルがレコメンドの参考書に掲載されていたマトリックスに似ていることに気づいたからです。

ECサイトのレコメンドでは、ユーザーと販売アイテムの関係（購入数や評価値）を以下のような行列で整理してアルゴリズムを考えます。

ユーザー	アイテムA	アイテムB	アイテムC	…
Aさん	0	1	0	…
Bさん	0	0	2	…
Cさん	2	1	0	…
…	…	…	…	…

つまり、データの持ち方や分析手法の特性が合いそうだと思いついて、他分野のアプローチを拝借したというわけです。今回にように、その分野で定番とされる分析手法をそのまま使えない場合は、他分野の知見を持ってくると上手くいくことがあります。

なお、配置パターンの解析をする場合、行列分解だけでよいかというとそうではなく、やはり問題とデータによってアプローチを変える必要があります。例えば、データ量が極端に少ないケースでは、UMAPによる次元削減とクラスタリングで類型化したこともありました。このアプローチも他分野から拝借したものです。具体的にはテキスト分析のトピックモデリング（BERTopic）にヒントを得たものでした。

今回お伝えしたポイントは、「他分野の分析手法を積極的に活用しよう」というものでした。

人事データ分析をするとき、ピープルアナリティクスの参考書に掲載されている手法に限定して探していると上手くいかない場合もあります。そのようなときは、マーケティングや製造分野など、他分野でよく使われるアプローチを参考にすることで乗り越えられることもあります。人事から少々離れますが、私が昔取り組んだSNSデータ解析では、疫学の疾病地図にヒントを得てアプローチを考えたこともありました。

また、後半に出てきたトピックモデリングのように、データの種類が異なる技術領域もねらい目です。人事データ分析の対象は量的変数とカテゴリカル変数から構成されたテーブルであることが多いですが、場合によりテキストデータ分析の手法も活用できます。

このように発想を広げるため、様々な分野の参考書や事例に触れる機会を持つとよいでしょう。