データによる予測手法の選択戦術

こんにちは。データ経営コンサルタントの武田邦敬です。

私がデータサイエンティストに転身した2011年ごろは、「予測は難しいから、できないものと思って挑戦するように」といわれたものです。ところが、今やビジネスデータを使って予測に取り組むことは日常的な風景になりつつあります。

周囲にあふれるビジネス向けのデータ分析本や機械学習本を見ると、まずは教師あり学習、つまり予測の方法が取り上げられています。また、データ分析系のコンペサイトであるKaggleでは日々予測問題が出題され、世界中の分析者が腕試しをしています。隔世の感がありますね。

一方、データアナリストが業務で予測問題に取り組むとき、考えるべきことはたくさんあります。ビジネス課題を予測問題に落とし込むことからはじまり、その後は評価指標の設計、特徴量設計、予測手法の選択など多岐にわたります。そして、データアナリストは予測モデリングに責任を負い、ビジネスニーズを満たすモデルを作ろうと頑張ることになります。

Kaggleも含めて予測モデリングに対するナレッジは蓄積され続けていますし、参考書やWeb記事も大量にあります。そのため、まったくゼロから挑む必要はなく、世の中や組織のナレッジを活用することができます。例えば、テキストデータを分類する文書分類タスクに取り組む場合、少しググればたくさん情報がでてきますよね。これは十年前には考えられなかったことです。

その一方で、データ分析に取り組み始めた方にとっては「情報が多すぎて何から試せばよいかわからない！」と混乱することもあるのではないでしょうか。また、普段SaaS系サービスのAutoMLを使って予測をしているものの、上手くいかないので自分で組もうとして途方に暮れたという方もいらっしゃることでしょう。どちらも過去の私の姿であり、また、分析チームにいた初学者の姿でもあります。

このレターでは、データアナリスト初学者の方に向けて、予測問題に対応するための技術的な戦術をお伝えしていきます。ぜひコメントをお願いします！

〈目次〉