SaaSの既存ユーザーの利用傾向が負の二項分布になるとはどういうことか
まず、個々のユーザーに注目します。
もし、あるユーザーのSaaS利用頻度が常に一定だと仮定できるなら(例えば、Aさんは平均して月に5回利用する、というように)、そのユーザーが特定の月に何回SaaSを利用するかはポアソン分布で近似できると考えられます。ポアソン分布は、一定期間に平均的に起こる回数が決まっている事象が、実際に何回起こるかの確率を表します。
しかし、実際にはユーザーごとにSaaSの利用頻度は異なります。
あるユーザーは非常にアクティブで頻繁に利用するかもしれませんし(例えば平均月10回利用)、別のユーザーはたまにしか利用しないかもしれません(例えば平均月1回利用)。このように、ユーザーごとの「平均的な利用頻度(ポアソン分布でいうところの平均値 λ )」自体が、ある種のばらつきを持っていると考えられます。この「平均的な利用頻度のばらつき」を表す分布としてガンマ分布を考えることができます。つまり、非常にアクティブなユーザーからそうでないユーザーまで、様々な利用頻度のユーザーが特定の割合で存在している状況です。
そして、これらを組み合わせると負の二項分布が見えてきます。
SaaS全体で見たときに、ある一定期間(例えば1ヶ月間)にユーザーがSaaSを利用する回数の分布は、個々のユーザーの利用頻度(ポアソン分布)が、ユーザー間の「アクティブさの度合い」(ガンマ分布)によってばらついている状況を反映したものになります。具体的には、ポアソン分布の λ は定数ではなく、ガンマ分布から生成される確率変数であると考えます(混合分布)。これが負の二項分布です。
簡潔にまとめると:
個々のユーザーの利用回数:もしそのユーザーの利用頻度が固定的であれば、ポアソン分布で表せます。
ユーザー間の利用頻度のばらつき:ユーザーごとに平均的な利用頻度は異なります。この「平均的な利用頻度」の分布がガンマ分布に従うと考えます。
全体の利用回数の分布(負の二項分布):上記のように、利用頻度がユーザーごとにガンマ分布に従って異なるような状況で、全ユーザーをひっくるめて利用回数の分布を見ると、それが負の二項分布になる、ということです。
つまり、負の二項分布を使うことで、ユーザーごとの利用頻度の違い(異質性)を考慮した上で、SaaSの利用回数を確率モデル化できる、と言えます。例えば、一部のヘビーユーザーと多くのライトユーザーが存在するような状況をうまく表現できる可能性があります。
エビデンスベースドプロダクトマネジメント