確率の積分
Information-Geometric Optimizationを読んでいて、確率Pについて
$ \int f(x)P(x)dx という書き方と
$ \int f(x) P(dx)という書き方が混在していてどういうことか戸惑った。
Footnote 1をみて納得したので、理解の確認のためにも解説を書いておく
Throughout the text we do not distinguish a probability distribution 𝑃, seen as a measure, and its density with respect to some unspecified reference measure d𝑥, and so will write indifferently 𝑃(d𝑥) or 𝑃(𝑥)d𝑥. The measure-theoretic viewpoint allows for a unified treatment of the discrete and continuous case.
離散的な確率Pでは、例えば「サイコロの目が1になる確率は1/6」のように、点xに対してP(x)=1/6が対応している。
なのでこの場合のPはxの取りうる範囲をXとするなら$ X \to \mathbb{R}だ。
一方で連続的な確率、例えば正規分布N(m, 1)に従う確率変数Aの場合「Aが平均mに一致する確率」は0だ。
「Aがa以上b以下の範囲に入る確率」というように範囲(Xの部分集合)に対して値が定まる。
正規分布というと以下の式が有名だが
$ {\displaystyle {f(x) = \frac {1}{\sqrt {2\pi \sigma ^{2}}}}\;\exp \left(-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}\right)}
これは「確率密度関数」であって、この関数の値ではなく、ある範囲について積分したものが確率になる。
$ {\displaystyle \operatorname {P} (a\leq A \leq b)=\int _{a}^{b}f(x)\,dx}
つまりこの場合のPはXの部分集合から実数への関数$ 2^X \to \mathbb{R}だ。単に$ 2^X \to \mathbb{R}というだけではなく他にも色々と都合の良い性質があるので、それらをまとめて「測度(measure)」と呼ぶ。 see 測度論 - Wikipedia
この式ではaとbを明記している
$ {\displaystyle \operatorname {P} (a\leq A \leq b)=\int _{a}^{b}f(x)\,dx}
明記しなければこうなる
$ {\displaystyle \operatorname {P} (dx)=\int f(x)\,dx}
ある関数g(x)があって、それを確率分布Pの元での期待値を計算したい場合、
離散だったら
$ \sum_{x\in X} P(x)g(x)
連続だったら
$ \int f(x)g(x) dx
となるわけだが、IGOの論文での記法ではこれを両方とも特に区別せず
$ \int P(dx)g(x)
と書いたり
$ \int P(x)g(x)dx
と書いたりしますよ、ということ。