InfoNCE
以下のような確率密度比を考える
https://gyazo.com/4b9cde6653fe19ad4c0ae2ca762ffbe7
$ p(x_{t+k})からのサンプリングと、コンテキストを所与としたときの$ p(x_{t+k}|c_t)のサンプリング
$ p(x)とかを直接最適化するのは大変なので、この確率密度比を最適化することを考える
確率密度比として、以下の対数線型モデルをおく
https://gyazo.com/5cb78d641a5bb0fef52d7c8b2ba35416
これらを用いて、最終的に得られるInfoNCE Lossは
https://gyazo.com/73f8fdf24726ad27281bacc3e503547d
ここでは、N個のサンプルの中に、positiveのサンプル $ x_{t+k}が一つと、それ以外のサンプルなN-1個存在している
そのサンプルが出現する確率を最大化するように、contextとzを学習する