状態のベクトル化
その場合の遷移確率はベクトルからベクトルの確率分布への関数となる
大変
k-means的にいくつかの代表点で表現する
合成方法に関するメモ
上書き
$ v \leftarrow v_{new}
変換
$ v \leftarrow A v_{now}
合成
$ v \leftarrow v_{new} + A v_{now}
A=0の時、上書き
vnew=0の時、変換
行列や状態ベクトルを学習で獲得してほしい
変な反応をしたときに「変」ボタンを押す
2番目に近い代表点へ移動する
負例の学習データにする
(2019年付記)
これは状態がベクトル空間に埋め込まれた後も、代表点は保持しておくという思想
代表点は「最初の段階で人間が『こういう状態があるよね』と言語化できたものの集合」に過ぎない
ポジティブな反応
直接的な行動だけが正例か?
なるべく早くその行動を引き出す