状態のベクトル化

状態は離散の集合の要素(シンボル)だと考えられることが多い。

これをベクトル空間に拡張することを考える。

その場合の遷移確率はベクトルからベクトルの確率分布への関数となる

大変

k-means的にいくつかの代表点で表現する

合成方法に関するメモ

上書き

$ v \leftarrow v_{new}

変換

$ v \leftarrow A v_{now}

合成

$ v \leftarrow v_{new} + A v_{now}

A=0の時、上書き

vnew=0の時、変換

行列や状態ベクトルを学習で獲得してほしい

変な反応をしたときに「変」ボタンを押す

2番目に近い代表点へ移動する

負例の学習データにする

(2019年付記)

これは状態がベクトル空間に埋め込まれた後も、代表点は保持しておくという思想

代表点は「最初の段階で人間が『こういう状態があるよね』と言語化できたものの集合」に過ぎない

ベクトル化後にそれを離散化する場合、最初の代表点でボロノイ分割するのも手だが、新しい分布に対してk-meansしてもいいのでは

ポジティブな反応

直接的な行動だけが正例か？

なるべく早くその行動を引き出す