モンテカルロ法
乱数を用いたシミュレーションで近似的に解を得る手法.
ビュフォンの針
ボードゲームにおいて
従来行っていたスコア評価をゲーム終盤で放棄し,ランダムに手を差してとにかく終局させてしまう.
これをプレイアウトと呼ぶ.
プレイアウトを複数回行うことで次の1手からの勝率を見積もることができ,スコアの評価に利用できる.
人間がスコアづけを行うより結果が良いということがわかってきている.
機械学習において
Q値を行動のたびに更新するのではなく,報酬が得られたタイミングでまとめて更新する手法.