モンテカルロ法
乱数
を用いた
シミュレーション
で近似的に解を得る手法.
ビュフォンの針
ボードゲーム
において
従来行っていた
スコア
評価を
ゲーム
終盤で放棄し,
ランダム
に手を差してとにかく終局させてしまう.
これを
プレイアウト
と呼ぶ.
プレイアウト
を複数回行うことで次の1手からの勝率を見積もることができ,
スコア
の評価に利用できる.
人間
が
スコア
づけを行うより結果が良いということがわかってきている.
機械学習
において
Q値
を行動のたびに更新するのではなく,
報酬
が得られたタイミングでまとめて更新する手法.