強化学習と経営
その行動が良かったかどうかは、時間が経ってからわかる(遅延報酬) ある行動を選んだ時の将来の報酬の期待値を行動価値と呼ぶ 方策の色々
ランダムに行動を選ぶ
いまいちよくないことが知られている
悲観的な勘違いが修正されないから
イプシロングリーディ
一定確率でランダムに行動する
楽観的初期値法
USB1
状況に合わせて、限られた資源を何に配分するか意思決定するのが経営
強化学習的に表現すれば
意思決定関数は状況を入力として受け取り、配分を出力する
その配分が良かったかどうかは時間が経ってからわかる
お金だろうと思うかもしれない
赤字の企業は存続できないので、まず黒字化を求める
これは「お金」=「存続」
しかし黒字化した後はマチマチ
規模の拡大を目指す人も
企業の存続→老舗化
自分たちの作った製品をより多くの人に使ってほしい
上場しないと投資してくれたVCに利益を還元できない
自分が社長である間にトラブルが起こらないでほしい
何を報酬とみなすかが、組織の中でコンセンサス化したものが社風