強化学習と経営 - 西尾泰和のScrapbox

強化学習と経営

強化学習の枠組み

方策という関数がある

方策は状態を入力として受け取る

方策は行動を出力する

その行動が良かったかどうかは、時間が経ってからわかる(遅延報酬)

ある行動を選んだ時の将来の報酬の期待値を行動価値と呼ぶ

方策の色々

ランダムに行動を選ぶ

行動価値が最大になるように選ぶ

グリーディ方策と呼ぶ

いまいちよくないことが知られている

悲観的な勘違いが修正されないから

イプシロングリーディ

一定確率でランダムに行動する

楽観的初期値法

USB1

経営の枠組み

状況に合わせて、限られた資源を何に配分するか意思決定するのが経営

強化学習的に表現すれば

意思決定関数は状況を入力として受け取り、配分を出力する

その配分が良かったかどうかは時間が経ってからわかる

報酬の定義は自明ではない

お金だろうと思うかもしれない

赤字の企業は存続できないので、まず黒字化を求める

これは「お金」＝「存続」

しかし黒字化した後はマチマチ

企業は社会の公器(松下幸之助)

CSR: 企業の社会的責任の考え方

企業の社会的責任（CSR）｜経済同友会

従業員満足度

顧客満足度

規模の拡大を目指す人も

企業の存続→老舗化

自分たちの作った製品をより多くの人に使ってほしい

上場しないと投資してくれたVCに利益を還元できない

自分が社長である間にトラブルが起こらないでほしい

何を報酬とみなすかが、組織の中でコンセンサス化したものが社風