部分観測マルコフ決定過程
状態表現学習
### **2. 部分観測マルコフ決定過程 (POMDP)**
POMDPは、MDPをさらに複雑にしたモデルです。MDPではエージェントが環境の状態を完全に知ることができるのに対し、POMDPでは**エージェントは環境の状態を部分的にしか知ることができません**。
- **例:** 視覚障害のある人が部屋の中を移動する場合
- **エージェント:** 視覚障害のある人
- **環境:** 部屋
- **状態:** 人の位置、障害物の場所など
- **観測:** 白杖で触れた感触、音など
- **行動:** 移動、立ち止まるなど
視覚障害のある人は、目が見えないため部屋の状態を完全に知ることができません。しかし、白杖で触れた感触や音などを頼りに、障害物を避けながら目的地を目指します。
### **POMDPのポイント**
- **部分観測:** エージェントは環境の状態を部分的にしか知ることができない
- **信念状態:** エージェントは、観測に基づいて「現在の状態はこうなっているはずだ」という**信念**を持つ
POMDPでは、エージェントは観測に基づいて信念状態を更新し、その信念状態に基づいて最適な行動を選択します。