マルコフ政策

提供: ORWiki
2007年7月13日 (金) 12:11時点における122.17.2.240 (トーク)による版 (新しいページ: '【まるこふせいさく (Markov policy)】 有限 $ N $ 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 $ n $ ...')
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

【まるこふせいさく (Markov policy)】

有限 $ N $ 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 $ n $ での状態のみに依存する決定は, 状態空間 $ X $ から決定空間 $ U $ への関数 $ \pi_{n} : X \to U $ で表わされる. 決定関数の列 $ \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} $ をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.