「マルコフ政策」の版間の差分
ナビゲーションに移動
検索に移動
Albeit-Kun (トーク | 投稿記録) |
|||
(2人の利用者による、間の2版が非表示) | |||
1行目: | 1行目: | ||
− | 【まるこふせいさく (Markov policy)】 | + | '''【まるこふせいさく (Markov policy)】''' |
− | 有限 <math> N \,</math> 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 <math> n | + | 有限 <math> N \,</math> 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 <math> n ,</math> での状態のみに依存する決定は, 状態空間 <math> X \,</math> から決定空間 <math> U \,</math> への関数 <math> \pi_{n} : X \to U \,</math> で表わされる. 決定関数の列 <math> \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} \,</math> をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる. |
+ | |||
+ | [[Category:動的・確率・多目的計画|まるこふせいさく]] |
2008年11月13日 (木) 22:15時点における最新版
【まるこふせいさく (Markov policy)】
有限 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 での状態のみに依存する決定は, 状態空間 から決定空間 への関数 で表わされる. 決定関数の列 をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.