「マルコフ政策」の版間の差分

2007年7月14日 (土) 16:37時点における版

【まるこふせいさく (Markov policy)】

有限 $N\,$ 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 $n\,$ での状態のみに依存する決定は, 状態空間 $X\,$ から決定空間 $U\,$ への関数 $\pi _{n}:X\to U\,$ で表わされる. 決定関数の列 $\pi =\{\pi _{1},\pi _{2},\ldots ,\pi _{N}\}\,$ をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.

2007年7月13日 (金) 12:11時点における版 (ソースを閲覧) 122.17.2.240 (トーク) (新しいページ: '【まるこふせいさく (Markov policy)】有限 $ N $ 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 $ n $ ...')		2007年7月14日 (土) 16:37時点における版 (ソースを閲覧) 222.225.128.87 (トーク) 新しい編集 →
1行目:		1行目:
	【まるこふせいさく (Markov policy)】		【まるこふせいさく (Markov policy)】

−	有限 $ N $ 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 $ n $ での状態のみに依存する決定は, 状態空間 $ X $ から決定空間 $ U $ への関数 $ \pi_{n} : X \to U $ で表わされる. 決定関数の列 $ \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} $ をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.	+	有限 <math> N \,</math> 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 <math> n \,</math> での状態のみに依存する決定は, 状態空間 <math> X \,</math> から決定空間 <math> U \,</math> への関数 <math> \pi_{n} : X \to U \,</math> で表わされる. 決定関数の列 <math> \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} \,</math> をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.

「マルコフ政策」の版間の差分

2007年7月14日 (土) 16:37時点における版

案内メニュー

検索