「マルコフ政策」の版間の差分

2008年11月13日 (木) 22:15時点における最新版

【まるこふせいさく (Markov policy)】

有限 $N\,$ 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 $n,$ での状態のみに依存する決定は, 状態空間 $X\,$ から決定空間 $U\,$ への関数 $\pi _{n}:X\to U\,$ で表わされる. 決定関数の列 $\pi =\{\pi _{1},\pi _{2},\ldots ,\pi _{N}\}\,$ をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.

2007年7月20日 (金) 10:59時点における版 (ソースを閲覧) Orsjwiki (トーク \| 投稿記録) 細 ("マルコフ政策" を保護しました。 [edit=sysop:move=sysop]) ← 古い編集		2008年11月13日 (木) 22:15時点における最新版 (ソースを閲覧) Albeit-Kun (トーク \| 投稿記録)
2行目:		2行目:

	有限 <math> N \,</math> 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 <math> n ,</math> での状態のみに依存する決定は, 状態空間 <math> X \,</math> から決定空間 <math> U \,</math> への関数 <math> \pi_{n} : X \to U \,</math> で表わされる. 決定関数の列 <math> \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} \,</math> をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.		有限 <math> N \,</math> 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 <math> n ,</math> での状態のみに依存する決定は, 状態空間 <math> X \,</math> から決定空間 <math> U \,</math> への関数 <math> \pi_{n} : X \to U \,</math> で表わされる. 決定関数の列 <math> \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} \,</math> をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.
		+
		+	[[Category:動的・確率・多目的計画\|まるこふせいさく]]

「マルコフ政策」の版間の差分

2008年11月13日 (木) 22:15時点における最新版

案内メニュー

検索