「マルコフ政策」の版間の差分

2007年7月16日 (月) 19:18時点における版

【まるこふせいさく (Markov policy)】

有限構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle N \,} 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle n ,} での状態のみに依存する決定は, 状態空間構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle X \,} から決定空間構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle U \,} への関数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \pi_{n} : X \to U \,} で表わされる. 決定関数の列 $\pi =\{\pi _{1},\pi _{2},\ldots ,\pi _{N}\}\,$ をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.

2007年7月14日 (土) 16:37時点における版 (ソースを閲覧) 222.225.128.87 (トーク) ← 古い編集		2007年7月16日 (月) 19:18時点における版 (ソースを閲覧) 122.17.2.240 (トーク) 新しい編集 →
1行目:		1行目:
−	【まるこふせいさく (Markov policy)】	+	'''【まるこふせいさく (Markov policy)】'''

−	有限 <math> N \,</math> 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 <math> n \,</math> での状態のみに依存する決定は, 状態空間 <math> X \,</math> から決定空間 <math> U \,</math> への関数 <math> \pi_{n} : X \to U \,</math> で表わされる. 決定関数の列 <math> \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} \,</math> をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.	+	有限 <math> N \,</math> 段逐次決定過程における一連の決定列を定める関数列を政策という. 現在の時刻 <math> n ,</math> での状態のみに依存する決定は, 状態空間 <math> X \,</math> から決定空間 <math> U \,</math> への関数 <math> \pi_{n} : X \to U \,</math> で表わされる. 決定関数の列 <math> \pi = \{\pi_{1}, \pi_{2}, \ldots , \pi_{N} \} \,</math> をマルコフ政策という. 加法型最適化問題ではマルコフ政策クラスで最適化が実現され, 動的計画法の再帰式を解く過程で最適点関数を列挙することによって, 最適政策が得られる.

「マルコフ政策」の版間の差分

2007年7月16日 (月) 19:18時点における版

案内メニュー

検索