「一般政策 (逐次決定過程における)」の版間の差分

2007年7月20日 (金) 07:16時点における版

【いっぱんせいさく (general policy)】

有限 $N\,$ 段逐次決定過程において, 過去の状態の履歴に依存して定まる政策. すなわち, 時刻 $n\,$ での決定を, 状態空間 $X\,$ からなる $n\,$ 個の直積 $X^{n}:=X\times X\times \cdots \times X\,$ から決定空間 $U\,$ への関数 $\sigma _{n}:X^{n}\to U\,$ で定めるとき, これらの決定関数の列 $\sigma =\{\sigma _{1},\sigma _{2},\ldots ,\sigma _{N}\}\,$ を一般政策という. 非加法型最適化問題では一般政策クラスで最適化が行われ, 不変埋没原理によって, このクラスの最適政策が得られる.

「一般政策 (逐次決定過程における)」の版間の差分

2007年7月20日 (金) 07:16時点における版

案内メニュー

検索

2007年7月11日 (水) 12:24時点における版 (ソースを閲覧) 131.112.125.105 (トーク) ← 古い編集	2007年7月20日 (金) 07:16時点における版 (ソースを閲覧) Orsjwiki (トーク \| 投稿記録) 細 ("一般政策 (逐次決定過程における)" を保護しました。 [edit=sysop:move=sysop]) 新しい編集 →
(相違点なし)