一般政策 (逐次決定過程における)
2007年7月9日 (月) 16:16時点における122.17.2.240 (トーク)による版 (新しいページ: ''''【いっぱんせいさく (general policy)】''' 有限 $ N $ 段逐次決定過程において, 過去の状態の履歴に依存して定まる政策. すなわち, 時...')
【いっぱんせいさく (general policy)】
有限 $ N $ 段逐次決定過程において, 過去の状態の履歴に依存して定まる政策. すなわち, 時刻 $ n $ での決定を, 状態空間 $ X $ からなる$ n$ 個の直積 $ X^{n} := X \times X \times \cdots \times X $ から決定空間 $ U $ への関数 $ \sigma_{n} : X^{n} \to U $ で定めるとき, これらの決定関数の列 $ \sigma = \{\sigma_{1}, \sigma_{2}, \ldots , \sigma_{N} \} $ を一般政策という. 非加法型最適化問題では一般政策クラスで最適化が行われ, 不変埋没原理によって, このクラスの最適政策が得られる.