【いっぱんせいさく (general policy)】
有限 N {\displaystyle N\,} 段逐次決定過程において, 過去の状態の履歴に依存して定まる政策. すなわち, 時刻 n {\displaystyle n\,} での決定を, 状態空間 X {\displaystyle X\,} からなる n {\displaystyle n\,} 個の直積 X n := X × X × ⋯ × X {\displaystyle X^{n}:=X\times X\times \cdots \times X\,} から決定空間 U {\displaystyle U\,} への関数 σ n : X n → U {\displaystyle \sigma _{n}:X^{n}\to U\,} で定めるとき, これらの決定関数の列 σ = { σ 1 , σ 2 , … , σ N } {\displaystyle \sigma =\{\sigma _{1},\sigma _{2},\ldots ,\sigma _{N}\}\,} を一般政策という. 非加法型最適化問題では一般政策クラスで最適化が行われ, 不変埋没原理によって, このクラスの最適政策が得られる.