一般政策 (逐次決定過程における)

提供: ORWiki
2007年7月20日 (金) 07:16時点におけるOrsjwiki (トーク | 投稿記録)による版 ("一般政策 (逐次決定過程における)" を保護しました。 [edit=sysop:move=sysop])
ナビゲーションに移動 検索に移動

【いっぱんせいさく (general policy)】

有限 段逐次決定過程において, 過去の状態の履歴に依存して定まる政策. すなわち, 時刻 での決定を, 状態空間 からなる 個の直積 から決定空間 への関数 で定めるとき, これらの決定関数の列 を一般政策という. 非加法型最適化問題では一般政策クラスで最適化が行われ, 不変埋没原理によって, このクラスの最適政策が得られる.