原始政策

提供: ORWiki
2007年7月12日 (木) 11:11時点における122.17.2.240 (トーク)による版 (新しいページ: '【げんしせいさく (primitive policy)】 有限 $ N $ 段逐次決定過程において, 過去の状態と決定の履歴に依存して定まる政策. すなわち, ...')
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

【げんしせいさく (primitive policy)】

有限 $ N $ 段逐次決定過程において, 過去の状態と決定の履歴に依存して定まる政策. すなわち, 時刻 $ n $ の決定を, 状態空間 $ X $ と決定空間 $ U $ からなる$ (2n - 1)$ 個の直積 $ H_{n} := X \times U \times X \times U \times \cdots X \times U \times X $ から決定空間 $ U $ への関数 $ \mu_{n} : H_{n} \to U $ で定めるとき, これらの決定関数の列 $ \mu = \{\mu_{1}, \mu_{2}, \ldots , \mu_{N} \} $ を原始政策という. 情報量は一般政策より要するが, 非加法型期待値最適化問題では原始政策は一般政策と同じ期待値を与える.