「原始政策」の版間の差分
ナビゲーションに移動
検索に移動
(新しいページ: '【げんしせいさく (primitive policy)】 有限 $ N $ 段逐次決定過程において, 過去の状態と決定の履歴に依存して定まる政策. すなわち, ...') |
|||
1行目: | 1行目: | ||
【げんしせいさく (primitive policy)】 | 【げんしせいさく (primitive policy)】 | ||
− | 有限 | + | 有限 <math> N \,</math> 段逐次決定過程において, 過去の状態と決定の履歴に依存して定まる政策. すなわち, 時刻 <math> n \,</math> の決定を, 状態空間 <math> X \,</math> と決定空間 <math> U \,</math> からなる<math> (2n - 1) \,</math> 個の直積 <math> H_{n} := X \times U \times X \times U \times \cdots X \times U \times X \,</math> から決定空間 <math> U \,</math> への関数 <math> \mu_{n} : H_{n} \to U \,</math> で定めるとき, これらの決定関数の列 <math> \mu = \{\mu_{1}, \mu_{2}, \ldots , \mu_{N} \} \,</math> を原始政策という. 情報量は一般政策より要するが, 非加法型期待値最適化問題では原始政策は一般政策と同じ期待値を与える. |
2007年7月12日 (木) 21:57時点における版
【げんしせいさく (primitive policy)】
有限 段逐次決定過程において, 過去の状態と決定の履歴に依存して定まる政策. すなわち, 時刻 の決定を, 状態空間 と決定空間 からなる 個の直積 から決定空間 への関数 で定めるとき, これらの決定関数の列 を原始政策という. 情報量は一般政策より要するが, 非加法型期待値最適化問題では原始政策は一般政策と同じ期待値を与える.