「マルコフ両決定過程」の版間の差分

2007年7月14日 (土) 16:39時点における版

【まるこふりょうけっていかてい (Markov bidecision process)】

いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 $\beta \,$ が状態と決定に依存して「割引き関数」 $\beta (s,a)\,$ になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ.

2007年7月13日 (金) 12:12時点における版 (ソースを閲覧) 122.17.2.240 (トーク) (新しいページ: '【まるこふりょうけっていかてい (Markov bidecision process)】いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. ...')		2007年7月14日 (土) 16:39時点における版 (ソースを閲覧) 222.225.128.87 (トーク) 新しい編集 →
1行目:		1行目:
	【まるこふりょうけっていかてい (Markov bidecision process)】		【まるこふりょうけっていかてい (Markov bidecision process)】

−	いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 $ \beta $ が状態と決定に依存して「割引き関数」$ \beta(s,a) $ になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ.	+	いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 <math> \beta \,</math> が状態と決定に依存して「割引き関数」<math> \beta(s,a) \,</math> になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ.

「マルコフ両決定過程」の版間の差分

2007年7月14日 (土) 16:39時点における版

案内メニュー

検索