「マルコフ両決定過程」の版間の差分
ナビゲーションに移動
検索に移動
Albeit-Kun (トーク | 投稿記録) |
|||
(他の1人の利用者による、間の1版が非表示) | |||
2行目: | 2行目: | ||
いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 <math> \beta \,</math> が状態と決定に依存して「割引き関数」<math> \beta(s,a) \,</math> になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ. | いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 <math> \beta \,</math> が状態と決定に依存して「割引き関数」<math> \beta(s,a) \,</math> になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ. | ||
+ | |||
+ | [[Category:動的・確率・多目的計画|まるこふりょうけっていかてい]] |
2008年11月13日 (木) 22:16時点における最新版
【まるこふりょうけっていかてい (Markov bidecision process)】
いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 が状態と決定に依存して「割引き関数」 になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ.