マルコフ両決定過程のソースを表示
←
マルコフ両決定過程
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、以下のグループに属する利用者のみが実行できます:
登録利用者
。
このページは編集や他の操作ができないように保護されています。
このページのソースの閲覧やコピーができます。
【まるこふりょうけっていかてい (Markov bidecision process)】 いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 $ \beta $ が状態と決定に依存して「割引き関数」$ \beta(s,a) $ になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ.
マルコフ両決定過程
に戻る。
案内メニュー
個人用ツール
ログイン
名前空間
ページ
議論
変種
表示
閲覧
ソースを表示
履歴表示
その他
検索
案内
メインページ
コミュニティ・ポータル
最近の出来事
最近の更新
おまかせ表示
ヘルプ
ORWikiへのお問い合わせ
OR学会HP
OR学会アーカイブ集
ツール
リンク元
関連ページの更新状況
特別ページ
ページ情報