「確率動的計画」の版間の差分

2007年7月20日 (金) 08:25時点における最新版

【かくりつどうてきけいかく (stochastic dynamic programming)】

システムの状態推移が確率的なとき, 多段階にわたる評価の期待値を最適化する方法で, マルコフ決定過程と同じ意味で使われる. いわゆる総利得の期待値をマルコフクラスで最大にする問題は動的計画法の再帰式を後ろ向きに解くことによって解ける.総利得は加法型評価系の一例であるが, 一般の結合型評価系に対しては(非負値乗法型を除けば)後向きの再帰式を解いてマルコフ政策クラスの中で最適政策を求めることはできない.

「確率動的計画」の版間の差分

2007年7月20日 (金) 08:25時点における最新版

案内メニュー

検索

2007年7月9日 (月) 23:54時点における版 (ソースを閲覧) 122.17.2.240 (トーク) ← 古い編集	2007年7月20日 (金) 08:25時点における最新版 (ソースを閲覧) Orsjwiki (トーク \| 投稿記録) 細 ("確率動的計画" を保護しました。 [edit=sysop:move=sysop])
(相違点なし)