期待値最適化 (多段決定過程における)

提供: ORWiki
ナビゲーションに移動 検索に移動

【きたいちさいてきか (expectation optimizing)】

多段確率推移システム全段にわたる評価の期待値を最適化する問題. すなわち, 決定を伴なうマルコフ推移法則の下で, 総利得そのものの期待値よりむしろ, 総利得の関数を通した評価の期待値を最適化する問題である. この関数を効用関数という. 期待効用最適化問題は一般政策のクラスで解決できる.不変埋没原理によるパラメータを含む再帰式を解いて,また多段確率決定樹表で解かれる.