確率最適化 (多段決定過程における)

【かくりつさいてきか (probability optimizing)】

状態推移が確率的なとき, 多段階システムの評価値が所定の条件を満たす確率を最適化すること.決定を伴なうマルコフ推移法則の下で,(1) 総利得が所定の基準値を超える(閾値)確率,(2) 最大リスクが基準値以下になる確率, などを最適(最大・最小)化しようとするとき, 一般にマルコフ政策クラスには最適政策は存在しない. より広い一般政策クラスでの最適化問題は不変埋没原理,多段確率決定樹表(ツリーテーブル)などで解ける.