「確率動的計画」の版間の差分

提供: ORWiki
ナビゲーションに移動 検索に移動
(新しいページ: ''''【かくりつてきぶんかいていり (stochastic decomposition theorem)】''' M/G/1 待ち行列等のバケーションサーバモデルにおいて, 適当な条...')
 
1行目: 1行目:
'''【かくりつてきぶんかいていり (stochastic decomposition theorem)】'''
+
'''【かくりつどうてきけいかく (stochastic dynamic programming)】'''
  
M/G/1 待ち行列等のバケーションサーバモデルにおいて, 適当な条件の下で, バケーションモデルの平衡状態における客数分布が, 対応するバケーションのないモデルの平衡状態における客数分布と, バケーション期間のみに依存する客数分布のたたみ込みに分割できるという定理.サービスが先着順に行なわれ, バケーションが将来の到着過程に依存しない場合には, 客の待ち時間の分布関数のラプラス・スチルチェス変換についても同様の分解定理が成り立つ.
+
システムの状態推移が確率的なとき, 多段階にわたる評価の期待値を最適化する方法で, マルコフ決定過程と同じ意味で使われる. いわゆる総利得の期待値をマルコフクラスで最大にする問題は動的計画法の再帰式を後ろ向きに解くことによって解ける.総利得は加法型評価系の一例であるが, 一般の結合型評価系に対しては(非負値乗法型を除けば)後向きの再帰式を解いてマルコフ政策クラスの中で最適政策を求めることはできない.

2007年7月9日 (月) 23:54時点における版

【かくりつどうてきけいかく (stochastic dynamic programming)】

システムの状態推移が確率的なとき, 多段階にわたる評価の期待値を最適化する方法で, マルコフ決定過程と同じ意味で使われる. いわゆる総利得の期待値をマルコフクラスで最大にする問題は動的計画法の再帰式を後ろ向きに解くことによって解ける.総利得は加法型評価系の一例であるが, 一般の結合型評価系に対しては(非負値乗法型を除けば)後向きの再帰式を解いてマルコフ政策クラスの中で最適政策を求めることはできない.