「政策反復アルゴリズム」の版間の差分

2007年7月20日 (金) 11:29時点における最新版

【せいさくはんぷくあるごりずむ (policy iteration algorithm)】

マルコフ決定過程に対する数値解法としてハワードにより提案されたアルゴリズム. 政策評価と政策改良のフェーズを繰り返すことにより, 有限回の反復で最適化を求めることができる. 高速な解法として広く認められており, 収束に要する反復回数は, 経験的に問題の規模にあまり依存しない.

2007年7月12日 (木) 22:40時点における版 (ソースを閲覧) 122.17.2.240 (トーク) (新しいページ: ''''【せいさくはんぷくあるごりずむ (policy iteration algorithm)】''' マルコフ決定過程に対する数値解法としてハワードにより提案され...')	2007年7月20日 (金) 11:29時点における最新版 (ソースを閲覧) Orsjwiki (トーク \| 投稿記録) 細 ("政策反復アルゴリズム" を保護しました。 [edit=sysop:move=sysop])
(相違点なし)