「マルコフ決定過程」の版間の差分

提供: ORWiki
ナビゲーションに移動 検索に移動
("マルコフ決定過程" を保護しました。 [edit=sysop:move=sysop])
(相違点なし)

2007年7月20日 (金) 10:58時点における版

【まるこふけっていかてい (Markov decision process)】

状態遷移にマルコフ性をもつ確率システムの動的最適化のための数学モデル. 1960 年にハワードの著書が出版されたことで, 広く知られるようになり, その後, 理論・応用両面で様々な研究がなされている. 最適政策を求める計算アルゴリズムに関しても, 政策反復法, 値反復法(逐次近似法), 線形計画問題として定式化し単体法を用いる解法など, かなり大規模な問題にも耐え得るアルゴリズムが開発されている.