マルコフ決定過程

提供: ORWiki
2007年8月8日 (水) 21:56時点におけるKanda.k (トーク | 投稿記録)による版
ナビゲーションに移動 検索に移動

【まるこふけっていかてい (Markov decision process)】

状態遷移にマルコフ性をもつ確率システムの動的最適化のための数学モデル. 1960 年にハワードの著書が出版されたことで, 広く知られるようになり, その後, 理論・応用両面で様々な研究がなされている. 最適政策を求める計算アルゴリズムに関しても, 政策反復法, 値反復法(逐次近似法), 線形計画問題として定式化し単体法を用いる解法など, かなり大規模な問題にも耐え得るアルゴリズムが開発されている.

詳しくは基礎編:マルコフ決定過程を参照.