直接法 (動的計画法における)

提供: ORWiki
ナビゲーションに移動 検索に移動

【ちょくせつほう (direct method)】

多段確率システム上での逐次最適化の1つ. 加法型などの可分な評価関数に限定せず, 任意の評価関数の期待値最適化問題を再帰式で解く方法. 最適値の評価を, 始発の状態から(決定を含んだ終端状態まで)の全履歴の関数として考え, 可分・非可分を意識することなく, 「直接」再帰式を導く. 所与の評価関数から始まって, 逐次後ろ向きに期待値を取った関数を最適化して最後に初期状態の関数として最適な期待値と最適な原始政策が求められる.