繰り返し法 (動的計画法における)
2007年7月12日 (木) 00:21時点における122.17.2.240 (トーク)による版 (新しいページ: ''''【くりかえしほう (iterative method)】''' 基本的には多変数同時問題を1変数問題の繰り返しで解く方法. 例えば, 原始政策 $ \mu = \{\mu_...')
【くりかえしほう (iterative method)】
基本的には多変数同時問題を1変数問題の繰り返しで解く方法. 例えば, 原始政策 $ \mu = \{\mu_{1}, \mu_{2} \} \in \Pi_{p} $ の2変数同時最適化問題
\[ \begin{array}{l}
\hspace*{-5mm} \displaystyle{\mathopテンプレート:\rm max_{\mu} \sum \sum_{\hspace{-7mm}(x_{2},x_{3})} g(x_{1},u_{1},x_{2},u_{2},x_{3}) \cdot } p(x_{2}\vert x_{1},u_{1})p(x_3\vert x_2, u_2)
\end{array} \]
を解く代わりに, $ \mu_{2} $ による最適化の後に $ \mu_{1} $ による最適化を行なう問題
\[ \begin{array}{l}
\hspace*{-5mm} \displaystyle{\mathopテンプレート:\rm max_{\mu_{1}}\mathopテンプレート:\rm max_{\mu_{2}} \sum \sum_{\hspace{-7mm}(x_{2},x_{3})} g(x_{1},u_{1},x_{2},u_{2},x_{3}) \cdot }p(x_{2}\vert x_{1},u_{1})p(x_3\vert x_2, u_2)
\end{array} \]
を解く方法. ただし, $u_{1} = \mu_{1}(x_{1}), u_{2} = \mu_{2}(x_{1},u_{1},x_{2})$.