「繰り返し法 (動的計画法における)」の版間の差分

2007年7月17日 (火) 11:37時点における版

【くりかえしほう (iterative method)】

基本的には多変数同時問題を1変数問題の繰り返しで解く方法. 例えば, 原始政策 $\mu =\{\mu _{1},\mu _{2}\}\in \Pi _{p}\,$ の2変数同時最適化問題

$\mathbf {max} _{\mu }\sum \sum _{(x_{2},x_{3})}g(x_{1},u_{1},x_{2},u_{2},x_{3})\cdot p(x_{2}\vert x_{1},u_{1})p(x_{3}\vert x_{2},u_{2})\,$

を解く代わりに, $\mu _{2}\,$ による最適化の後に $\mu _{1}\,$ による最適化を行なう問題

${\mathbf {max} }_{\mu _{1}}\mathbf {max} _{\mu _{2}}\sum \sum _{(x_{2},x_{3})}g(x_{1},u_{1},x_{2},u_{2},x_{3})\cdot p(x_{2}\vert x_{1},u_{1})p(x_{3}\vert x_{2},u_{2})\,$

を解く方法. ただし, $u_{1}=\mu _{1}(x_{1}),u_{2}=\mu _{2}(x_{1},u_{1},x_{2})\,$ .

@@ 3行目: / 3行目: @@
 基本的には多変数同時問題を1変数問題の繰り返しで解く方法. 例えば, 原始政策 <math> \mu = \{\mu_{1}, \mu_{2} \} \in \Pi_{p} \,</math> の2変数同時最適化問題
+<center>
 <math>
 \mathbf{max}_{\mu}
@@ 9行目: / 11行目: @@
   p(x_2\vert x_1,u_1)p(x_3\vert x_2, u_2)
 \,</math>
+</center>
 を解く代わりに, <math> \mu_{2} \,</math> による最適化の後に <math> \mu_{1} \,</math> による最適化を行なう問題
+<center>
 <math>
 {\mathbf{max}}_{\mu_1}\mathbf{max}_{\mu_2}
    \sum \sum_{(x_2,x_3)} g(x_1,u_1,x_2,u_2,x_3) \cdot p(x_2\vert x_1,u_1)p(x_3\vert x_2, u_2)
 \,</math>
+</center>
 を解く方法. ただし, <math>u_{1} = \mu_{1}(x_{1}), u_{2} = \mu_{2}(x_{1},u_{1},x_{2})\,</math>.

「繰り返し法 (動的計画法における)」の版間の差分

2007年7月17日 (火) 11:37時点における版

案内メニュー

検索