《大規模問題の分解法》

【だいきぼもんだいのぶんかいほう (decomposition method for large-scale problems)】

　現実世界で発生する複雑な問題を最適化問題としてモデル化すると，非常に多くの変数や制約条件をもつ大規模問題になることが多い．計算機を用いてその解を求める場合，目的関数や制約条件式がすべて線形であっても，変数や制約条件の数が増えるとともに計算時間は急激に増加する．また，それらの一部に非線形の項が含まれると，問題の解きにくさは飛躍的に増大する．そこで，大規模問題を直接解くのではなく，一部の変数や制約条件だけから成る小規模な，または，解きやすい部分問題を逐次解くことにより，もとの問題の解を得ようとするアルゴリズムが提案されている．それらを一般に大規模問題の分解法 (decomposition method for large-scale problems) と呼ぶ [3]．

　現実の大規模問題は，しばしば特徴的なブロック構造をもつ．たとえば， $n\,$ 個の比較的独立な部分から成るシステムが共通の変数 $x_{0}\,$ を含む場合は，

{\begin{array}{llrlll}{\mbox{min.}}&f_{0}(x_{0})+&\sum _{j=1}^{n}f_{j}(x_{j})\\{\mbox{s. t.}}&g_{0}(x_{0})&&\leq 0,&&\quad {\mbox{(1)}}\\&g_{j}(x_{0})+&h_{j}(x_{j})&\leq 0&(j=1,\ldots ,n),\end{array}}\,

という最適化問題が得られる．この問題は，変数 $x_{0}\,$ を一時的に固定すると，

{\begin{array}{llll}{\mbox{min.}}\quad f_{j}(x_{j})\quad {\mbox{s. t.}}\quad g_{j}(x_{0})+h_{j}(x_{j})\leq 0,&&\quad {\mbox{(2)}}\end{array}}\,

という $n\,$ 個の部分問題に分解される．ベンダース分解法 (Benders decomposition method) はこのような性質を利用しており，関数 $f_{j}\,$ , $h_{j}\,$ が線形ならば，有限回の反復でもとの問題の解に到達できることが知られている．さらに，分解された部分問題はたがいに独立であり，それらは比較的大きい（粒度が粗い）問題となるため， MIMD (multiple instruction stream multiple data stream) 型の並列計算機で効率よく実行できる．

　また，システム全体にまたがる付加的な制約条件が存在する場合は，

{\begin{array}{lrllll}{\mbox{min.}}&f_{0}(x_{0})+\sum _{j=1}^{n}f_{j}(x_{j})&&\\{\mbox{s. t.}}&g_{0}(x_{0})+\sum _{j=1}^{n}g_{j}(x_{j})&\leq 0,&&\quad {\mbox{(3)}}\\&h_{j}(x_{j})&\leq 0&(j=1,\ldots ,n),\end{array}}\,

という最適化問題が得られるが， $g_{j}\,$ を含む制約条件をラグランジュ緩和により目的関数に組み込み, さらに変数 $x_{0}\,$ を一時的に固定すると, 問題 (2) に類似した $n\,$ 個の独立な部分問題に分解される．とくにすべての関数が線形ならば，問題 (3) は部分問題の解を用いて効率的に解けることが知られており，ダイツィク・ウルフ分解法 (Dantzig-Wolfe decomposition method) と呼ばれている．

　一方，大規模で複雑な問題から取り扱いやすい構造をもつ部分のみを抽出して部分問題を構成し，これを逐次解くことによりもとの問題の解を得ようとする方法は，分割法 (splitting method) と呼ばれている．分割法は，問題 (1) や (3) のようなブロック構造をもたない問題にも適用可能である．また，並列処理可能な部分問題を構成すれば，それらはしばしば小規模な（粒度の細かい）問題となり，SIMD (single instruction stream multiple data stream) 型の大規模並列計算機を用いて効率的に実行できる．

　分割法は，線形方程式に対する反復法として，線形代数の分野において古くから研究されている．行列 $M\,$ とベクトル $q\,$ により定義される線形方程式

Mx+q=0\,

に対して，条件 $M=B+C\,$ を満たす行列 $B\,$ , $C\,$ を選び，方程式

{\begin{array}{ll}Bx+Cx^{(k)}+q=0&{\mbox{(4)}}\end{array}}\,

の解を $x^{(k+1)}\,$ とおくことにより点列 $\{x^{(k)}\}\,$ を生成する方法は，行列分割法 (matrix splitting method) と呼ばれる．行列 $B\,$ を (ブロック) 対角行列に選べば方程式 (4) は並列的に解けるので，大規模問題に対する効率的な解法を得る．行列分割法は，線形相補性問題や線形変分不等式問題にも拡張できる．

　一般の凸計画問題に対しても，分割法に基づくアルゴリズムを構成できる．凸計画問題は，最適性条件を考慮すると，ある写像 $F:\mathbf {R} ^{n}\rightarrow \mathbf {R} ^{n}\,$ を用いて

{\begin{array}{ll}{\mbox{find}}\quad x\in \mathbf {R} ^{n}\quad {\mbox{s. t.}}\quad 0\in F(x),&\quad {\mbox{(5)}}\end{array}}\,

と記述される．条件 $F=G+H\,$ を満たす写像 $G\,$ , $H\,$ を選び，部分問題

{\begin{array}{ll}{\mbox{find}}\quad x\in \mathbf {R} ^{n}\quad {\mbox{s. t.}}\quad 0\in G(x)+H(x^{(k)}),&\quad {\mbox{(6)}}\end{array}}\,

の解を $x^{(k+1)}\,$ とする反復法は，作用素分割法 (operator splitting method) と呼ばれる．写像 $G\,$ が分離可能ならば部分問題 (6) は並列的に解けるので，大規模な凸計画問題に対する効率的な解法が得られる．

　問題 (5) に対する有力な反復法に，近接点法 (proximal point method) がある．近接点法では，単調非減少な正定数の列 $\{\lambda ^{(k)}\}\,$ を定め，問題

{\mbox{find}}\quad x\in \mathbf {R} ^{n}\quad {\mbox{s. t.}}\quad (x^{(k)}-x)\,/\,\lambda ^{(k)}\in F(x),\,

の解を $x^{(k+1)}\,$ とおく．作用素分割法や近接点法は，一般的な最適化問題のクラスである変分不等式問題にも拡張できる．また，これらの方法を組合せることによりさまざまな並列アルゴリズム(数理計画問題の)(parallel algorithm (nonlinear programming)) を構成できることが知られている．このような考え方に基づく並列アルゴリズムについては，参考文献 [1, 2] に詳しい解説がある．

参考文献

[1] D. P. Bertsekas and J. N. Tsitsiklis, Parallel and Distributed Computation: Numerical Methods, Prentice-Hall, 1989.

[2] Y. Censor and S. A. Zenios, Parallel Optimization: Theory, Algorithms, and Applications, Oxford University Press, 1997.

[3] J. F. Shapiro, Mathematical Programming: Structures and Algorithms, John Wiley & Sons, 1979.

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

【こうそくびぶんほう (fast differentiation)】

　非線形関数の勾配, ヤコビ行列, ヘッセ行列等の値を数値的に計算する方法のひとつ. 高速自動微分法(fast automatic differentiation), 計算微分法(computational differentiation), 単純に自動微分(automatic differentiation; 以下 AD)ともいう. 主なアルゴリズムは2種あり, ボトムアップ(前進)自動微分(bottom-up AD, forward AD; 以下 BUAD) と, トップダウン(逆行)自動微分(top-down AD, reverse AD, backward AD; 以下 TDAD) という [1, 2]. 高速微分法は狭義には, TDADを指す. AD は「関数の値を計算するプログラム」から「偏導関数の値を計算するプログラム」を生成する手順を与え, 生成物を(コンパイルし)実行すれば, 差分商近似のような打ち切り誤差無しで, 正確な偏導関数の値を計算できる. 大規模システムの数学モデル等の大規模プログラム(数千行以上)により表現される関数の偏導関数を計算できるのが特長. $n\,$ 変数関数の勾配の $n\,$ 個の値を関数計算の手間の定数倍で計算できる点が「高速」微分の由来である.

　以下，BUAD と TDAD による計算法を説明する．例として，2変数関数 $f(x,y)=x/{\sqrt {x^{2}+y}}$ について, $f(3,4)\,$ の値を計算する代入文の列(プログラム), $x=3,y=4,v_{1}=x,v_{2}=y,v_{3}=v_{1}*v_{1},v_{4}=v_{3}+v_{2},v_{5}={\sqrt {v_{4}}},v_{6}=v_{1}/v_{5}$ を考えよう. ただし, 各代入文の右辺には, 演算(基本演算とよぶ)が高々1回だけ現れるとする. $v_{1}\,$ , $v_{2}\,$ が $x\,$ , $y\,$ に対応し, $v_{6}\,$ に $f(x,y)\,$ の値が計算される. 一般には, $n\,$ 変数関数 $f(x_{1},\cdots ,x_{n})$ について, $k\,$ 回目の代入文には, $k-1\,$ 回目までに計算される変数が現れうるから, 延べ $r\,$ 回の演算を行なう代入文の列は $\{v_{k}=\varphi _{k}(v_{1},\cdots ,v_{k-1})\}_{k=1}^{r}$ と表される. これを計算過程といい, $v_{k}\,$ を中間変数という. $k\leq n$ のとき $\varphi _{k}$ は $v_{k}=x_{k}$ という入力定数の代入演算に相当する.

　BUADは, 補助変数 $\{s_{k}\}_{k=1}^{r}$ を導入し, 任意に $j\,$ $(1\leq j\leq n)$ を固定して, 合成関数の $x_{j}\,$ に関する偏微分則 ${\partial v_{k}}/{\partial x_{j}}=\sum _{i=1}^{k-1}({\partial \varphi _{k}}/{\partial v_{i}})\cdot ({\partial v_{i}}/{\partial x_{j}})$ に基づき, $s_{k}\,$ を計算する式を導出する. 基本演算 $\varphi _{k}$ を四則演算や初等関数などの2項・単項の演算に限れば, 表1により, ${\partial \varphi _{k}}/{\partial v_{i}}$ (これを要素的偏導関数という)を導出できる. $s_{j}=1\,$ , $s_{\ell }=0$ $(1\leq \ell \leq n,\ell \not =j)$ と初期設定すれば, $k=n+1\,,n+2\,,\cdots$ について $s_{i}=\partial v_{i}/\partial x_{j}$ $(i=1,\cdots ,k-1)$ を計算済みとみなすことができ, $s_{k}=\sum _{i=1}^{k-1}({\partial \varphi _{k}}/{\partial v_{i}})\cdot s_{i}$ の値を計算できる. 最終的に $s_{r}=\partial f/\partial x_{j}$ となる.

表１：基本演算と要素的偏導関数

$\varphi _{k}$	$\partial \varphi _{k}/v_{\alpha }$	$\partial \varphi _{k}/v_{\beta }$
$v_{k}=v_{\alpha }\pm v_{\beta }\,$	$1\,$	$\pm 1$
$v_{k}=v_{\alpha }*v_{\beta }\,$	$v_{\beta }\,$	$v_{\alpha }\,$
$v_{k}=v_{\alpha }/v_{\beta }\,$	$1/v_{\beta }\,$	$-v_{\alpha }/({v_{\beta }}^{2})\,$ $(=-v_{k}/v_{\beta })\,$

$\varphi _{k}\,$	$\partial \varphi _{k}/v_{\alpha }\,$
$v_{k}=\exp(v_{\alpha })\,$	$\exp(v_{\alpha })\,\,(=v_{k})$
$v_{k}=\log(v_{\alpha })\,$	$1/v_{\alpha }\,$
$v_{k}={\sqrt {v_{\alpha }}}\,$	$1/(2{\sqrt {v_{\alpha }}})\,$ $(=0.5/v_{k})\,$

　先の例では, $\partial v_{1}/\partial x=1,\partial v_{2}/\partial x=0$ に注意して, $s_{1}=1\,$ , $s_{2}=0\,$ , $s_{3}=2*v_{1}*s_{1}\,$ , $s_{4}=s_{3}+s_{2}\,$ , $s_{5}=0.5/v_{5}*s_{4}\,$ , $s_{6}=(1/v_{5})*s_{1}+(-v_{6}/v_{5})*s_{5}\,$ という代入文の列を生成する. これを実行すると $s_{6}\,$ には $(\partial f/\partial x)(3,4)\,$ の値が計算される( $v_{k}\,$ の計算の直後に $s_{k}\,$ を計算してもよい). 高々2項までの基本演算だけ使用するという条件の下では, BUADの手間は ${\mbox{O}}(r)\,$ である. $s_{1}=0\,$ , $s_{2}=1\,$ と一部変更し, もう一度計算すれば, $s_{6}\,$ には, $(\partial f/\partial y)(3,4)$ の値が計算される. $n\,$ 変数関数の勾配を計算するには, 同様の計算を $n\,$ 回繰り返す必要がある.

　TDADはこれとは異なり, 先の計算過程を $\{-v_{k}+\varphi _{k}(v_{1},\cdots ,v_{k-1})=0\}_{k=1}^{r}$ と書き直し, これらを $v_{1},\cdots ,v_{r}$ に関する制約式とみなす. この制約の下で, $v_{r}\,$ ( $f\,$ の値) の停留点を考える. ラグランジュ関数 $L(v_{1},\cdots ,v_{r};\lambda _{1},\cdots ,\lambda _{r})=v_{r}+\sum _{k=1}^{r}\lambda _{k}(-v_{k}+\varphi _{k}(v_{1},\cdots ,v_{k-1}))$ の停留点( $\partial L/\partial \lambda _{k}=0$ かつ $\partial L/\partial v_{k}=0$ が成立する点)では, ラグランジュ乗数 $\lambda _{k}\,$ は, $k\,$ 番目の制約式の摂動に対する関数値 $v_{r}\,$ の感度を与えるが, $j=1,\cdots ,n$ については $\lambda _{j}\,$ は $\partial f/\partial x_{i}$ に等しい. 入力 $x_{1},\cdots ,x_{n}$ を定めると $v_{1},\cdots ,v_{r}$ は一意に定まるが, $\lambda _{k}\,$ は連立一次方程式 $(\partial L/\partial v_{r}=)1+\lambda _{r}\cdot (-1)=0,(\partial L/\partial v_{k}=)\sum _{j=k+1}^{r}\lambda _{j}\cdot (\partial \varphi _{j}/\partial v_{k})+\lambda _{k}\cdot (-1)=0(k=r-1,\cdots ,1)$ を満たす. これを解くには, $\varphi _{k}$ が実質的に単項・2項演算であることを考慮すると, $\lambda _{r}\gets 1,\lambda _{r-1}\gets 0,\cdots ,\lambda _{1}\gets 0$ と初期化しておき, $k=r-1,r-2,\cdots ,1$ の順に $\lambda _{i}\gets \lambda _{i}+\lambda _{k}\cdot (\partial \varphi _{k}/\partial v_{i})(i=1,\cdots ,k-1)$ を計算する. 各 $k\,$ について高々2個の $i\,$ についてだけ計算すればよい.

　先の例では, $v_{1},\cdots ,v_{6}$ を計算し, $\lambda _{6}=1,\lambda _{5}=0,\cdots ,\lambda _{1}=0$ と初期化した後, $\lambda _{1}\gets \lambda _{1}+\lambda _{6}\cdot (1/v_{5}),$ $\lambda _{5}\gets \lambda _{5}+\lambda _{6}\cdot (-v_{6}/v_{5}),$ $\lambda _{4}\gets \lambda _{4}+\lambda _{5}\cdot (0.5/v_{5}),$ $\lambda _{3}\gets \lambda _{3}+\lambda _{4}\cdot 1,\lambda _{2}\gets \lambda _{2}+\lambda _{4}\cdot 1$ , $\lambda _{1}\gets \lambda _{1}+\lambda _{3}\cdot (2v_{1})$ となる. 最終的に $\lambda _{1},\lambda _{2}\,$ に $(\partial f/\partial x)(3,4),(\partial f/\partial y)(3,4)$ の値が計算される. 同じ条件の下で, TDADの手間は ${\mbox{O}}(r)\,$ である. 1回の計算で勾配の値は全て計算できることに注意.

　 $n\,$ 変数 $m\,$ 値関数 $[f_{1}(x_{1},\cdots ,x_{n}),\cdots ,f_{m}(x_{1},\cdots ,x_{n})]^{\top }$ について, 全成分の値を計算するのに延べ $r\,$ 回の基本演算を実行したとする. ヤコビ行列 $J=(\partial f_{i}/\partial x_{j})\,$ の列の線形結合はBUADで, 行についてはTDADで ${\mbox{O}}(r)\,$ の手間で計算できる. 全成分については BUADでは ${\mbox{O}}(nr)\,$ , TDAD では ${\mbox{O}}(mr)\,$ である.

　実際には, 基本演算は表1に限らず, 代入文(やその列)を一つの基本演算とみなしてよい. また, プログラム中に条件分岐があっても, 与えられた入力値に関する関数の合成は上記の形で書けるから, ADを適用できる. ただし, 分岐の境目では, ADの結果は, 真の偏導関数値と異なることがある. たとえば, ${\mbox{if(x=1.0)}}\{{\mbox{y=x*x}}\}{\mbox{else}}\{{\mbox{y=1.0}}\}\,$ の様なプログラムを自動微分すると, $x\,$ の値が1.0 のときには不具合が起こりうるので注意が必要である.

参考文献

[1] M. Berz, C. Bischof, G. Corliss and A. Griewank, Computational Differentiation: Techniques, Applications, and Tools, SIAM, 1996.

[2]久保田光一, 伊理正夫, 『アルゴリズムの自動微分と応用』, コロナ社, 1998.

《大規模問題の分解法》

案内メニュー

検索