「最適停止」の版間の差分
(基礎編と用語編のマージ) |
|||
(2人の利用者による、間の2版が非表示) | |||
1行目: | 1行目: | ||
'''【さいてきていし (optimal stopping)】''' | '''【さいてきていし (optimal stopping)】''' | ||
+ | === 概要 === | ||
結合分布が既知である確率変数列 <math>X_1, X_2, \cdots \,</math>,と実数値利得関数列<math>y_0, \ y_1(x_1), \,</math> <math> \ y_2(x_1, x_2), \,</math> <math> \cdots, \ y_{\infty}(x_1, x_2,\dots) \,</math>に対して, 逐次に確率変数列<math>X_1 \,</math>, <math>X_2 \,</math>, <math>\cdots \,</math>を観測し, 各<math>n \,</math>段階において<math>X_1=x_1, X_2=x_2, \cdots, X_n=x_n \,</math>を観測後に観測を停止して利得<math>y_n(x_1, \dots, x_n) \,</math>を得るか, 継続して<math>X_{n+1} \,</math>を観測するかを決定を下す.このとき, 期待利得を最大にする(もしくは期待費用を最小化する)停止時刻を求めるのが最適停止問題である. | 結合分布が既知である確率変数列 <math>X_1, X_2, \cdots \,</math>,と実数値利得関数列<math>y_0, \ y_1(x_1), \,</math> <math> \ y_2(x_1, x_2), \,</math> <math> \cdots, \ y_{\infty}(x_1, x_2,\dots) \,</math>に対して, 逐次に確率変数列<math>X_1 \,</math>, <math>X_2 \,</math>, <math>\cdots \,</math>を観測し, 各<math>n \,</math>段階において<math>X_1=x_1, X_2=x_2, \cdots, X_n=x_n \,</math>を観測後に観測を停止して利得<math>y_n(x_1, \dots, x_n) \,</math>を得るか, 継続して<math>X_{n+1} \,</math>を観測するかを決定を下す.このとき, 期待利得を最大にする(もしくは期待費用を最小化する)停止時刻を求めるのが最適停止問題である. | ||
+ | |||
+ | === 詳説 === | ||
+ | 逐次に観測される確率変数列に基づき, 期待利得を最大化したり期待費用を最小化するためにある行動を取る時刻を選ぶ問題を[[最適停止]]問題という. 最適停止は次の2つの要素を持つ. (i) 結合分布が既知である確率変数列: <math>X_1, X_2, \cdots\, </math>, (ii) 実数値利得関数列: <math>y_0, \ y_1(x_1), \ y_2(x_1, x_2), \cdots ,\, </math> <math>\ y_{\infty}(x_1, x_2, \cdots)\, </math>. 逐次に確率変数列<math>X_1\, </math>, <math>X_2\, </math>, <math>\cdots\, </math>を観測し, 最初の<math>n\, </math>段階において<math>X_1=x_1,X_2=x_2, \cdots, X_n=x_n\, </math>を観測後に観測を停止して利得<math>y_n(x_1, \cdots, x_n)\, </math>を得るか, 継続して<math>X_{n+1}\, </math>を観測するかの決定を下す. 全く観測しないならば<math>y_0\, </math>, 決して停止しないならば<math>y_{\infty}(x_1, x_2, \cdots)\, </math>の利得を得る.このとき, 利得を最大にするタイミングである停止時刻を求めるのが最適停止問題である.要素の(ii)は, <math>Y_n=y_n(X_1, \cdots , X_n)\, </math>としたとき, (ii') 結合分布が既知である利得を表す確率変数列: <math>Y_0, \ Y_1, \ Y_2, \ \cdots, \ Y_{\infty},\, </math> としてもよい. このとき, <math>E(Y_N)\, </math>を最大にする停止時刻<math>N\, </math>を求めるのが最適停止問題であるとも記述できる. <math>Y_N\, </math>を利得ではなく何らかの費用や損失と解釈すると, 費用ないし損失を最小にする停止規則(時刻)<math>N\, </math>を求める問題となる. | ||
+ | |||
+ | より一般的には, 最適停止問題は次の様に記述されている. 確率空間 <math>(\Omega, {\mathcal F}, P)\, </math>が与えられ, <math>{\mathcal F}_n\, </math>を<math>X_1, \cdots, X_n\, </math>によって生成される <math>\mathcal F\, </math>の部分 <math>\sigma\, </math>集合, <math>{\mathcal F}_0=\{\Omega, \phi\}, {\mathcal F}\, </math>を <math>\cup {\mathcal F}_n\, </math>によって生成される <math>\sigma\, </math>集合とし, <math>{\mathcal F}_0 \subset {\mathcal F}_1 \subset \cdots\subset {\mathcal F}_n \subset \cdots\subset {\mathcal F}_{\infty} \subset {\mathcal F}\, </math>とする. (i)(ii) にかわり(i') 増加部分<math>\sigma\, </math>集合列:<math>{\mathcal F}_0 \subset {\mathcal F}_1 \subset \cdots \subset {\mathcal F}_{\infty}\subset {\mathcal F}\, </math>, (ii") 結合分布が既知な利得を表す確率変数列: <math>Y_0,Y_1, \cdots, Y_n, \cdots, Y_{\infty}\, </math>,とし, <math>Y_n\, </math>は<math>{\mathcal F}_n\, </math>-可測, <math>n=0, 1, \cdots, \infty\, </math>とする. <math>\{N=n\}\in {\mathcal F}_n\, </math>である非負整数値確率変数<math>N\, </math>を停止規則と定義する. (この定義は, いつ停止するかの決定は今までの観測のみに基づき, 将来の観測には基づかないと解釈するとわかりやすい.) このとき <math>E(Y_N)\, </math>を最大にする停止規則<math>N\, </math>を求めるのが最適停止問題である. 一般に全ての最適停止問題を解くことは難しいが, 有限期間問題と単調問題(monotone problem)は解くことができる. 確率変数列 <math>X_1, X_2, \cdots, X_n, n<\infty\, </math>を観測後に必ず停止しなければならないとき, 有限期間問題と呼ぶ.有限期間問題は基本的に後向きの帰納法 (backward induction) によって解かれる. <math>n\, </math>期では停止しなければならないので, <math>V_n^{(n)}\, </math>を<math>V_n^{(n)}(x_1, \cdots, x_n)=y_n(x_1, \cdots, x_n)\, </math>と定義する. <math>(n-1)\, </math>期では, ここで停止したときの利得 <math>y_{n-1}(x_1, \cdots, x_{n-1})\, </math>と, 継続して<math>n\, </math>期で停止したときの期待利得 <math>\mbox{E} (V_n^{(n)}(x_1, \cdots, x_{n-1}, X_n)|X_1 = x_1, \cdots, X_{n-1}=x_{n-1})\, </math>を比較すれば, <math>(n-1)\, </math>期で停止すべきか継続すべきかが判明する. <math>V_{n-1}^{(n)}(x_1, \cdots, x_{n-1})\, </math>を次のように定義する. <math>V_{n-1}^{(n)}(x_1, \cdots, x_n) = \max\{y_{n-1}(x_1, \cdots, x_{n-1}), \mbox{E}(V_n^{(n)}(x_1, \cdots, x_{n-1}, X_n)|X_1 = x_1, \cdots, X_{n-1}=x_{n-1})\}.\, </math>同様に <math>j=n-2, n-3, \cdots, 0\, </math>と後ろ向きに<math>V_j^{(n)}(x_1, \cdots, x_j)\, </math>を定義し, | ||
+ | |||
+ | |||
+ | <center> | ||
+ | <math>\begin{array}{ll} | ||
+ | V_j^{(n)}(x_1,\cdots, x_j) = & \max\{y_j(x_1,\cdots, x_j), \\ | ||
+ | & \quad \mbox{E} (V_{j+1}^{(n)} | ||
+ | (x_1,\cdots, x_j, X_{j+1})|X_1=x_1,\cdots, | ||
+ | X_j=x_j) \} | ||
+ | \end{array}\, </math> | ||
+ | </center> | ||
+ | |||
+ | |||
+ | とする. このように定義された <math>V_j^{(n)}(x_1, \cdots, x_j)\, </math>は, <math>X_1=x_1, \cdots\, </math>, <math>X_j=x_j\, </math>を観測して<math>j\, </math>期から始めたときの最大期待利得を表し, 上式は最適方程式と呼ばれる. これは[[動的計画]]の[[最適性の原理]]によって得られる関数再帰方程式に他ならず, DP(ダイナミック<math>\cdot\, </math>プログラミング)方程式とも呼ばれる. <math>j\, </math>期においては, 停止して得られる利得<math>y_j(x_1, \cdots, x_j)\, </math>が<math>j\, </math>期より継続して得られる最大期待利得<math>\mbox{E}(V_{j+1}^{(n)}(x_1, \cdots, x_j, X_{j+1})|X_1 = x_1, \cdots, X_j=x_j)\, </math>より良ければ停止し, 逆ならば継続するのが良い. それゆえに, 有限期間問題の最適停止規則<math>N\, </math>は, 初めて<math>V_j^{(n)}(x_1, \cdots, x_j)=y_j(x_1, \cdots, x_j)\, </math>となる<math>j\, </math>で停止することである. 有限期間問題の最大期待利得は, <math>V_0^{(n)}\, </math>となる. | ||
+ | |||
+ | 最適停止問題において, 事象<math>A_n=\{Y_n\ge E(Y_{n+1}|{\mathcal F}_n)\}\, </math>, <math>n=0, 1, 2, \cdots\, </math>が <math>\textstyle A_0 \subset A_1 \subset \cdots \subset;\ {\bigcup}_1^{\infty} A_n=\Omega \, </math> (almost surely) を満たしているとき単調問題とよぶ. 単調問題では, ある条件の下で([1]参照) OLA (one-stage look-ahead) 停止規則<math>N:=\min\{n\ge 0: Y_n\ge E(Y_{n+1}|{\mathcal F}_n)\}\, </math>が最適停止規則となる. OLA 停止規則とは, もう1期だけ継続してから停止するよりも, 今停止するほうがよいときに停止することを要求する規則である. | ||
+ | |||
+ | 独自のクラスを形成してきたといえる確率最大化最適停止問題に秘書問題がある. 秘書問題は結婚問題とも呼ばれ, 最も基本となる古典的秘書問題は次のように記述される. 1人の秘書を雇いたい. 面接した応募者には同ランクはなくランク付けが可能とする. 1人ずつ面接する毎に, 今までに面接した応募者の相対ランクに基づき採用するか否かを決めなければならず, 一度不採用にした応募者を採用することはできない. <math>n\, </math>人の応募者があり, <math>n\, </math>人の面接の順列の一つが実現する確率が<math>1/n!\, </math>のとき, <math>n\, </math>人中のベストランクを得る確率を最大にする最適停止規則を求めたい. 最適停止規則は, <math>r^{\ast}-1\, </math>番目までの応募者は全て採用を見送り, それ以降に最初に面接する相対的ベストの応募者を採用しなさい, となり, ここで, <math>\textstyle r^{\ast}=\min\{i\ge 1:\sum_{j=i}^{n-1}(1/j) \le 1\}\, </math>により<math>r^{\ast}\, </math>は与えられる. <math>n\to \infty\, </math>のとき, <math>r^{\ast}/n \to 1/{\rm e} \approx 0.3678\, </math>となる. 大まかに言うと, <math>n\, </math>が十分大きいとき, 36.8%まではパスしてそれ以 降に到着する相対的ベストの応募者を採用するのが最適である. | ||
+ | |||
+ | |||
+ | |||
+ | ---- | ||
+ | '''参考文献''' | ||
+ | |||
+ | [1] Y. S. Chow, H. Robbins and D. Siegmund, ''Great Expectations: The Theory of Optimal Stopping'', Houghton Mifflin Company, Boston, 1971. | ||
+ | |||
+ | [2] T. S. Ferguson, "Who Solved the Secretary Problem?," ''Statistical Science'', '''4''' (1989), 282-289. | ||
+ | |||
+ | [3] A. N. Shiryaev, ''Optimal Stopping Rules'', Springer-Verlag, New York, 1978. | ||
+ | |||
+ | [4] J. L. Snell, ""Applications of Martingale System Theorems," ''Trans. Amer. Math. Soc.'', '''73''' (1952), 293-312. | ||
+ | |||
+ | [5] S. M. Ross, ''Applied Probability Models with Optimization Applications'', Holden - Day, San Francisco, 1970. | ||
+ | |||
+ | |||
+ | [[Category:動的・確率・多目的計画|さいてきていし]] |
2008年3月23日 (日) 17:47時点における最新版
【さいてきていし (optimal stopping)】
概要
結合分布が既知である確率変数列 ,と実数値利得関数列 に対して, 逐次に確率変数列, , を観測し, 各段階においてを観測後に観測を停止して利得を得るか, 継続してを観測するかを決定を下す.このとき, 期待利得を最大にする(もしくは期待費用を最小化する)停止時刻を求めるのが最適停止問題である.
詳説
逐次に観測される確率変数列に基づき, 期待利得を最大化したり期待費用を最小化するためにある行動を取る時刻を選ぶ問題を最適停止問題という. 最適停止は次の2つの要素を持つ. (i) 結合分布が既知である確率変数列: , (ii) 実数値利得関数列: . 逐次に確率変数列, , を観測し, 最初の段階においてを観測後に観測を停止して利得を得るか, 継続してを観測するかの決定を下す. 全く観測しないならば, 決して停止しないならばの利得を得る.このとき, 利得を最大にするタイミングである停止時刻を求めるのが最適停止問題である.要素の(ii)は, としたとき, (ii') 結合分布が既知である利得を表す確率変数列: としてもよい. このとき, を最大にする停止時刻を求めるのが最適停止問題であるとも記述できる. を利得ではなく何らかの費用や損失と解釈すると, 費用ないし損失を最小にする停止規則(時刻)を求める問題となる.
より一般的には, 最適停止問題は次の様に記述されている. 確率空間 が与えられ, をによって生成される の部分 集合, を によって生成される 集合とし, とする. (i)(ii) にかわり(i') 増加部分集合列:, (ii") 結合分布が既知な利得を表す確率変数列: ,とし, は-可測, とする. である非負整数値確率変数を停止規則と定義する. (この定義は, いつ停止するかの決定は今までの観測のみに基づき, 将来の観測には基づかないと解釈するとわかりやすい.) このとき を最大にする停止規則を求めるのが最適停止問題である. 一般に全ての最適停止問題を解くことは難しいが, 有限期間問題と単調問題(monotone problem)は解くことができる. 確率変数列 を観測後に必ず停止しなければならないとき, 有限期間問題と呼ぶ.有限期間問題は基本的に後向きの帰納法 (backward induction) によって解かれる. 期では停止しなければならないので, をと定義する. 期では, ここで停止したときの利得 と, 継続して期で停止したときの期待利得 を比較すれば, 期で停止すべきか継続すべきかが判明する. を次のように定義する. 同様に と後ろ向きにを定義し,
とする. このように定義された は, , を観測して期から始めたときの最大期待利得を表し, 上式は最適方程式と呼ばれる. これは動的計画の最適性の原理によって得られる関数再帰方程式に他ならず, DP(ダイナミックプログラミング)方程式とも呼ばれる. 期においては, 停止して得られる利得が期より継続して得られる最大期待利得より良ければ停止し, 逆ならば継続するのが良い. それゆえに, 有限期間問題の最適停止規則は, 初めてとなるで停止することである. 有限期間問題の最大期待利得は, となる.
最適停止問題において, 事象, が (almost surely) を満たしているとき単調問題とよぶ. 単調問題では, ある条件の下で([1]参照) OLA (one-stage look-ahead) 停止規則が最適停止規則となる. OLA 停止規則とは, もう1期だけ継続してから停止するよりも, 今停止するほうがよいときに停止することを要求する規則である.
独自のクラスを形成してきたといえる確率最大化最適停止問題に秘書問題がある. 秘書問題は結婚問題とも呼ばれ, 最も基本となる古典的秘書問題は次のように記述される. 1人の秘書を雇いたい. 面接した応募者には同ランクはなくランク付けが可能とする. 1人ずつ面接する毎に, 今までに面接した応募者の相対ランクに基づき採用するか否かを決めなければならず, 一度不採用にした応募者を採用することはできない. 人の応募者があり, 人の面接の順列の一つが実現する確率がのとき, 人中のベストランクを得る確率を最大にする最適停止規則を求めたい. 最適停止規則は, 番目までの応募者は全て採用を見送り, それ以降に最初に面接する相対的ベストの応募者を採用しなさい, となり, ここで, によりは与えられる. のとき, となる. 大まかに言うと, が十分大きいとき, 36.8%まではパスしてそれ以 降に到着する相対的ベストの応募者を採用するのが最適である.
参考文献
[1] Y. S. Chow, H. Robbins and D. Siegmund, Great Expectations: The Theory of Optimal Stopping, Houghton Mifflin Company, Boston, 1971.
[2] T. S. Ferguson, "Who Solved the Secretary Problem?," Statistical Science, 4 (1989), 282-289.
[3] A. N. Shiryaev, Optimal Stopping Rules, Springer-Verlag, New York, 1978.
[4] J. L. Snell, ""Applications of Martingale System Theorems," Trans. Amer. Math. Soc., 73 (1952), 293-312.
[5] S. M. Ross, Applied Probability Models with Optimization Applications, Holden - Day, San Francisco, 1970.