《回帰分析》

提供: ORWiki
2007年7月10日 (火) 13:45時点における122.17.2.240 (トーク)による版
ナビゲーションに移動 検索に移動

【かいきぶんせき (regression analysis) 】

 分析の対象に対して, 複数の間隔尺度変数についての値(長さ, 時間などのいわゆる計量値)が得られているとする. 変数は, 一つの目的変数といくつかの説明変数に分かれていて, 目的変数とできるだけ近い値をとる説明変数の関数を求めるのを回帰分析という. 説明変数が一つである場合を単回帰分析, 二つ以上である場合を重回帰分析という.

[回帰式]

 説明変数の関数を回帰式という. 説明変数を構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_i(i=1, 2, \cdots, m)\, } ,目的変数をとする. 回帰式には, 通常, 次のような線形式が用いられる.


構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_m x_m /, }


を回帰係数といい, これを求めるのが目的である. なお, ここでの線形式は, 値を求める係数に関して線形であることを示している. したがって, 説明変数の間には, たとえば, のように, 線形以外の関係があってもよい. 非線形回帰式 [4] が用いられることもあるが, ここでは, 線形回帰式に限ることにする.

[残差]

 分析の対象の数をとし, 番目 () の対象の構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_i\, } , の値, いわゆるデータを, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y_k\, } とする. 変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_i\, }構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle k\, } 番目の対象の値構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_{ik}\, } を代入したときの回帰式の値を, すなわち,


構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \eta_k=b_0+b_1x_{1k}+b_2x_{2k}+\cdots+b_mx_{mk} \, }


とすると,


構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle e_k=y_k-\eta_k \, }


を残差または回帰からの偏差という.

[最適な回帰式]

 回帰式の評価は, 残差の関数を用いて行われる. 代表的な評価関数を以下に挙げる.   (1) 残差平方和(偏差平方和)

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \mbox{SSD} = \sum_{k=1}^{n}\eta_k^2 \, }


(2) 絶対偏差の和

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \mbox{SAD}=\sum_{k=1}^{n}|\eta_k| \, }


(3) 絶対偏差の最大値

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \mbox{MAD}=\max\{|\eta_1|, |\eta_2|, \cdots, |\eta_n|\} \, }


いずれの評価関数も, 小さい方がよいので, 最小にする回帰式を最適とする.

[最適な回帰式の求め方]

 SSDを最小にする回帰式(回帰係数)を求めるのを最小二乗法という. SSDは, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle b_i(i=0, 1, 2, \cdots, m)\, } に関する 凸二次関数であるから, これらで偏微分した式を0とおいて得られる連立一次方程式を解けばよい. この連立一次方程式を正規方程式という.

 線形式の絶対値の和を最小にすることも, 線形式の絶対値の最大値を最小にする ことも, 線形計画問題に変形できることにより, SADを最小にする回帰式も, MAD を最小にする回帰式も, 線形計画問題を解くことによって得られる [2]. とくに, 一対比較の結果によるデータである場合は, ネットワーク計画問題に変形できる[3].

[推測統計における回帰分析]

 回帰分析は, 狭い意味では, 推測統計における解析法である. 説明変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y\, } が確率変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y\, } の実現値であって, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y\, } の期待値構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle E[Y]\, } が次のように説明変数の関数で表されるとする.


構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle E[Y]=\beta_0+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_m x_m \, }


このとき, 回帰係数を求めることは, 未知定数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \beta_i(i=0, 1, 2,\cdots, m)\, } を推定することに当たる. に対応する確率変数を構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y_k\, } とする, すなわち, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y_k\, } が確率変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y_k\, } の実現値と考えられるとき, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替(最新ブラウザーや補助ツールに推奨): サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y_k\, } の分布について, 分散が一定などの前提条件をおくと, 最小二乗法は, 望ましい推定法であることが証明されている [1].



参考文献

[1] C. R. Rao, Linear Statistical Inference and Its Applications, John Wiley & Sons, 1973.

[2] T. S. Arthanari and Y. Dodge, Mathematical Programming in Statistics, John Wiley & Sons, 1981.

[3] 古林隆, 佐藤俊之, 鈴木政志, 「一対比較データのネットワーク計画法的解析」, 『日本オペレーションズ・リサーチ学会1991年度春季研究発表会アブストラクト集』, 112-113, 1991.

[4] N. R. Draper and H. Smith, Applied Regression Analysis, John Wiley & Sons, 1966.