《回帰分析》
【かいきぶんせき (regression analysis) 】
分析の対象に対して, 複数の間隔尺度変数についての値(長さ, 時間などのいわゆる計量値)が得られているとする. 変数は, 一つの目的変数といくつかの説明変数に分かれていて, 目的変数とできるだけ近い値をとる説明変数の関数を求めるのを回帰分析という. 説明変数が一つである場合を単回帰分析, 二つ以上である場合を重回帰分析という.
[回帰式]
説明変数の関数を回帰式という. 説明変数を$,目的変数を$$とする. 回帰式には, 通常, 次のような線形式が用いられる.
y=b_0+b_1x_1+b_2x_2+\cdots+b_mx_m
$を回帰係数といい, これを求めるのが目的である. なお, ここでの線形式は, 値を求める係数$$に関して線形であることを示している. したがって, 説明変数の間には, たとえば, $$のように, 線形以外の関係があってもよい. 非線形回帰式 [4] が用いられることもあるが, ここでは, 線形回帰式に限ることにする.
[残差]
分析の対象の数を$$とし, $$番目 () の対象の$$, $$の値, いわゆるデータを$$, $$とする. 変数$$に$$番目の対象の値$$を代入したときの回帰式の値を$$, すなわち,
\eta_k=b_0+b_1x_{1k}+b_2x_{2k}+\cdots+b_mx_{mk}
とすると,
e_k=y_k-\eta_k
を残差または回帰からの偏差という.
[最適な回帰式]
回帰式の評価は, 残差の関数を用いて行われる. 代表的な評価関数を以下に挙げる. (1) 残差平方和(偏差平方和)
\mbox{SSD}=\sum_{k=1}^{n}\eta_k^2
(2) 絶対偏差の和
\mbox{SAD}=\sum_{k=1}^{n}|\eta_k|
(3) 絶対偏差の最大値
\mbox{MAD}=\max\{|\eta_1|, |\eta_2|, \cdots, |\eta_n|\}
いずれの評価関数も, 小さい方がよいので, 最小にする回帰式を最適とする.
[最適な回帰式の求め方]
SSDを最小にする回帰式(回帰係数)を求めるのを最小二乗法という. SSDは, $に関する 凸二次関数であるから, これらで偏微分した式を0とおいて得られる連立一次方程式を解けばよい. この連立一次方程式を正規方程式という.
線形式の絶対値の和を最小にすることも, 線形式の絶対値の最大値を最小にする ことも, 線形計画問題に変形できることにより, SADを最小にする回帰式も, MAD を最小にする回帰式も, 線形計画問題を解くことによって得られる [2]. とくに, 一対比較の結果によるデータである場合は, ネットワーク計画問題に変形できる[3].
[推測統計における回帰分析]
回帰分析は, 狭い意味では, 推測統計における解析法である. 説明変数$$が確率変数$$の実現値であって, $$の期待値$$が次のように説明変数の関数で表されるとする.
E[Y]=\beta_0+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_m x_m
このとき, 回帰係数を求めることは, 未知定数$を推定することに当たる. $$に対応する確率変数を$$とする, すなわち, $$が確率変数$$の実現値と考えられるとき, $$の分布について, 分散が一定などの前提条件をおくと, 最小二乗法は, 望ましい推定法であることが証明されている [1].
参考文献
[1] C. R. Rao, Linear Statistical Inference and Its Applications, John Wiley & Sons, 1973.
[2] T. S. Arthanari and Y. Dodge, Mathematical Programming in Statistics, John Wiley & Sons, 1981.
[3] 古林隆, 佐藤俊之, 鈴木政志, 「一対比較データのネットワーク計画法的解析」, 『日本オペレーションズ・リサーチ学会1991年度春季研究発表会アブストラクト集』, 112-113, 1991.
[4] N. R. Draper and H. Smith, Applied Regression Analysis, John Wiley & Sons, 1966.