「《回帰分析》」の版間の差分

2007年8月7日 (火) 02:57時点における最新版

【かいきぶんせき (regression analysis) 】

　分析の対象に対して, 複数の間隔尺度変数についての値(長さ, 時間などのいわゆる計量値)が得られているとする. 変数は, 一つの目的変数といくつかの説明変数に分かれていて, 目的変数とできるだけ近い値をとる説明変数の関数を求めるのを回帰分析という. 説明変数が一つである場合を単回帰分析, 二つ以上である場合を重回帰分析という.

[回帰式]

　説明変数の関数を回帰式という. 説明変数を構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_i(i=1, 2, \cdots, m)\, } ,目的変数を構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y\, } とする. 回帰式には, 通常, 次のような線形式が用いられる.

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_m x_m \, }

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle b_i(i=0, 1, 2, \cdots, m)\, } を回帰係数といい, これを求めるのが目的である. なお, ここでの線形式は, 値を求める係数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle b_i\, } に関して線形であることを示している. したがって, 説明変数の間には, たとえば, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_2=x_1^2\, } のように, 線形以外の関係があってもよい. 非線形回帰式 [4] が用いられることもあるが, ここでは, 線形回帰式に限ることにする.

[残差]

　分析の対象の数を構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle n\, } とし, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle k\, } 番目 (構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle k=1, 2, \cdots, n\, } ) の対象の構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_i\, } , 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y\, } の値, いわゆるデータを構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_{ik}\, } , 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y_k\, } とする. 変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_i\, } に構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle k\, } 番目の対象の値構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle x_{ik}\, } を代入したときの回帰式の値を構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \eta_k\, } , すなわち,

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \eta_k=b_0+b_1x_{1k}+b_2x_{2k}+\cdots+b_mx_{mk} \, }

とすると,

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle e_k=y_k-\eta_k \, }

を残差または回帰からの偏差という.

[最適な回帰式]

　回帰式の評価は, 残差の関数を用いて行われる. 代表的な評価関数を以下に挙げる.

(1) 残差平方和(偏差平方和)

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \mbox{SSD} = \sum_{k=1}^{n}\eta_k^2 \, }

(2) 絶対偏差の和

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \mbox{SAD}=\sum_{k=1}^{n}|\eta_k| \, }

(3) 絶対偏差の最大値

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \mbox{MAD}=\max\{|\eta_1|, |\eta_2|, \cdots, |\eta_n|\} \, }

いずれの評価関数も, 小さい方がよいので, 最小にする回帰式を最適とする.

[最適な回帰式の求め方]

　SSDを最小にする回帰式(回帰係数)を求めるのを最小二乗法という. SSDは, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle b_i(i=0, 1, 2, \cdots, m)\, } に関する凸二次関数であるから, これらで偏微分した式を0とおいて得られる連立一次方程式を解けばよい. この連立一次方程式を正規方程式という.

　線形式の絶対値の和を最小にすることも, 線形式の絶対値の最大値を最小にすることも, 線形計画問題に変形できることにより, SADを最小にする回帰式も, MAD を最小にする回帰式も, 線形計画問題を解くことによって得られる [2]. とくに, 一対比較の結果によるデータである場合は, ネットワーク計画問題に変形できる[3].

[推測統計における回帰分析]

　回帰分析は, 狭い意味では, 推測統計における解析法である. 説明変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y\, } が確率変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y\, } の実現値であって, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y\, } の期待値構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle E[Y]\, } が次のように説明変数の関数で表されるとする.

構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle E[Y]=\beta_0+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_m x_m \, }

このとき, 回帰係数を求めることは, 未知定数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle \beta_i(i=0, 1, 2,\cdots, m)\, } を推定することに当たる. 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y_k\, } に対応する確率変数を構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y_k\, } とする, すなわち, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle y_k\, } が確率変数構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y_k\, } の実現値と考えられるとき, 構文解析に失敗 (MathML、ただし動作しない場合はSVGかPNGで代替（最新ブラウザーや補助ツールに推奨）: サーバー「https://en.wikipedia.org/api/rest_v1/」から無効な応答 ("Math extension cannot connect to Restbase."):): {\displaystyle Y_k\, } の分布について, 分散が一定などの前提条件をおくと, 最小二乗法は, 望ましい推定法であることが証明されている [1].

参考文献

[1] C. R. Rao, Linear Statistical Inference and Its Applications, John Wiley & Sons, 1973.

[2] T. S. Arthanari and Y. Dodge, Mathematical Programming in Statistics, John Wiley & Sons, 1981.

[3] 古林隆, 佐藤俊之, 鈴木政志, 「一対比較データのネットワーク計画法的解析」, 『日本オペレーションズ・リサーチ学会1991年度春季研究発表会アブストラクト集』, 112-113, 1991.

[4] N. R. Draper and H. Smith, Applied Regression Analysis, John Wiley & Sons, 1966. 　

@@ 5行目: / 5行目: @@
 [回帰式]
-　説明変数の関数を回帰式という. 説明変数を$<math>x_i$($i$=1, 2, $\cdots$, $m$)\, </math>,目的変数を$<math>y\, </math>$とする. 回帰式には, 通常, 次のような線形式が用いられる.
+　説明変数の関数を回帰式という. 説明変数を<math>x_i(i=1, 2, \cdots, m)\, </math>,目的変数を<math>y\, </math>とする. 回帰式には, 通常, 次のような線形式が用いられる.
-　y=b_0+b_1x_1+b_2x_2+\cdots+b_mx_m
-$<math>b_i$($i$=0, 1, 2, $\cdots$, $m$)\, </math>を回帰係数といい, これを求めるのが目的である. なお, ここでの線形式は, 値を求める係数$<math>b_i\, </math>$に関して線形であることを示している. したがって, 説明変数の間には, たとえば, $<math>x_2=x_1^2\, </math>$のように, 線形以外の関係があってもよい. 非線形回帰式 [4] が用いられることもあるが, ここでは, 線形回帰式に限ることにする.
+<center>
+<math>
+y = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_m x_m
+\, </math>
+</center>
+<math>b_i(i=0, 1, 2, \cdots, m)\, </math>を回帰係数といい, これを求めるのが目的である. なお, ここでの線形式は, 値を求める係数<math>b_i\, </math>に関して線形であることを示している. したがって, 説明変数の間には, たとえば, <math>x_2=x_1^2\, </math>のように, 線形以外の関係があってもよい. 非線形回帰式 [4] が用いられることもあるが, ここでは, 線形回帰式に限ることにする.
 [残差]
-　分析の対象の数を$<math>n\, </math>$とし, $<math>k\, </math>$番目 (<math>$k$=1, 2, $\cdots$, $n$\, </math>) の対象の$<math>x_i\, </math>$, $<math>y\, </math>$の値, いわゆるデータを$<math>x_{ik}\, </math>$, $<math>y_k\, </math>$とする. 変数$<math>x_i\, </math>$に$<math>k\, </math>$番目の対象の値$<math>x_{ik}\, </math>$を代入したときの回帰式の値を$<math>\eta_k\, </math>$, すなわち,
+　分析の対象の数を<math>n\, </math>とし, <math>k\, </math>番目 (<math>k=1, 2, \cdots, n\, </math>) の対象の<math>x_i\, </math>, <math>y\, </math>の値, いわゆるデータを<math>x_{ik}\, </math>, <math>y_k\, </math>とする. 変数<math>x_i\, </math>に<math>k\, </math>番目の対象の値<math>x_{ik}\, </math>を代入したときの回帰式の値を<math>\eta_k\, </math>, すなわち,
+<center>
+<math>
+\eta_k=b_0+b_1x_{1k}+b_2x_{2k}+\cdots+b_mx_{mk}
+\, </math>
+</center>
-　\eta_k=b_0+b_1x_{1k}+b_2x_{2k}+\cdots+b_mx_{mk}
 とすると,
-　e_k=y_k-\eta_k
+<center>
+<math>
+e_k=y_k-\eta_k
+\, </math>
+</center>
 を残差または回帰からの偏差という.
@@ 25行目: / 43行目: @@
 [最適な回帰式]
 　回帰式の評価は, 残差の関数を用いて行われる. 代表的な評価関数を以下に挙げる.
 (1) 残差平方和(偏差平方和)
-　　\mbox{SSD}=\sum_{k=1}^{n}\eta_k^2
+<center>
+<math>
+\mbox{SSD} = \sum_{k=1}^{n}\eta_k^2
+\, </math>
+</center>
 (2) 絶対偏差の和
-　　\mbox{SAD}=\sum_{k=1}^{n}|\eta_k|
+<center>
+<math>
+\mbox{SAD}=\sum_{k=1}^{n}|\eta_k|
+\, </math>
+</center>
 (3) 絶対偏差の最大値
-　　\mbox{MAD}=\max\{|\eta_1|, |\eta_2|, \cdots, |\eta_n|\}
+<center>
+<math>
+\mbox{MAD}=\max\{|\eta_1|, |\eta_2|, \cdots, |\eta_n|\}
+\, </math>
+</center>
 いずれの評価関数も, 小さい方がよいので, 最小にする回帰式を最適とする.
@@ 44行目: / 77行目: @@
 　SSDを最小にする回帰式(回帰係数)を求めるのを最小二乗法という.
-SSDは, $<math>b_i$($i$=0, 1, 2, $\cdots$, $m$)\, </math>に関する
+SSDは, <math>b_i(i=0, 1, 2, \cdots, m)\, </math>に関する
 凸二次関数であるから, これらで偏微分した式を0とおいて得られる連立一次方程式を解けばよい.
 この連立一次方程式を正規方程式という.
@@ 54行目: / 87行目: @@
 [推測統計における回帰分析]
-　回帰分析は, 狭い意味では, 推測統計における解析法である. 説明変数$<math>y\, </math>$が確率変数$<math>Y\, </math>$の実現値であって, $<math>Y\, </math>$の期待値$<math>E[Y]\, </math>$が次のように説明変数の関数で表されるとする.
+　回帰分析は, 狭い意味では, 推測統計における解析法である. 説明変数<math>y\, </math>が確率変数<math>Y\, </math>の実現値であって, <math>Y\, </math>の期待値<math>E[Y]\, </math>が次のように説明変数の関数で表されるとする.
-　E[Y]=\beta_0+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_m x_m
+<center>
+<math>
+E[Y]=\beta_0+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_m x_m
+\, </math>
+</center>
-このとき, 回帰係数を求めることは, 未知定数$<math>\beta_i$($i$=0, 1, 2,$\cdots$, $m$)\, </math>を推定することに当たる. $<math>y_k\, </math>$に対応する確率変数を$<math>Y_k\, </math>$とする, すなわち, $<math>y_k\, </math>$が確率変数$<math>Y_k\, </math>$の実現値と考えられるとき, $<math>Y_k\, </math>$の分布について, 分散が一定などの前提条件をおくと, 最小二乗法は, 望ましい推定法であることが証明されている [1].
+このとき, 回帰係数を求めることは, 未知定数<math>\beta_i(i=0, 1, 2,\cdots, m)\, </math>を推定することに当たる. <math>y_k\, </math>に対応する確率変数を<math>Y_k\, </math>とする, すなわち, <math>y_k\, </math>が確率変数<math>Y_k\, </math>の実現値と考えられるとき, <math>Y_k\, </math>の分布について, 分散が一定などの前提条件をおくと, 最小二乗法は, 望ましい推定法であることが証明されている [1].
@@ 72行目: / 111行目: @@
 [4] N. R. Draper and H. Smith, ''Applied Regression Analysis'', John Wiley & Sons, 1966.
+[[category:統計|かいきぶんせき]]

「《回帰分析》」の版間の差分

2007年8月7日 (火) 02:57時点における最新版

案内メニュー

検索