Loading [MathJax]/jax/output/HTML-CSS/jax.js

线性代数 Cheat Sheet 6-6:线性模型中的应用

  将 Ax=b 写成 Xβ=y,其中 X 称为设计矩阵β参数向量y观测向量

1. 最小二乘直线

  变量 x 和变量 y 之间最简单的关系是线性方程 y=β0+β1x。从实验数据常常能得到数据点 (x1,y1),,(xn,yn),它们的图形近似接近于直线。我们希望确定参数 β0β1,使得直线尽可能“接近”这些点。

  假设 β0β1 固定,对于直线 y=β0+β1x,对应每一个数据点 (xj,yj),有一个在直线上的点 (xj,β0+β1xj) 具有同样的 x 坐标。称 yiy观测值,而 β0+β1xjy预测值(由直线确定)。观测值 yi 和预测值 y 之间的差称为余差

  有多种方法可以用来度量直线如何“接近”数据,最常见的选择是余差平方之和(主要原因是数字计算简单)。最小二乘直线 y=β0+β1x 是与差平方之和最小的,这条直线也称为 yx 的回归直线,这是因为假设数据中的任何误差只出现在 y 坐标。直线的系数 β0,β1 称为(线性)回归系数

  如果数据点在直线上,则参数 β0β1 满足方程

β0+β1x1=y1β0+β1x2=y2β0+β1xn=yn

可以将这个方程组写成

Xβ=y

其中

X=[1x11x21xn],β=[β0β1],y=[y1y2yn]

  在计算最小二乘直线之前,经常计算原来 x 值的平均值 ˉx,形成一个新的变量 x=xˉx。新的 x 数据称为平均偏差形式。在这种情况下,设计矩阵的两列是正交的。

2. 一般线性模型

  在一些应用中,需将数据点拟合成非直线的形式。统计学家常引入余差向量 ε,定义为 ε=yXβ,记作

y=Xβ+ε

任何具有这种形式的方程称为线性模型。一旦确定 Xy,使 ε 长度达到最小化相当于找出 Xβ=y 的最小二乘解。在每种情形下,最小二乘解 ˆβ 是下面法方程的解:

XTXβ=XTy

3. 其他曲线的最小二乘拟合

  当“分散画出”的数据点 (x1,y1),,(xn,yn) 不接近任何直线时,一个合适的假定是 xy 具有其他函数关系。如一般形式的曲线:

y=β0f0(x)+β1f1(x)++βkfk(x)

其中 f0,,fk 是已知函数,β0,,βk 是待定参数。对于特定的 x 值,(2) 式给出 y 的预测或“拟合”值。观测值与预测值之间的差为余差,参数 β0,,βk 的确定满足余差平方之和最小。

  例如用下列形式的方程逼近数据:

y=β0+β1x+β2x2

方程 (3) 给出产生数据的“最小二乘拟合”的线性模型。若实际的参数值为 β0,β1,β2,那么第一个数据的坐标 (x1,y1) 满足

y1=β0+β1x1+β2x21+ε1

其中 ε1 是观测值 y1 和预测值 y=β0+β1x1+β2x21 之间的的余差。对每一个数据点,可以写出类似的方程:

y1=β0+β1x1+β2x21+ε1y2=β0+β1x2+β2x22+ε2yn=β0+β1xn+β2x2n+εn

可将上述方程组简单描述为 y=Xβ+ε 的形式,即

[y1y2yn]=[1x1x211x2x221xnx2n][β0β1β2]+[ε1ε2εn]

通过检查方程组的前面几行和观察数据形状,可以求出 X

4. 多重回归

  假若一个实验包含两个独立变量(例如 uv)和一个相关变量(例如 y)。一个简单的通过 uv 来预测 y 的方程有如下形式:

y=β0+β1u+β2v

更一般的预测方程具有下面的形式:

y=β0+β1u+β2v+β3u2+β4uv+β5v2

这种情形的最小二乘拟合称为趋势曲面

  方程 (4)(5) 都可以推出一个线性模型,因为它们是未知参数的线性关系(尽管 uv 是乘法)。一般地,一个线性模型是指 y 可由下面方程来预测:

y=β0f0(u,v)+β1f1(u,v)++βkfk(u,v)

其中,f0,,fk 是某类已知函数,β0,,βk 是未知权。

  假设模型由数据 (u1,v1,y1),,(un,vn,yn) 来构造,基于方程 (4) 的最小二乘拟合称为最小二乘平面。我们希望数据满足下列方程:

y1=β0+β1u1+β2v1+ε1y2=β0+β1u2+β2v2+ε2yn=β0+β1un+β2vn+εn

这个方程组的矩阵形式是 y=Xβ+ε,其中

y=[y1y2yn],X=[1u1v11u2v21unvn],β=[β0β1β2],ε=[ε1ε2εn]

5. SS(R),SS(E),SS(T)

  ˆβy=Xβ 的最小二乘解,X 是设计矩阵,将

  • 回归项的平方和 Xˆβ2 记为 SS(R)
  • 误差项的平方和 yXˆβ2 记为 SS(E)
  • 坐标 y 的平方之和的“总和” y2 记为 SS(T)

SS(T)=SS(R)+SS(E)

Xˆβ2=ˆβTXTy

由以上两式,得到 SS(E) 的标准公式

SS(E)=yTyˆβTXTy