线性代数 Cheat Sheet 6-6:线性模型中的应用
将 Ax=b 写成 Xβ=y,其中 X 称为设计矩阵,β 为参数向量,y 为观测向量。
Contents [show]
1. 最小二乘直线
变量 x 和变量 y 之间最简单的关系是线性方程 y=β0+β1x。从实验数据常常能得到数据点 (x1,y1),⋯,(xn,yn),它们的图形近似接近于直线。我们希望确定参数 β0 和 β1,使得直线尽可能“接近”这些点。
假设 β0 和 β1 固定,对于直线 y=β0+β1x,对应每一个数据点 (xj,yj),有一个在直线上的点 (xj,β0+β1xj) 具有同样的 x 坐标。称 yi 为 y 的观测值,而 β0+β1xj 为 y 的预测值(由直线确定)。观测值 yi 和预测值 y 之间的差称为余差。
有多种方法可以用来度量直线如何“接近”数据,最常见的选择是余差平方之和(主要原因是数字计算简单)。最小二乘直线 y=β0+β1x 是与差平方之和最小的,这条直线也称为 y 对 x 的回归直线,这是因为假设数据中的任何误差只出现在 y 坐标。直线的系数 β0,β1 称为(线性)回归系数。
如果数据点在直线上,则参数 β0 和 β1 满足方程
β0+β1x1=y1β0+β1x2=y2⋮β0+β1xn=yn
可以将这个方程组写成
Xβ=y
其中
X=[1x11x2⋮⋮1xn],β=[β0β1],y=[y1y2⋮yn]
在计算最小二乘直线之前,经常计算原来 x 值的平均值 ˉx,形成一个新的变量 x∗=x–ˉx。新的 x 数据称为平均偏差形式。在这种情况下,设计矩阵的两列是正交的。
2. 一般线性模型
在一些应用中,需将数据点拟合成非直线的形式。统计学家常引入余差向量 ε,定义为 ε=y–Xβ,记作
y=Xβ+ε
任何具有这种形式的方程称为线性模型。一旦确定 X 和 y,使 ε 长度达到最小化相当于找出 Xβ=y 的最小二乘解。在每种情形下,最小二乘解 ˆβ 是下面法方程的解:
XTXβ=XTy
3. 其他曲线的最小二乘拟合
当“分散画出”的数据点 ∗(x1,y1),⋯,(xn,yn) 不接近任何直线时,一个合适的假定是 x 和 y 具有其他函数关系。如一般形式的曲线:
y=β0f0(x)+β1f1(x)+⋯+βkfk(x)
其中 f0,⋯,fk 是已知函数,β0,⋯,βk 是待定参数。对于特定的 x 值,(2) 式给出 y 的预测或“拟合”值。观测值与预测值之间的差为余差,参数 β0,⋯,βk 的确定满足余差平方之和最小。
例如用下列形式的方程逼近数据:
y=β0+β1x+β2x2
方程 (3) 给出产生数据的“最小二乘拟合”的线性模型。若实际的参数值为 β0,β1,β2,那么第一个数据的坐标 (x1,y1) 满足
y1=β0+β1x1+β2x21+ε1
其中 ε1 是观测值 y1 和预测值 y=β0+β1x1+β2x21 之间的的余差。对每一个数据点,可以写出类似的方程:
y1=β0+β1x1+β2x21+ε1y2=β0+β1x2+β2x22+ε2⋮yn=β0+β1xn+β2x2n+εn
可将上述方程组简单描述为 y=Xβ+ε 的形式,即
[y1y2⋮yn]=[1x1x211x2x22⋮⋮⋮1xnx2n][β0β1β2]+[ε1ε2⋮εn]
通过检查方程组的前面几行和观察数据形状,可以求出 X。
4. 多重回归
假若一个实验包含两个独立变量(例如 u 和 v)和一个相关变量(例如 y)。一个简单的通过 u 和 v 来预测 y 的方程有如下形式:
y=β0+β1u+β2v
更一般的预测方程具有下面的形式:
y=β0+β1u+β2v+β3u2+β4uv+β5v2
这种情形的最小二乘拟合称为趋势曲面。
方程 (4) 和 (5) 都可以推出一个线性模型,因为它们是未知参数的线性关系(尽管 u 和 v 是乘法)。一般地,一个线性模型是指 y 可由下面方程来预测:
y=β0f0(u,v)+β1f1(u,v)+⋯+βkfk(u,v)
其中,f0,⋯,fk 是某类已知函数,β0,⋯,βk 是未知权。
假设模型由数据 (u1,v1,y1),⋯,(un,vn,yn) 来构造,基于方程 (4) 的最小二乘拟合称为最小二乘平面。我们希望数据满足下列方程:
y1=β0+β1u1+β2v1+ε1y2=β0+β1u2+β2v2+ε2⋮yn=β0+β1un+β2vn+εn
这个方程组的矩阵形式是 y=Xβ+ε,其中
y=[y1y2⋮yn],X=[1u1v11u2v2⋮⋮⋮1unvn],β=[β0β1β2],ε=[ε1ε2⋮εn]
5. SS(R),SS(E),SS(T)
ˆβ 是 y=Xβ 的最小二乘解,X 是设计矩阵,将
- 回归项的平方和 ‖Xˆβ‖2 记为 SS(R)
- 误差项的平方和 y–‖Xˆβ‖2 记为 SS(E)
- 坐标 y 的平方之和的“总和” ‖y‖2 记为 SS(T)
有
SS(T)=SS(R)+SS(E)
‖Xˆβ‖2=ˆβTXTy
由以上两式,得到 SS(E) 的标准公式
SS(E)=yTy–ˆβTXTy