[DL Note] 线性代数:矩阵运算
1. 矩阵的和
若 $\boldsymbol A$ 和 $\boldsymbol B$ 都是 $m \times n$ 矩阵,则和 $\boldsymbol A + \boldsymbol B$ 也是 $m \times n$ 矩阵,它的各列是 $\boldsymbol A$ 与 $\boldsymbol B$ 各列之和。仅当 $\boldsymbol A$ 与 $\boldsymbol B$ 有相同的维数时,$\boldsymbol A + \boldsymbol B$ 才有定义。
例如对于 $2 \times 3$ 的矩阵 $\boldsymbol A$ 和 $\boldsymbol B$
\begin{equation}
\boldsymbol A = \begin{bmatrix}
3 & 9 & 7 \\
5 & 1 & 1
\end{bmatrix} \qquad
\boldsymbol B = \begin{bmatrix}
0 & 8 & 6 \\
7 & 0 & 9
\end{bmatrix}
\end{equation}
有
\begin{equation}
\boldsymbol A + \boldsymbol B =
\begin{bmatrix}
3 & 17 & 13 \\
12 & 1 & 10
\end{bmatrix}
\end{equation}
2. 矩阵与标量的乘法
若 $r$ 是标量,$\boldsymbol A$ 是矩阵,则标量乘法 $r \boldsymbol A$ 是一个矩阵,它的每一列是 $\boldsymbol A$ 的对应列的 $r$ 倍。与向量相同,定义 $-\boldsymbol A$ 为 $(-1)\boldsymbol A$,而 $\boldsymbol A – \boldsymbol B$ 为 $\boldsymbol A + (-1)\boldsymbol B$。例如对于上面的 $\boldsymbol A$,有
\begin{equation}
2\boldsymbol A = 2 \begin{bmatrix}
3 & 9 & 7 \\
5 & 1 & 1
\end{bmatrix} =
\begin{bmatrix}
6 & 18 & 14 \\
10 & 2 & 2
\end{bmatrix}
\end{equation}
矩阵加法和标量乘法有如下常用性质(其中 $\boldsymbol A, \boldsymbol B, \boldsymbol C$ 是相同维数的矩阵,$r$ 和 $s$ 是标量):
- $\boldsymbol A + \boldsymbol B = \boldsymbol B + \boldsymbol A$
- $(\boldsymbol A + \boldsymbol B) + \boldsymbol C = \boldsymbol A + (\boldsymbol B + \boldsymbol C)$
- $\boldsymbol A + 0 = \boldsymbol A$
- $r(\boldsymbol A + \boldsymbol B) = r\boldsymbol A + r\boldsymbol B$
- $(r + s)\boldsymbol A = r\boldsymbol A + s\boldsymbol A$
- $r(s\boldsymbol A) = (rs)\boldsymbol A$
3. 矩阵与向量的乘法
若 $\boldsymbol A$ 是 $m \times n$ 矩阵,它的各列为 $\boldsymbol a_1, \cdots, \boldsymbol a_n$。若 $\boldsymbol x$ 是 $\mathbb{R}^n$ 中的向量,则 $\boldsymbol A$ 与 $\boldsymbol x$ 的积(记为 $A \boldsymbol x$),就是 $A$ 的各列以 $\boldsymbol x$ 中对应元素为权的线性组合,即
\begin{equation}
\boldsymbol A \boldsymbol x = \begin{bmatrix}\boldsymbol a_1 & \boldsymbol a_2 & \cdots & \boldsymbol a_n \end{bmatrix}
\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} =
x_1 \boldsymbol a_1 + x_2 \boldsymbol a_2 + \cdots x_n \boldsymbol a_n \tag{1}
\end{equation}
仅当 $\boldsymbol A$ 的列数等于 $\boldsymbol x$ 中元素个数(行数)时,$\boldsymbol A \boldsymbol x$ 才有定义。
若 $\boldsymbol A$ 是 $m \times n$ 矩阵,它的各列为 $\boldsymbol a_1, \cdots, \boldsymbol a_n$,而 $\boldsymbol b$ 属于 $\mathbb{R}^n$,则矩阵方程
\begin{equation}
\boldsymbol A \boldsymbol x = \boldsymbol b \tag{2}
\end{equation}
与向量方程
\begin{equation}
x_1 \boldsymbol a_1 + x_2 \boldsymbol a_2 + \cdots + x_n \boldsymbol a_n = \boldsymbol b
\end{equation}
有相同的解集。由线性组合的概念,该矩阵方程又与增广矩阵为
\begin{equation}
\begin{bmatrix}\boldsymbol a_1 & \boldsymbol a_2 & \cdots & \boldsymbol a_n & \boldsymbol b\end{bmatrix}
\end{equation}
的线性方程组有相同的解集。
举例来说,对于方程组
\begin{align}
x_1 + 2x_2 – x_3 &= 4 \\
-5x_2 + 3x_3 &= 1
\end{align}
它等价于向量方程
\begin{equation}
x_1 \begin{bmatrix} 1 \\ 0 \end{bmatrix} + x_2 \begin{bmatrix} 2 \\ -5 \end{bmatrix} + x_3 \begin{bmatrix} -1 \\ 3 \end{bmatrix} = \begin{bmatrix} 4 \\ 1 \end{bmatrix}
\end{equation}
将方程左边的线性组合写成矩阵乘向量的形式,得到
\begin{equation}
\begin{bmatrix}
1 & 2 & -1 \\
0 & -5 & 3
\end{bmatrix}
\begin{bmatrix}
x_1 \\ x_2 \\ x_3
\end{bmatrix} =
\begin{bmatrix}
4 \\ 1
\end{bmatrix}
\end{equation}
4. 矩阵与矩阵的乘法
若 $\boldsymbol A$ 是 $m \times n$ 矩阵,$\boldsymbol B$ 是 $n \times p$ 矩阵,则矩阵 $A$ 和 $B$ 的乘积为另一个 $m \times p$ 的矩阵 $\boldsymbol C$,定义为
\begin{equation}
\boldsymbol C = \boldsymbol A \boldsymbol B \tag{3}
\end{equation}
其中
\begin{equation}
C_{i, j} = A_{i,1}B_{1,j} + A_{i,2}B_{2,j} + \cdots + A_{i,n}B_{n,j} = \sum_{k=1}^n A_{i, k}B_{k, j} \tag{4}
\end{equation}
两个相同维数的向量 $\boldsymbol x$ 和 $\boldsymbol y$ 的点积可以看做是矩阵乘积 $\boldsymbol x^\mathsf{T}\boldsymbol y$,式 $(4)$ 中 $C_{i, j}$ 可以看成是 $\boldsymbol A$ 中第 $i$ 行和 $\boldsymbol B$ 中第 $j$ 列的点积。
对矩阵乘法的另一种直观理解是,将矩阵 $\boldsymbol B$ 看成是一组列向量 $\begin{bmatrix} \boldsymbol b_1, \cdots, \boldsymbol b_p \end{bmatrix}$,则乘积 $\boldsymbol A \boldsymbol B$ 是 $m \times p$ 矩阵,它的各列是 $\boldsymbol A \boldsymbol b_1, \cdots, A \boldsymbol b_p$,即
\begin{equation}
\boldsymbol A \boldsymbol B = \boldsymbol A \begin{bmatrix} \boldsymbol b_1 & \boldsymbol b_2 & \cdots & \boldsymbol b_p\end{bmatrix} = \begin{bmatrix} A \boldsymbol b_1 & A \boldsymbol b_2 & \cdots & A \boldsymbol b_p\end{bmatrix} \tag{5}
\end{equation}
可见 $\boldsymbol A \boldsymbol B$ 的每一列都是 $\boldsymbol A$ 中各列以 $\boldsymbol B$ 的对应列的元素为权的线性组合。$\boldsymbol A \boldsymbol B$ 的行数等于 $\boldsymbol A$ 的行数,列数等于 $\boldsymbol B$ 的列数。
从线性变换的角度来看,$\boldsymbol A \boldsymbol B$ 对应了这样一种线性变换:先用矩阵 $\boldsymbol B$ 对向量 $\boldsymbol x$ 做变换,得到向量 $B \boldsymbol x$,然后再用矩阵 $A$ 对这个向量做变换,得到向量 $A(B\boldsymbol x)$。$A(B\boldsymbol x)$ 是由 $\boldsymbol x$ 经复合映射变换得来的,将此复合映射表示为乘以一个矩阵的变换,该矩阵即为 $\boldsymbol A\boldsymbol B$,即 $\boldsymbol A(\boldsymbol B \boldsymbol x) = (\boldsymbol A\boldsymbol B) \boldsymbol x$。假设 $\boldsymbol A$ 是 $m \times p$ 的矩阵,$\boldsymbol B$ 是 $p \times n$ 的矩阵,则有
\begin{equation}
\boldsymbol B \boldsymbol x = x_1 \boldsymbol b_1 +\cdots + x_p \boldsymbol b_p
\end{equation}
\begin{align}
\boldsymbol A(\boldsymbol B \boldsymbol x) &= \boldsymbol A(x_1 \boldsymbol b_1) +\cdots + \boldsymbol A(x_p \boldsymbol b_p)
= x_1 \boldsymbol A \boldsymbol b_1 + \cdots + x_p \boldsymbol A \boldsymbol b_p \\
&= \begin{bmatrix} \boldsymbol A \boldsymbol b_1 & \cdots & \boldsymbol A \boldsymbol b_p\end{bmatrix} \boldsymbol x
\end{align}
于是矩阵 $\begin{bmatrix} \boldsymbol A \boldsymbol b_1 & \cdots & \boldsymbol b_p\end{bmatrix}$ 把 $\boldsymbol x$ 变成 $\boldsymbol A(\boldsymbol B \boldsymbol x)$,这也是上面对矩阵乘法 $\boldsymbol A\boldsymbol B$ 的定义。
设 $A$ 为 $m \times n$ 矩阵,$B$ 和 $C$ 的维数使下列各式的乘积有意义,矩阵乘法有如下常用性质:
1. $\boldsymbol A(\boldsymbol B \boldsymbol C) = (\boldsymbol A \boldsymbol B) \boldsymbol C$(乘法结合律)
2. $\boldsymbol A(\boldsymbol B + \boldsymbol C) = \boldsymbol A\boldsymbol B + \boldsymbol A\boldsymbol C$(乘法左分配律)
3. $(\boldsymbol B + \boldsymbol C)\boldsymbol A = \boldsymbol B\boldsymbol A + \boldsymbol C\boldsymbol A$(乘法右分配律)
4. $r(\boldsymbol A\boldsymbol B) = (r\boldsymbol A)\boldsymbol B = \boldsymbol A(r\boldsymbol B)$,$r$ 为任意数
5. $I_m \boldsymbol A = \boldsymbol A = \boldsymbol A I_m$(矩阵乘法的恒等式)
5. 矩阵的乘幂
若 $\boldsymbol A$ 是 $n \times n$ 矩阵,$k$ 是正整数,则 $\boldsymbol A^k$ 表示 $k$ 个 $\boldsymbol A$ 的乘积。 若 $\boldsymbol A$ 不是零矩阵,且 $\boldsymbol x \in \mathbb{R}^n$,则 $\boldsymbol A^k \boldsymbol x$ 表示 $\boldsymbol x$ 被 $\boldsymbol A$ 连续左乘 $k$ 次。若 $k = 0$,则 $\boldsymbol A^0 \boldsymbol x $ 就是 $\boldsymbol x$ 本身,因此将 $\boldsymbol A^0$ 解释为单位矩阵。
6. 矩阵的转置
给定 $m \times n$ 矩阵 $\boldsymbol A$,则 $\boldsymbol A$ 的转置是一个 $n \times m$ 的矩阵,用 $\boldsymbol A^\mathsf{T}$表示,它的列是由 $\boldsymbol A$ 的对应行构成的。
矩阵转置有如下常用性质(其中 $\boldsymbol A$ 与 $\boldsymbol B$ 表示矩阵,其维数使下列和与积有定义):
- $(\boldsymbol A^\mathsf{T})^\mathsf{T} = \boldsymbol A$
- $(\boldsymbol A + \boldsymbol B)^\mathsf{T} = \boldsymbol A^\mathsf{T} + \boldsymbol B^\mathsf{T}$
- 对任意数 $r$,$(r\boldsymbol A)^\mathsf{T} = r\boldsymbol A^\mathsf{T}$
- $(\boldsymbol A\boldsymbol B)^\mathsf{T} = \boldsymbol B^\mathsf{T}\boldsymbol A^\mathsf{T}$;更一般地,若干个矩阵的乘积的转置等于它们的转置的乘积,但相乘的顺序相反。