贡献者: 叶月2_; addis; Giacomo; int256
若已知矩阵 $ \boldsymbol{\mathbf{A}} $,我们把线性方程组
\begin{equation}
\boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} = \lambda \boldsymbol{\mathbf{v}} ~.
\end{equation}
称为矩阵 $ \boldsymbol{\mathbf{A}} $ 的
本征方程(eigen equation)。式中 $ \boldsymbol{\mathbf{A}} $ 是已知的,而 $\lambda$ 和 $ \boldsymbol{\mathbf{v}} $ 是未知的。显然,当 $ \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} $ 时方程恒成立,所以我们通常只对非零解感兴趣。也就是说,我们希望找到一些
非零向量 $ \boldsymbol{\mathbf{v}} $,使得矩阵 $ \boldsymbol{\mathbf{A}} $ 乘以该向量以后方向不变
1。对于每个这样的向量,我们用一个标量 $\lambda$ 来描述其模长的改变。我们把这些向量叫做
本征矢(eigen vector),把对应的 $\lambda$ 叫做
本征值(eigen value)。一些教材也翻译成
特征矢和
特征值。小时百科中,eigen 译作 “本征”,而 characteristic 译作 “特征”。
几何意义
几何上来讲,实数矩阵对应的线性变换相当于把坐标网格做旋转、拉伸、翻折等操作。所以一般而言,一个非零向量在变换后长度和方向都会改变。但也可能存在一些特殊的非零向量,使得变换后只可能改变长度而不改变方向。这些向量就是本征方程的解。注意这种几何理解仅适用于实数矩阵以及实数本征值和本征矢的解。
1. 求解本征方程
若令 $ \boldsymbol{\mathbf{I}} $ 为 $N\times N$ 的单位矩阵2,则本征方程式 1 移项后得到一个齐次线性方程组
\begin{equation}
( \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} ) \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} ~.
\end{equation}
括号中的矩阵相当于把矩阵 $ \boldsymbol{\mathbf{A}} $ 的对角线上的元都减去 $\lambda$ 得到的方阵。要确保方程有非零解,只需令系数矩阵 $ \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} $ 不是满
秩的,即行列式为零
\begin{equation}
\left\lvert \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} \right\rvert = 0~.
\end{equation}
这是一个关于 $\lambda$ 的 $N$ 阶多项式,称为
特征多项式(characteristic polynomial)。并不是所有矩阵都有本征向量和相应本征值,比如非特殊角的旋转变换并不能把任意向量旋转到与原向量平行。但是根据代数学基本定理,复数域上的特征多项式(一元 n 次方程)必有 n 个根(重根的重数包括在内),即有 $n$ 个本征值。对于 $n$ 阶矩阵 $ \boldsymbol{\mathbf{A}} $,如果 $\lambda$ 为特征方程的单根,称 $\lambda$ 为 $ \boldsymbol{\mathbf{A}} $ 的
单本征值;如果 $\lambda$ 是 $k$ 重根,称之为 $ \boldsymbol{\mathbf{A}} $ 的
$k$ 重本征值,并称 $k$ 为 $\lambda$ 的代数重数。
把本征值记为 $\lambda_i$($i = 1, 2\dots N$)。将它们依次代入式 2 ,就可以分别解出对应的本征矢。通常把式 2 的解空间称为矩阵 $ \boldsymbol{\mathbf{A}} $ 对应于本征值 $\lambda$ 的本征子空间,记为 $V_{\lambda}$,称该子空间的维数为几何重数,即线性无关的本征向量。根据方程的线性可知,本征子空间的任意向量都是本征矢。
在物理上,如果本征子空间维度是 $1$,我们称相应的本征值是非简并(non-degenerate)的,若几何重数 $n_i$ 大于 1,则称 $\lambda_i$ 是 $n_i$ 重简并(degenerate)的,把 几何重数 $n_i$ 叫做简并数(degeneracy)。
可以证明,任意本征值的几何重数不大于代数重数。
例 1 二维矩阵的本征方程
给出任意二维实数矩阵
\begin{equation}
\boldsymbol{\mathbf{A}} = \begin{pmatrix}a & b \\ c & d\end{pmatrix} ~.
\end{equation}
要求它的本征值和本征矢,其特征多项式(
式 3 )为
\begin{equation}
\begin{vmatrix}a-\lambda & b \\ c & d-\lambda\end{vmatrix} = (\lambda-a)(\lambda-d) - bc = 0~.
\end{equation}
解二次方程得两个本征值为
\begin{equation}
\lambda_\pm = \frac{(a + d) \pm \sqrt{(a-d)^2 + 4bc}}{2}~.
\end{equation}
复数域中必定存在两个根,包括重根。若要求本征值为实数,则需要另判别式(根号中的式子)大于零,否则本征方程无解。
本征矢为
\begin{equation}
\boldsymbol{\mathbf{v}} _\pm = C \begin{pmatrix}b\\ \lambda_\pm - a\end{pmatrix} = C \begin{pmatrix}\lambda_\pm - d\\ c\end{pmatrix} ~,
\end{equation}
其中 $C$ 是任意非零常数。若两本征值相同,则只存在一个一维的本征矢空间,即一条直线。
下面列举与本征值相关的常用结论。
定理 1
设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的本征值,分别对应本征向量 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$。则 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性无关。
证明:
用数学归纳法证明。
$m=1$ 显然成立。设 $i=m-1$ 成立,需要证明 $i=m$ 成立。用反证法,假设 $i=m$ 时,$ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性相关,设有若干不全部为 0 的系数使得:
\begin{equation}
\boldsymbol{\mathbf{x}} _m=a^1 \boldsymbol{\mathbf{x}} _1+a^2 \boldsymbol{\mathbf{x}} _2+...a^{m-1} \boldsymbol{\mathbf{x}} _{m-1}~,
\end{equation}
则有:
\begin{equation}
A \boldsymbol{\mathbf{x}} _m=a^1\lambda_1 \boldsymbol{\mathbf{x}} _1+a^2\lambda_2 \boldsymbol{\mathbf{x}} _2+...a^{m-1}\lambda \boldsymbol{\mathbf{x}} _{m-1}=\lambda_m \boldsymbol{\mathbf{x}} _m~.
\end{equation}
由于
式 8 中的 $a^i(i=1,2...m-1)$ 不全为 0。所以至少有部分本征值满足 $\lambda_i=\lambda_m$,这与题设矛盾,因而定理成立。
上述定理可以推广为几何重数大于 $1$ 的情况,即:
推论 1
设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的本征值,分别对应本征向量组 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$,$i$ 的最大值取遍几何重数。则 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$ 线性无关。
证明思路一致。
定理 2
设 $\lambda$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的一个本征值,$ \boldsymbol{\mathbf{x}} $ 是对应的本征向量。则有:
- 当 $ \boldsymbol{\mathbf{A}} $ 可逆时,$\frac{1}{\lambda }$ 是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的本征值;
- 当 $ \boldsymbol{\mathbf{A}} $ 可逆时,$\frac{|A|}{\lambda }$ 是伴随矩阵 $ \boldsymbol{\mathbf{A}} ^{*}$ 的本征值;
- $f(x)$ 是 $x$ 的一元多项式,则 $f(\lambda)$ 是 $f( \boldsymbol{\mathbf{A}} )$ 的一个本征值,并且 $ \boldsymbol{\mathbf{x}} $ 依然是矩阵 $ \boldsymbol{\mathbf{A}} ^{-1}, \boldsymbol{\mathbf{A}} ^{*},f( \boldsymbol{\mathbf{A}} )$ 的分别对应于本征值 $\frac{1}{\lambda},\frac{| \boldsymbol{\mathbf{A}} |}{\lambda},f(\lambda)$ 的本征向量。
Proof.
现证第一点。由于 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{x}} =\lambda \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{x}} $,因此 $ \boldsymbol{\mathbf{x}} $ 依然是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的本征向量,且本征值为 $\lambda^{-1} $。从线性变换的角度上看,$ \boldsymbol{\mathbf{A}} $ 使得 $ \boldsymbol{\mathbf{x}} $“伸长” 为原来的 $\lambda$ 倍,其逆操作必定是缩小为原来的 $\lambda^{-1}$,才能保证本征向量不变。
第二点易证,留作习题。下证第三点,为证明方便,使用爱因斯坦求和约定。
设 $f(x)=a_nx^n$,则 $f( \boldsymbol{\mathbf{A}} )=a_i \boldsymbol{\mathbf{A}} ^i,f(\lambda)=a_n\lambda ^n$。显然我们有 $f( \boldsymbol{\mathbf{A}} ) \boldsymbol{\mathbf{x}} =a_i \boldsymbol{\mathbf{A}} ^i \boldsymbol{\mathbf{x}} =a_i\lambda^i \boldsymbol{\mathbf{x}} =f(\lambda) \boldsymbol{\mathbf{x}} $,得证。
2. 对角化与相似变换
求解矩阵的本征方程的过程有时候也叫做矩阵的对角化(diagonalization),因为方阵可对角化的充要条件是 $A$ 有 $n$ 个线性无关的本征向量。
定理 3
$n$ 阶方阵 $A$ 可对角化的充要条件是 $A$ 有 $n$ 个线性无关的本征向量。
Proof.
设 $Q=( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2...
\boldsymbol{\mathbf{x}} _n)$ 是实现该相似变换的过渡矩阵,相似变换为:
\begin{equation}
\begin{aligned}
AQ&=QB\\
A( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2...
\boldsymbol{\mathbf{x}} _n)&=Q \operatorname {diag}(\lambda_1,\lambda_2...\lambda_n)\\
(A \boldsymbol{\mathbf{x}} _1,A \boldsymbol{\mathbf{x}} _2...
A \boldsymbol{\mathbf{x}} _n)&=(\lambda_1 \boldsymbol{\mathbf{x}} _1,\lambda_2 \boldsymbol{\mathbf{x}} _2...\lambda_n \boldsymbol{\mathbf{x}} _n)\\
\end{aligned}~.
\end{equation}
必要性的证明同理。
因此,过渡矩阵的每一列都是 $A$ 的本征向量。由于过渡矩阵可逆,因而这 $n$ 个本征向量线性无关。
如果能找到使 $ \boldsymbol{\mathbf{A}} $ 为对角矩阵的 $ \boldsymbol{\mathbf{Q}} $ 就相当于解出了本征方程式 1 ,这就是 “对角化” 名字的由来。
3. 相似不变量
相似变换不改变矩阵的本征值和本征向量,因为这仅仅是改变线性映射和向量的 “表示”,$f( \boldsymbol{\mathbf{x}} )=\lambda \boldsymbol{\mathbf{x}} $ 这个关系是不随基的改变而改变的。当然,你也可以利用相似变换后矩阵和向量坐标关系的变化来证明这一点。由此我们可以进一步总结基本的相似不变量:矩阵的秩、行列式、本征值。
实际上,矩阵的迹也是相似不变量。设过渡矩阵为 $S$,则有 $ \operatorname {Tr}(S^{-1}AS)= \operatorname {Tr}(SS^{-1}A)= \operatorname {Tr}A$。
习题 1
用其他方式证明迹是相似不变量。(提示:用指标表示法。)
实际上,还有两个常见的相似不变量,可以让我们明晰矩阵元和本征值的关系。
定理 4
设 $n$ 阶方阵 $ \boldsymbol{\mathbf{A}} =(a^i_j)$ 的 $n$ 个本征值为 $\lambda_1,\lambda_2,...\lambda_n$,则
- $\prod\limits^n_{i=1}\lambda_i=| \boldsymbol{\mathbf{A}} |$
- $\lambda_1+\lambda_2+...\lambda_n= \operatorname {Tr}A =a^1_1+a^2_2+...a^n_n$
Proof.
关键是展开矩阵的特征多项式。
\begin{equation}
\begin{aligned}
|\lambda \boldsymbol{I}-\boldsymbol{A}| & =\left|\begin{array}{cccc}
\lambda-a^1_{1} & -a^1_{2} & \cdots & -a^1_{n} \\
-a^2_{1} & \lambda-a^2_{2} & \cdots & -a^2_{ n} \\
\vdots & \vdots & & \vdots \\
-a^n_{ 1} & -a^n_{ 2} & \cdots & \lambda-a^n_{ n}
\end{array}\right| \\
&=a_i\lambda^i\\
& =(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_n)=0~.
\end{aligned}
\end{equation}
在第二种展开方式里,$\prod\limits^n_{i=1}\lambda_i$ 的系数为 $(-1)^n$,因此我们只需要在第一种展开方式里找不含有 $\lambda$ 的项即可。首先想到的是对角元连乘,里面有一项 $(-1)^{n}\prod \limits^n_{i=1}a^i_i$。在其他的展开项里,总含有 $\prod \limits^k_{i=1}(\lambda-a^i_i)$,其中 $k\le n-2$。可以进一步展开多项式,选取不含有 $\lambda$ 的项。由于保留了矩阵元前的系数 $-1$,所以最终得到的是 $(-1)^n | \boldsymbol{\mathbf{A}} |$,第一点得证。
现在证明第二点。同样的,在第二种展开方式里我们可以看到这一项实际上是 $(\lambda)^{n-1}(\lambda_1+\lambda_2...+\lambda_n)$。由于除了对角元连乘以外的项里连乘数目 $k\le n-2$,因此这一项只在对角元连乘项里,展开这一项便可得证。
推论 2
设 $ \boldsymbol{\mathbf{A}} $ 是 $n$ 阶矩阵,则 $| \boldsymbol{\mathbf{A}} |=0$ 的充要条件是数 $0$ 为矩阵 $ \boldsymbol{\mathbf{A}} $ 的本征值。
关于本征值还有一个常用结论:本征值的几何重数小于或等于对应的代数重数,这里不做证明。
习题 2
- 证明三角矩阵(上三角或下三角)的对角元为本征值。
- 证明严格上三角矩阵为幂零矩阵,即矩阵自乘若干次后为零矩阵。提示:用 Hamilton-Cayley 定理。
1. ^ “方向” 只是从几何向量中沿用过来的一个习惯说法,注意式 1 中的所有量都可以是复数。两个向量方向相同意味着一个向量乘以标量(包括复数)可以得到另一个。
2. ^ 即对角线上的元为 1,其他元为 0,见 “矩阵”