矩阵的本征问题

贡献者：叶月2_; addis; Giacomo; int256

预备知识　线性方程组与向量空间，矩阵的本征值，不变子空间

　　若已知矩阵 $ \boldsymbol{\mathbf{A}} $，我们把线性方程组

\begin{equation} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} = \lambda \boldsymbol{\mathbf{v}} ~. \end{equation}

称为矩阵 $ \boldsymbol{\mathbf{A}} $ 的本征方程（eigen equation）。式中 $ \boldsymbol{\mathbf{A}} $ 是已知的，而 $\lambda$ 和 $ \boldsymbol{\mathbf{v}} $ 是未知的。显然，当 $ \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} $ 时方程恒成立，所以我们通常只对非零解感兴趣。也就是说，我们希望找到一些非零向量 $ \boldsymbol{\mathbf{v}} $，使得矩阵 $ \boldsymbol{\mathbf{A}} $ 乘以该向量以后方向不变¹。对于每个这样的向量，我们用一个标量 $\lambda$ 来描述其模长的改变。我们把这些向量叫做本征矢（eigen vector），把对应的 $\lambda$ 叫做本征值（eigen value）。一些教材也翻译成特征矢和特征值。小时百科中，eigen 译作 “本征”，而 characteristic 译作 “特征”。

几何意义

　　几何上来讲，实数矩阵对应的线性变换相当于把坐标网格做旋转、拉伸、翻折等操作。所以一般而言，一个非零向量在变换后长度和方向都会改变。但也可能存在一些特殊的非零向量，使得变换后只可能改变长度而不改变方向。这些向量就是本征方程的解。注意这种几何理解仅适用于实数矩阵以及实数本征值和本征矢的解。

1. 求解本征方程

　　若令 $ \boldsymbol{\mathbf{I}} $ 为 $N\times N$ 的单位矩阵²，则本征方程式 1 移项后得到一个齐次线性方程组

\begin{equation} ( \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} ) \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} ~. \end{equation}

括号中的矩阵相当于把矩阵 $ \boldsymbol{\mathbf{A}} $ 的对角线上的元都减去 $\lambda$ 得到的方阵。要确保方程有非零解，只需令系数矩阵 $ \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} $ 不是满秩的，即行列式为零

\begin{equation} \left\lvert \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} \right\rvert = 0~. \end{equation}

这是一个关于 $\lambda$ 的 $N$ 阶多项式，称为特征多项式（characteristic polynomial）。并不是所有矩阵都有本征向量和相应本征值，比如非特殊角的旋转变换并不能把任意向量旋转到与原向量平行。但是根据代数学基本定理，复数域上的特征多项式（一元 n 次方程）必有 n 个根（重根的重数包括在内），即有 $n$ 个本征值。对于 $n$ 阶矩阵 $ \boldsymbol{\mathbf{A}} $，如果 $\lambda$ 为特征方程的单根，称 $\lambda$ 为 $ \boldsymbol{\mathbf{A}} $ 的单本征值；如果 $\lambda$ 是 $k$ 重根，称之为 $ \boldsymbol{\mathbf{A}} $ 的$k$ 重本征值，并称 $k$ 为 $\lambda$ 的代数重数。

　　把本征值记为 $\lambda_i$（$i = 1, 2\dots N$）。将它们依次代入式 2 ，就可以分别解出对应的本征矢。通常把式 2 的解空间称为矩阵 $ \boldsymbol{\mathbf{A}} $ 对应于本征值 $\lambda$ 的本征子空间，记为 $V_{\lambda}$，称该子空间的维数为几何重数，即线性无关的本征向量。根据方程的线性可知，本征子空间的任意向量都是本征矢。

　　在物理上，如果本征子空间维度是 $1$，我们称相应的本征值是非简并（non-degenerate）的，若几何重数 $n_i$ 大于 1，则称 $\lambda_i$ 是 $n_i$ 重简并（degenerate）的，把几何重数 $n_i$ 叫做简并数（degeneracy）。可以证明，任意本征值的几何重数不大于代数重数。

例 1　二维矩阵的本征方程

　　给出任意二维实数矩阵

\begin{equation} \boldsymbol{\mathbf{A}} = \begin{pmatrix}a & b \\ c & d\end{pmatrix} ~. \end{equation}

要求它的本征值和本征矢，其特征多项式（式 3 ）为

\begin{equation} \begin{vmatrix}a-\lambda & b \\ c & d-\lambda\end{vmatrix} = (\lambda-a)(\lambda-d) - bc = 0~. \end{equation}

解二次方程得两个本征值为

\begin{equation} \lambda_\pm = \frac{(a + d) \pm \sqrt{(a-d)^2 + 4bc}}{2}~. \end{equation}

复数域中必定存在两个根，包括重根。若要求本征值为实数，则需要另判别式（根号中的式子）大于零，否则本征方程无解。

　　本征矢为

\begin{equation} \boldsymbol{\mathbf{v}} _\pm = C \begin{pmatrix}b\\ \lambda_\pm - a\end{pmatrix} = C \begin{pmatrix}\lambda_\pm - d\\ c\end{pmatrix} ~, \end{equation}

其中 $C$ 是任意非零常数。若两本征值相同，则只存在一个一维的本征矢空间，即一条直线。

　　下面列举与本征值相关的常用结论。

定理 1　

　　设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的本征值，分别对应本征向量 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$。则 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性无关。

　　证明：用数学归纳法证明。 $m=1$ 显然成立。设 $i=m-1$ 成立，需要证明 $i=m$ 成立。用反证法，假设 $i=m$ 时，$ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性相关，设有若干不全部为 0 的系数使得：

\begin{equation} \boldsymbol{\mathbf{x}} _m=a^1 \boldsymbol{\mathbf{x}} _1+a^2 \boldsymbol{\mathbf{x}} _2+...a^{m-1} \boldsymbol{\mathbf{x}} _{m-1}~, \end{equation}

则有：

\begin{equation} A \boldsymbol{\mathbf{x}} _m=a^1\lambda_1 \boldsymbol{\mathbf{x}} _1+a^2\lambda_2 \boldsymbol{\mathbf{x}} _2+...a^{m-1}\lambda \boldsymbol{\mathbf{x}} _{m-1}=\lambda_m \boldsymbol{\mathbf{x}} _m~. \end{equation}

由于式 8 中的 $a^i(i=1,2...m-1)$ 不全为 0。所以至少有部分本征值满足 $\lambda_i=\lambda_m$，这与题设矛盾，因而定理成立。

　　上述定理可以推广为几何重数大于 $1$ 的情况，即：

推论 1　

　　设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的本征值，分别对应本征向量组 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$，$i$ 的最大值取遍几何重数。则 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$ 线性无关。

　　证明思路一致。

定理 2　

　　设 $\lambda$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的一个本征值，$ \boldsymbol{\mathbf{x}} $ 是对应的本征向量。则有：

当 $ \boldsymbol{\mathbf{A}} $ 可逆时，$\frac{1}{\lambda }$ 是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的本征值；
当 $ \boldsymbol{\mathbf{A}} $ 可逆时，$\frac{|A|}{\lambda }$ 是伴随矩阵 $ \boldsymbol{\mathbf{A}} ^{*}$ 的本征值；
$f(x)$ 是 $x$ 的一元多项式，则 $f(\lambda)$ 是 $f( \boldsymbol{\mathbf{A}} )$ 的一个本征值，并且 $ \boldsymbol{\mathbf{x}} $ 依然是矩阵 $ \boldsymbol{\mathbf{A}} ^{-1}, \boldsymbol{\mathbf{A}} ^{*},f( \boldsymbol{\mathbf{A}} )$ 的分别对应于本征值 $\frac{1}{\lambda},\frac{| \boldsymbol{\mathbf{A}} |}{\lambda},f(\lambda)$ 的本征向量。

　　 Proof. 现证第一点。由于 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{x}} =\lambda \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{x}} $，因此 $ \boldsymbol{\mathbf{x}} $ 依然是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的本征向量，且本征值为 $\lambda^{-1} $。从线性变换的角度上看，$ \boldsymbol{\mathbf{A}} $ 使得 $ \boldsymbol{\mathbf{x}} $“伸长” 为原来的 $\lambda$ 倍，其逆操作必定是缩小为原来的 $\lambda^{-1}$，才能保证本征向量不变。

　　第二点易证，留作习题。下证第三点，为证明方便，使用爱因斯坦求和约定。

　　设 $f(x)=a_nx^n$，则 $f( \boldsymbol{\mathbf{A}} )=a_i \boldsymbol{\mathbf{A}} ^i,f(\lambda)=a_n\lambda ^n$。显然我们有 $f( \boldsymbol{\mathbf{A}} ) \boldsymbol{\mathbf{x}} =a_i \boldsymbol{\mathbf{A}} ^i \boldsymbol{\mathbf{x}} =a_i\lambda^i \boldsymbol{\mathbf{x}} =f(\lambda) \boldsymbol{\mathbf{x}} $，得证。

2. 对角化与相似变换

　　求解矩阵的本征方程的过程有时候也叫做矩阵的对角化（diagonalization），因为方阵可对角化的充要条件是 $A$ 有 $n$ 个线性无关的本征向量。

定理 3　

　　 $n$ 阶方阵 $A$ 可对角化的充要条件是 $A$ 有 $n$ 个线性无关的本征向量。

　　 Proof. 设 $Q=( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _n)$ 是实现该相似变换的过渡矩阵，相似变换为：

\begin{equation} \begin{aligned} AQ&=QB\\ A( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _n)&=Q \operatorname {diag}(\lambda_1,\lambda_2...\lambda_n)\\ (A \boldsymbol{\mathbf{x}} _1,A \boldsymbol{\mathbf{x}} _2... A \boldsymbol{\mathbf{x}} _n)&=(\lambda_1 \boldsymbol{\mathbf{x}} _1,\lambda_2 \boldsymbol{\mathbf{x}} _2...\lambda_n \boldsymbol{\mathbf{x}} _n)\\ \end{aligned}~. \end{equation}

必要性的证明同理。

　　因此，过渡矩阵的每一列都是 $A$ 的本征向量。由于过渡矩阵可逆，因而这 $n$ 个本征向量线性无关。如果能找到使 $ \boldsymbol{\mathbf{A}} $ 为对角矩阵的 $ \boldsymbol{\mathbf{Q}} $ 就相当于解出了本征方程式 1 ，这就是 “对角化” 名字的由来。

3. 相似不变量

　　相似变换不改变矩阵的本征值和本征向量，因为这仅仅是改变线性映射和向量的 “表示”，$f( \boldsymbol{\mathbf{x}} )=\lambda \boldsymbol{\mathbf{x}} $ 这个关系是不随基的改变而改变的。当然，你也可以利用相似变换后矩阵和向量坐标关系的变化来证明这一点。由此我们可以进一步总结基本的相似不变量：矩阵的秩、行列式、本征值。

　　实际上，矩阵的迹也是相似不变量。设过渡矩阵为 $S$，则有 $ \operatorname {Tr}(S^{-1}AS)= \operatorname {Tr}(SS^{-1}A)= \operatorname {Tr}A$。

习题 1　

　　用其他方式证明迹是相似不变量。（提示：用指标表示法。）

　　实际上，还有两个常见的相似不变量，可以让我们明晰矩阵元和本征值的关系。

定理 4　

　　设 $n$ 阶方阵 $ \boldsymbol{\mathbf{A}} =(a^i_j)$ 的 $n$ 个本征值为 $\lambda_1,\lambda_2,...\lambda_n$，则

$\prod\limits^n_{i=1}\lambda_i=| \boldsymbol{\mathbf{A}} |$
$\lambda_1+\lambda_2+...\lambda_n= \operatorname {Tr}A =a^1_1+a^2_2+...a^n_n$

　　 Proof.

　　关键是展开矩阵的特征多项式。

\begin{equation} \begin{aligned} |\lambda \boldsymbol{I}-\boldsymbol{A}| & =\left|\begin{array}{cccc} \lambda-a^1_{1} & -a^1_{2} & \cdots & -a^1_{n} \\ -a^2_{1} & \lambda-a^2_{2} & \cdots & -a^2_{ n} \\ \vdots & \vdots & & \vdots \\ -a^n_{ 1} & -a^n_{ 2} & \cdots & \lambda-a^n_{ n} \end{array}\right| \\ &=a_i\lambda^i\\ & =(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_n)=0~. \end{aligned} \end{equation}

在第二种展开方式里，$\prod\limits^n_{i=1}\lambda_i$ 的系数为 $(-1)^n$，因此我们只需要在第一种展开方式里找不含有 $\lambda$ 的项即可。首先想到的是对角元连乘，里面有一项 $(-1)^{n}\prod \limits^n_{i=1}a^i_i$。在其他的展开项里，总含有 $\prod \limits^k_{i=1}(\lambda-a^i_i)$，其中 $k\le n-2$。可以进一步展开多项式，选取不含有 $\lambda$ 的项。由于保留了矩阵元前的系数 $-1$，所以最终得到的是 $(-1)^n | \boldsymbol{\mathbf{A}} |$，第一点得证。

　　现在证明第二点。同样的，在第二种展开方式里我们可以看到这一项实际上是 $(\lambda)^{n-1}(\lambda_1+\lambda_2...+\lambda_n)$。由于除了对角元连乘以外的项里连乘数目 $k\le n-2$，因此这一项只在对角元连乘项里，展开这一项便可得证。

推论 2　

　　设 $ \boldsymbol{\mathbf{A}} $ 是 $n$ 阶矩阵，则 $| \boldsymbol{\mathbf{A}} |=0$ 的充要条件是数 $0$ 为矩阵 $ \boldsymbol{\mathbf{A}} $ 的本征值。

习题 2　

证明三角矩阵（上三角或下三角）的对角元为本征值。
证明严格上三角矩阵为幂零矩阵，即矩阵自乘若干次后为零矩阵。提示：用 Hamilton-Cayley 定理。

定理 5　

　　设 $A$ 为复数域上的矩阵，任意本征值的几何重数都小于或等于对应的代数重数。

　　 证明： 设 $A$ 为 $n$ 维线性空间上的任意矩阵，$\lambda$ 为其某个特征值，对应有 $r$ 维特征子空间。又设 $\{ \hat{\boldsymbol{\mathbf{e}}} _i\}_{i=1}^m$ 为特征子空间的基，扩充到全空间，使得 $V$ 的基为

\begin{equation} \{ \hat{\boldsymbol{\mathbf{e}}} _i\}_{i=1}^r\cup \{ \hat{\boldsymbol{\mathbf{\theta}}} _i\}_{i=r+1}^m~, \end{equation}

　　则在这组基下，$A$ 表示为

\begin{equation} \begin{pmatrix}A_{11}&A_{12}\\0&A_{22}\end{pmatrix} ~, \end{equation}

其中 $A_{11}$ 为 $A$ 在 $\lambda_0-$ 特征子空间上的限制，$A_{12},A_{22}$ 的列向量给出了 $f(\theta_i)$。

　　因为复数域上的矩阵必然可以上三角化，所以在选择恰当特征基后，$A_{11}$ 的形式为主对角线是 $\lambda_0$ 的上三角矩阵。于是

\begin{equation} \det (A-\lambda E)=\det (A_{11}-\lambda E)\det (A_{22}-\lambda E)=(\lambda_0-\lambda)^r\det (A_{22}-\lambda E)~, \end{equation}

因此代数重数大于或等于 $r$，得证。

　　读者亦可利用定理 1 把 $A$ 化作 Jordan 标准形。在这种形式下，$\lambda$ 的代数重数是出现在主对角线的次数，倘若 $\lambda$ 对应 $r$ 阶 Jordan 块，那么出现 $r$ 次。然而一个 Jordan 只对应一个特征向量，因此几何重数必然是小于或等于代数重数的。

1. ^ “方向” 只是从几何向量中沿用过来的一个习惯说法，注意式 1 中的所有量都可以是复数。两个向量方向相同意味着一个向量乘以标量（包括复数）可以得到另一个。
2. ^ 即对角线上的元为 1，其他元为 0，见 “矩阵”

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。

矩阵的本征问题

几何意义

1. 求解本征方程

例 1 二维矩阵的本征方程

定理 1

推论 1

定理 2

2. 对角化与相似变换

定理 3

3. 相似不变量

习题 1

定理 4

推论 2

习题 2

定理 5

例 1　二维矩阵的本征方程

定理 1　

推论 1　

定理 2　

定理 3　

习题 1　

定理 4　

推论 2　

习题 2　

定理 5