矩阵的本征问题

                     

贡献者: 叶月2_; addis; Giacomo; int256

预备知识 线性方程组与向量空间,矩阵的本征值

   若已知矩阵 $ \boldsymbol{\mathbf{A}} $,我们把线性方程组

\begin{equation} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} = \lambda \boldsymbol{\mathbf{v}} ~. \end{equation}
称为矩阵 $ \boldsymbol{\mathbf{A}} $ 的本征方程(eigen equation)。式中 $ \boldsymbol{\mathbf{A}} $ 是已知的,而 $\lambda$ 和 $ \boldsymbol{\mathbf{v}} $ 是未知的。显然,当 $ \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} $ 时方程恒成立,所以我们通常只对非零解感兴趣。也就是说,我们希望找到一些非零向量 $ \boldsymbol{\mathbf{v}} $,使得矩阵 $ \boldsymbol{\mathbf{A}} $ 乘以该向量以后方向不变1。对于每个这样的向量,我们用一个标量 $\lambda$ 来描述其模长的改变。我们把这些向量叫做本征矢(eigen vector),把对应的 $\lambda$ 叫做本征值(eigen value)。一些教材也翻译成特征矢特征值。小时百科中,eigen 译作 “本征”,而 characteristic 译作 “特征”。

几何意义

   几何上来讲,实数矩阵对应的线性变换相当于把坐标网格做旋转、拉伸、翻折等操作。所以一般而言,一个非零向量在变换后长度和方向都会改变。但也可能存在一些特殊的非零向量,使得变换后只可能改变长度而不改变方向。这些向量就是本征方程的解。注意这种几何理解仅适用于实数矩阵以及实数本征值和本征矢的解。

1. 求解本征方程

   若令 $ \boldsymbol{\mathbf{I}} $ 为 $N\times N$ 的单位矩阵2,则本征方程式 1 移项后得到一个齐次线性方程组

\begin{equation} ( \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} ) \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} ~. \end{equation}
括号中的矩阵相当于把矩阵 $ \boldsymbol{\mathbf{A}} $ 的对角线上的元都减去 $\lambda$ 得到的方阵。要确保方程有非零解,只需令系数矩阵 $ \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} $ 不是满的,即行列式为零
\begin{equation} \left\lvert \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} \right\rvert = 0~. \end{equation}
这是一个关于 $\lambda$ 的 $N$ 阶多项式,称为特征多项式(characteristic polynomial)。并不是所有矩阵都有本征向量和相应本征值,比如非特殊角的旋转变换并不能把任意向量旋转到与原向量平行。但是根据代数学基本定理,复数域上的特征多项式(一元 n 次方程)必有 n 个根(重根的重数包括在内),即有 $n$ 个本征值。对于 $n$ 阶矩阵 $ \boldsymbol{\mathbf{A}} $,如果 $\lambda$ 为特征方程的单根,称 $\lambda$ 为 $ \boldsymbol{\mathbf{A}} $ 的单本征值;如果 $\lambda$ 是 $k$ 重根,称之为 $ \boldsymbol{\mathbf{A}} $ 的$k$ 重本征值,并称 $k$ 为 $\lambda$ 的代数重数。

   把本征值记为 $\lambda_i$($i = 1, 2\dots N$)。将它们依次代入式 2 ,就可以分别解出对应的本征矢。通常把式 2 的解空间称为矩阵 $ \boldsymbol{\mathbf{A}} $ 对应于本征值 $\lambda$ 的本征子空间,记为 $V_{\lambda}$,称该子空间的维数为几何重数,即线性无关的本征向量。根据方程的线性可知,本征子空间的任意向量都是本征矢。

   在物理上,如果本征子空间维度是 $1$,我们称相应的本征值是非简并(non-degenerate)的,若几何重数 $n_i$ 大于 1,则称 $\lambda_i$ 是 $n_i$ 重简并(degenerate)的,把 几何重数 $n_i$ 叫做简并数(degeneracy)。 可以证明,任意本征值的几何重数不大于代数重数。

例 1 二维矩阵的本征方程

   给出任意二维实数矩阵

\begin{equation} \boldsymbol{\mathbf{A}} = \begin{pmatrix}a & b \\ c & d\end{pmatrix} ~. \end{equation}
要求它的本征值和本征矢,其特征多项式(式 3 )为
\begin{equation} \begin{vmatrix}a-\lambda & b \\ c & d-\lambda\end{vmatrix} = (\lambda-a)(\lambda-d) - bc = 0~. \end{equation}
解二次方程得两个本征值为
\begin{equation} \lambda_\pm = \frac{(a + d) \pm \sqrt{(a-d)^2 + 4bc}}{2}~. \end{equation}
复数域中必定存在两个根,包括重根。若要求本征值为实数,则需要另判别式(根号中的式子)大于零,否则本征方程无解。

   本征矢为

\begin{equation} \boldsymbol{\mathbf{v}} _\pm = C \begin{pmatrix}b\\ \lambda_\pm - a\end{pmatrix} = C \begin{pmatrix}\lambda_\pm - d\\ c\end{pmatrix} ~, \end{equation}
其中 $C$ 是任意非零常数。若两本征值相同,则只存在一个一维的本征矢空间,即一条直线。

   下面列举与本征值相关的常用结论。

定理 1 

   设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的本征值,分别对应本征向量 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$。则 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性无关。

   证明: 用数学归纳法证明。 $m=1$ 显然成立。设 $i=m-1$ 成立,需要证明 $i=m$ 成立。用反证法,假设 $i=m$ 时,$ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性相关,设有若干不全部为 0 的系数使得:

\begin{equation} \boldsymbol{\mathbf{x}} _m=a^1 \boldsymbol{\mathbf{x}} _1+a^2 \boldsymbol{\mathbf{x}} _2+...a^{m-1} \boldsymbol{\mathbf{x}} _{m-1}~, \end{equation}
则有:
\begin{equation} A \boldsymbol{\mathbf{x}} _m=a^1\lambda_1 \boldsymbol{\mathbf{x}} _1+a^2\lambda_2 \boldsymbol{\mathbf{x}} _2+...a^{m-1}\lambda \boldsymbol{\mathbf{x}} _{m-1}=\lambda_m \boldsymbol{\mathbf{x}} _m~. \end{equation}
由于式 8 中的 $a^i(i=1,2...m-1)$ 不全为 0。所以至少有部分本征值满足 $\lambda_i=\lambda_m$,这与题设矛盾,因而定理成立。

   上述定理可以推广为几何重数大于 $1$ 的情况,即:

推论 1 

   设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的本征值,分别对应本征向量组 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$,$i$ 的最大值取遍几何重数。则 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$ 线性无关。

   证明思路一致。

定理 2 

   设 $\lambda$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的一个本征值,$ \boldsymbol{\mathbf{x}} $ 是对应的本征向量。则有:

  1. 当 $ \boldsymbol{\mathbf{A}} $ 可逆时,$\frac{1}{\lambda }$ 是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的本征值;
  2. 当 $ \boldsymbol{\mathbf{A}} $ 可逆时,$\frac{|A|}{\lambda }$ 是伴随矩阵 $ \boldsymbol{\mathbf{A}} ^{*}$ 的本征值;
  3. $f(x)$ 是 $x$ 的一元多项式,则 $f(\lambda)$ 是 $f( \boldsymbol{\mathbf{A}} )$ 的一个本征值,并且 $ \boldsymbol{\mathbf{x}} $ 依然是矩阵 $ \boldsymbol{\mathbf{A}} ^{-1}, \boldsymbol{\mathbf{A}} ^{*},f( \boldsymbol{\mathbf{A}} )$ 的分别对应于本征值 $\frac{1}{\lambda},\frac{| \boldsymbol{\mathbf{A}} |}{\lambda},f(\lambda)$ 的本征向量。

   Proof. 现证第一点。由于 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{x}} =\lambda \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{x}} $,因此 $ \boldsymbol{\mathbf{x}} $ 依然是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的本征向量,且本征值为 $\lambda^{-1} $。从线性变换的角度上看,$ \boldsymbol{\mathbf{A}} $ 使得 $ \boldsymbol{\mathbf{x}} $“伸长” 为原来的 $\lambda$ 倍,其逆操作必定是缩小为原来的 $\lambda^{-1}$,才能保证本征向量不变。

   第二点易证,留作习题。下证第三点,为证明方便,使用爱因斯坦求和约定。

   设 $f(x)=a_nx^n$,则 $f( \boldsymbol{\mathbf{A}} )=a_i \boldsymbol{\mathbf{A}} ^i,f(\lambda)=a_n\lambda ^n$。显然我们有 $f( \boldsymbol{\mathbf{A}} ) \boldsymbol{\mathbf{x}} =a_i \boldsymbol{\mathbf{A}} ^i \boldsymbol{\mathbf{x}} =a_i\lambda^i \boldsymbol{\mathbf{x}} =f(\lambda) \boldsymbol{\mathbf{x}} $,得证。

2. 对角化与相似变换

   求解矩阵的本征方程的过程有时候也叫做矩阵的对角化(diagonalization),因为方阵可对角化的充要条件是 $A$ 有 $n$ 个线性无关的本征向量。

定理 3 

   $n$ 阶方阵 $A$ 可对角化的充要条件是 $A$ 有 $n$ 个线性无关的本征向量。

   Proof. 设 $Q=( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _n)$ 是实现该相似变换的过渡矩阵,相似变换为:

\begin{equation} \begin{aligned} AQ&=QB\\ A( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _n)&=Q \operatorname {diag}(\lambda_1,\lambda_2...\lambda_n)\\ (A \boldsymbol{\mathbf{x}} _1,A \boldsymbol{\mathbf{x}} _2... A \boldsymbol{\mathbf{x}} _n)&=(\lambda_1 \boldsymbol{\mathbf{x}} _1,\lambda_2 \boldsymbol{\mathbf{x}} _2...\lambda_n \boldsymbol{\mathbf{x}} _n)\\ \end{aligned}~. \end{equation}
必要性的证明同理。

   因此,过渡矩阵的每一列都是 $A$ 的本征向量。由于过渡矩阵可逆,因而这 $n$ 个本征向量线性无关。 如果能找到使 $ \boldsymbol{\mathbf{A}} $ 为对角矩阵的 $ \boldsymbol{\mathbf{Q}} $ 就相当于解出了本征方程式 1 ,这就是 “对角化” 名字的由来。

3. 相似不变量

   相似变换不改变矩阵的本征值和本征向量,因为这仅仅是改变线性映射和向量的 “表示”,$f( \boldsymbol{\mathbf{x}} )=\lambda \boldsymbol{\mathbf{x}} $ 这个关系是不随基的改变而改变的。当然,你也可以利用相似变换后矩阵和向量坐标关系的变化来证明这一点。由此我们可以进一步总结基本的相似不变量:矩阵的秩、行列式、本征值

   实际上,矩阵的迹也是相似不变量。设过渡矩阵为 $S$,则有 $ \operatorname {Tr}(S^{-1}AS)= \operatorname {Tr}(SS^{-1}A)= \operatorname {Tr}A$。

习题 1 

   用其他方式证明迹是相似不变量。(提示:用指标表示法。)

   实际上,还有两个常见的相似不变量,可以让我们明晰矩阵元和本征值的关系。

定理 4 

   设 $n$ 阶方阵 $ \boldsymbol{\mathbf{A}} =(a^i_j)$ 的 $n$ 个本征值为 $\lambda_1,\lambda_2,...\lambda_n$,则

  1. $\prod\limits^n_{i=1}\lambda_i=| \boldsymbol{\mathbf{A}} |$
  2. $\lambda_1+\lambda_2+...\lambda_n= \operatorname {Tr}A =a^1_1+a^2_2+...a^n_n$

   Proof.

   关键是展开矩阵的特征多项式。

\begin{equation} \begin{aligned} |\lambda \boldsymbol{I}-\boldsymbol{A}| & =\left|\begin{array}{cccc} \lambda-a^1_{1} & -a^1_{2} & \cdots & -a^1_{n} \\ -a^2_{1} & \lambda-a^2_{2} & \cdots & -a^2_{ n} \\ \vdots & \vdots & & \vdots \\ -a^n_{ 1} & -a^n_{ 2} & \cdots & \lambda-a^n_{ n} \end{array}\right| \\ &=a_i\lambda^i\\ & =(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_n)=0~. \end{aligned} \end{equation}
在第二种展开方式里,$\prod\limits^n_{i=1}\lambda_i$ 的系数为 $(-1)^n$,因此我们只需要在第一种展开方式里找不含有 $\lambda$ 的项即可。首先想到的是对角元连乘,里面有一项 $(-1)^{n}\prod \limits^n_{i=1}a^i_i$。在其他的展开项里,总含有 $\prod \limits^k_{i=1}(\lambda-a^i_i)$,其中 $k\le n-2$。可以进一步展开多项式,选取不含有 $\lambda$ 的项。由于保留了矩阵元前的系数 $-1$,所以最终得到的是 $(-1)^n | \boldsymbol{\mathbf{A}} |$,第一点得证。

   现在证明第二点。同样的,在第二种展开方式里我们可以看到这一项实际上是 $(\lambda)^{n-1}(\lambda_1+\lambda_2...+\lambda_n)$。由于除了对角元连乘以外的项里连乘数目 $k\le n-2$,因此这一项只在对角元连乘项里,展开这一项便可得证。

推论 2 

   设 $ \boldsymbol{\mathbf{A}} $ 是 $n$ 阶矩阵,则 $| \boldsymbol{\mathbf{A}} |=0$ 的充要条件是数 $0$ 为矩阵 $ \boldsymbol{\mathbf{A}} $ 的本征值。

   关于本征值还有一个常用结论:本征值的几何重数小于或等于对应的代数重数,这里不做证明。

习题 2 

  1. 证明三角矩阵(上三角或下三角)的对角元为本征值。
  2. 证明严格上三角矩阵为幂零矩阵,即矩阵自乘若干次后为零矩阵。提示:用 Hamilton-Cayley 定理。

1. ^ “方向” 只是从几何向量中沿用过来的一个习惯说法,注意式 1 中的所有量都可以是复数。两个向量方向相同意味着一个向量乘以标量(包括复数)可以得到另一个。
2. ^ 即对角线上的元为 1,其他元为 0,见 “矩阵

                     

© 小时科技 保留一切权利