矩阵的本征问题

                     

贡献者: 叶月2_; addis; Giacomo

  • 本文存在未完成的内容。
  • 对角化与线性无关的证明
预备知识 线性方程组与矢量空间,矩阵的本征值

   若已知矩阵 $ \boldsymbol{\mathbf{A}} $,我们把线性方程组

\begin{equation} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} = \lambda \boldsymbol{\mathbf{v}} ~. \end{equation}
称为矩阵 $ \boldsymbol{\mathbf{A}} $ 的本征方程。式中 $ \boldsymbol{\mathbf{A}} $ 是已知的,而 $\lambda$ 和 $ \boldsymbol{\mathbf{v}} $ 是未知的。显然,当 $ \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} $ 时方程恒成立,所以我们通常只对非零解感兴趣。也就是说,我们希望找到一些非零矢量 $ \boldsymbol{\mathbf{v}} $,使得矩阵 $ \boldsymbol{\mathbf{A}} $ 乘以该矢量以后方向不变1。对于每个这样的矢量,我们用一个标量 $\lambda$ 来描述其模长的改变。我们把这些矢量叫做本征矢(eigen vector),把对应的 $\lambda$ 叫做本征值(eigen value)。一些教材也翻译成特征矢特征值。小时百科中,eigen 译作 “本征”,而 characteristic 译作 “特征”。

几何意义

   几何上来讲,实数矩阵对应的线性变换相当于把坐标网格做旋转、拉伸、翻折等操作。所以一般而言,一个非零矢量在变换后长度和方向都会改变。但也可能存在一些特殊的非零矢量,使得变换后只可能改变长度而不改变方向。这些矢量就是本征方程的解。注意这种几何理解仅适用于实数矩阵以及实数本征值和本征矢的解。

1. 求解本征方程

   若令 $ \boldsymbol{\mathbf{I}} $ 为 $N\times N$ 的单位矩阵2,则本征方程式 1 移项后得到一个齐次线性方程组

\begin{equation} ( \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} ) \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} ~. \end{equation}
括号中的矩阵相当于把矩阵 $ \boldsymbol{\mathbf{A}} $ 的对角线上的元都减去 $\lambda$ 得到的方阵。要确保方程有非零解,只需令系数矩阵 $ \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} $ 不是满秩的,即行列式为零
\begin{equation} \left\lvert \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} \right\rvert = 0~. \end{equation}
这是一个关于 $\lambda$ 的 $N$ 阶多项式,称为特征多项式(characteristic polynomial)。并不是所有矩阵都有特征向量和相应特征值,比如非特殊角的旋转变换并不能把任意矢量旋转到与原矢量平行。但是根据代数学基本定理,复数域上的特征多项式(一元 n 次方程)必有 n 个根(重根的重数包括在内),即有 $n$ 个特征值。对于 $n$ 阶矩阵 $ \boldsymbol{\mathbf{A}} $,如果 $\lambda$ 为特征方程的单根,称 $\lambda$ 为 $ \boldsymbol{\mathbf{A}} $ 的单特征值;如果 $\lambda$ 是 $k$ 重根,称之为 $ \boldsymbol{\mathbf{A}} $ 的$k$ 重特征值,并称 $k$ 为 $\lambda$ 的代数重数。

   把特征值记为 $\lambda_i$($i = 1, 2\dots N$)。将它们依次代入式 2 ,就可以分别解出对应的本征矢。通常把式 2 的解空间称为矩阵 $ \boldsymbol{\mathbf{A}} $ 对应于特征值 $\lambda$ 的特征子空间,记为 $V_{\lambda}$,称该子空间的维数为几何重数,即线性无关的特征向量。根据方程的线性可知,特征子空间的任意矢量都是特征矢。

   在物理上,如果特征子空间维度是 $1$,我们称相应的特征值是非简并(non-degenerate)的,若几何重数 $n_i$ 大于 1,则称 $\lambda_i$ 是 $n_i$ 重简并(degenerate)的,把 几何重数 $n_i$ 叫做简并数(degeneracy)。 可以证明,任意特征值的几何重数不大于代数重数。

例 1 二维矩阵的本征方程

   给出任意二维实数矩阵

\begin{equation} \boldsymbol{\mathbf{A}} = \begin{pmatrix}a & b \\ c & d\end{pmatrix} ~. \end{equation}
要求它的本征值和本征矢,其特正多项式(式 3 )为
\begin{equation} \begin{vmatrix}a-\lambda & b \\ c & d-\lambda\end{vmatrix} = (\lambda-a)(\lambda-d) - bc = 0~. \end{equation}
解二次方程得两个本征值为
\begin{equation} \lambda_\pm = \frac{(a + d) \pm \sqrt{(a-d)^2 + 4bc}}{2}~. \end{equation}
复数域中必定存在两个根,包括重根。若要求本征值为实数,则需要另判别式(根号中的式子)大于零,否则本征方程无解。

   本征矢为

\begin{equation} \boldsymbol{\mathbf{v}} _\pm = C \begin{pmatrix}b\\ \lambda_\pm - a\end{pmatrix} = C \begin{pmatrix}\lambda_\pm - d\\ c\end{pmatrix} ~, \end{equation}
其中 $C$ 是任意非零常数。若两本征值相同,则只存在一个一维的本征矢空间,即一条直线。

   下面列举与特征值相关的常用结论。

定理 1 

   设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的特征值,分别对应特征向量 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$。则 $ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性无关。

   证明: 用数学归纳法证明。 $m=1$ 显然成立。设 $i=m-1$ 成立,需要证明 $i=m$ 成立。用反证法,假设 $i=m$ 时,$ \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _m$ 线性相关,设有若干系数使得:

\begin{equation} \boldsymbol{\mathbf{x}} _m=a^1 \boldsymbol{\mathbf{x}} _1+a^2 \boldsymbol{\mathbf{x}} _2+...a^{m-1} \boldsymbol{\mathbf{x}} _{m-1}~, \end{equation}
则有:
\begin{equation} A \boldsymbol{\mathbf{x}} _m=a^1\lambda_1 \boldsymbol{\mathbf{x}} _1+a^2\lambda_2 \boldsymbol{\mathbf{x}} _2+...a^{m-1}\lambda \boldsymbol{\mathbf{x}} _{m-1}=\lambda_m \boldsymbol{\mathbf{x}} _m~. \end{equation}
解得所有特征值 $\lambda_i=\lambda_m\quad (i=1,2...m)$。与题设矛盾,因而定理成立。

   上述定理可以推广为几何重数大于 $1$ 的情况,即:

推论 1 

   设 $\lambda_1,\lambda_2...\lambda_m$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的 $m$ 个互不相同的特征值,分别对应特征向量组 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$,$i$ 的最大值取遍几何重数。则 $\{ \boldsymbol{\mathbf{x}} _{1i}\},\{ \boldsymbol{\mathbf{x}} _{1i}\}...\{ \boldsymbol{\mathbf{x}} _{mi}\}$ 线性无关。

   证明思路一致。

定理 2 

   设 $\lambda$ 是方阵 $ \boldsymbol{\mathbf{A}} $ 的一个特征值,$ \boldsymbol{\mathbf{x}} $ 是对应的特征向量。则有:

  1. 当 $ \boldsymbol{\mathbf{A}} $ 可逆时,$\frac{1}{\lambda }$ 是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的特征值;
  2. 当 $ \boldsymbol{\mathbf{A}} $ 可逆时,$\frac{|A|}{\lambda }$ 是伴随矩阵 $ \boldsymbol{\mathbf{A}} ^{*}$ 的特征值;
  3. $f(x)$ 是 $x$ 的一元多项式,则 $f(\lambda)$ 是 $f( \boldsymbol{\mathbf{A}} )$ 的一个特征值,并且 $ \boldsymbol{\mathbf{x}} $ 依然是矩阵 $ \boldsymbol{\mathbf{A}} ^{-1}, \boldsymbol{\mathbf{A}} ^{*},f( \boldsymbol{\mathbf{A}} )$ 的分别对应于特征值 $\frac{1}{\lambda},\frac{| \boldsymbol{\mathbf{A}} |}{\lambda},f(\lambda)$ 的特征向量。

   Proof. 现证第一点。由于 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{x}} =\lambda \boldsymbol{\mathbf{A}} ^{-1} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{x}} $,因此 $ \boldsymbol{\mathbf{x}} $ 依然是 $ \boldsymbol{\mathbf{A}} ^{-1}$ 的特征向量,且特征值为 $\lambda^{-1} $。从线性变换的角度上看,$ \boldsymbol{\mathbf{A}} $ 使得 $ \boldsymbol{\mathbf{x}} $“伸长” 为原来的 $\lambda$ 倍,其逆操作必定是缩小为原来的 $\lambda^{-1}$,才能保证特征向量不变。

   第二点易证,留作习题。下证第三点,为证明方便,使用爱因斯坦求和约定。

   设 $f(x)=a_ix^i$,则 $f( \boldsymbol{\mathbf{A}} )=a_i \boldsymbol{\mathbf{A}} ^i,f(\lambda)=a_i\lambda ^i$。显然我们有 $f( \boldsymbol{\mathbf{A}} ) \boldsymbol{\mathbf{x}} =a_i \boldsymbol{\mathbf{A}} ^i \boldsymbol{\mathbf{x}} =a_i\lambda^i \boldsymbol{\mathbf{x}} =f(\lambda) \boldsymbol{\mathbf{x}} $,得证。

2. 对角化与相似变换

   求解矩阵的本征方程的过程有时候也叫做矩阵的对角化(diagonalization),因为方阵可对角化的充要条件是 $A$ 有 $n$ 个线性无关的特征向量。

定理 3 

   $n$ 阶方阵 $A$ 可对角化的充要条件是 $A$ 有 $n$ 个线性无关的特征向量。

   Proof. 设 $Q=( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _n)$ 是实现该相似变换的过渡矩阵,相似变换为:

\begin{equation} \begin{aligned} AQ&=QB\\ A( \boldsymbol{\mathbf{x}} _1, \boldsymbol{\mathbf{x}} _2... \boldsymbol{\mathbf{x}} _n)&=Q \operatorname {diag}(\lambda_1,\lambda_2...\lambda_n)\\ (A \boldsymbol{\mathbf{x}} _1,A \boldsymbol{\mathbf{x}} _2... A \boldsymbol{\mathbf{x}} _n)&=(\lambda_1 \boldsymbol{\mathbf{x}} _1,\lambda_2 \boldsymbol{\mathbf{x}} _2...\lambda_n \boldsymbol{\mathbf{x}} _n)\\ \end{aligned}~. \end{equation}

   因此,过渡矩阵的每一列都是 $A$ 的特征向量。由于过渡矩阵可逆,因而这 $n$ 个特征向量线性无关。 如果能找到使 $ \boldsymbol{\mathbf{A}} $ 为对角矩阵的 $ \boldsymbol{\mathbf{Q}} $ 就相当于解出了本征方程式 1 ,这就是 “对角化” 名字的由来。

3. 相似不变量

   相似变换不改变矩阵的特征值和特征向量,因为这仅仅是改变线性映射和向量的 “表示”,$f( \boldsymbol{\mathbf{x}} )=\lambda \boldsymbol{\mathbf{x}} $ 这个关系是不随基的改变而改变的。当然,你也可以利用相似变换后矩阵和向量坐标关系的变化来证明这一点。由此我们可以进一步总结相似不变量:矩阵的秩、行列式、与特征值相关的多项式。

   实际上,矩阵的迹也是相似不变量。设过渡矩阵为 $S$,则有 $ \operatorname {Tr}(S^{-1}AS)= \operatorname {Tr}(SS^{-1}A)= \operatorname {Tr}A$。

习题 1 

   用其他方式证明迹是相似不变量。(提示:用指标表示法。)

   实际上,还有两个常见的相似不变量,可以让我们明晰矩阵元和特征值的关系。

定理 4 

   设 $n$ 阶方阵 $ \boldsymbol{\mathbf{A}} =(a^i_j)$ 的 $n$ 个特征值为 $\lambda_1,\lambda_2,...\lambda_n$,则

  1. $\prod\limits^n_{i=1}\lambda_i=| \boldsymbol{\mathbf{A}} |$
  2. $\lambda_1+\lambda_2+...\lambda_n= \operatorname {Tr}A =a^1_1+a^2_2+...a^n_n$

   Proof.

   关键是展开矩阵的特征多项式。

\begin{equation} \begin{aligned} |\lambda \boldsymbol{I}-\boldsymbol{A}| & =\left|\begin{array}{cccc} \lambda-a^1_{1} & -a^1_{2} & \cdots & -a^1_{n} \\ -a^2_{1} & \lambda-a^2_{2} & \cdots & -a^2_{ n} \\ \vdots & \vdots & & \vdots \\ -a^n_{ 1} & -a^n_{ 2} & \cdots & \lambda-a^n_{ n} \end{array}\right| \\ &=a_i\lambda^i\\ & =(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_n)=0~. \end{aligned} \end{equation}
在第二种展开方式里,$\prod\limits^n_{i=1}\lambda_i$ 的系数为 $(-1)^n$,因此我们只需要在第一种展开方式里找不含有 $\lambda$ 的项即可。首先想到的是对角元连乘,里面有一项 $(-1)^{n}\prod \limits^n_{i=1}a^i_i$。在其他的展开项里,总含有 $\prod \limits^k_{i=1}(\lambda-a^i_i)$,其中 $k\le n-2$。可以进一步展开多项式,选取不含有 $\lambda$ 的项。由于保留了矩阵元前的系数 $-1$,所以最终得到的是 $(-1)^n | \boldsymbol{\mathbf{A}} |$,第一点得证。

   现在证明第二点。同样的,在第二种展开方式里我们可以看到这一项实际上是 $(\lambda)^{n-1}(\lambda_1+\lambda_2...+\lambda_n)$。由于除了对角元连乘以外的项里连乘数目 $k\le n-2$,因此这一项只在对角元连乘项里,展开这一项便可得证。

推论 2 

   设 $ \boldsymbol{\mathbf{A}} $ 是 $n$ 阶矩阵,则 $| \boldsymbol{\mathbf{A}} |=0$ 的充要条件是数 $0$ 为矩阵 $ \boldsymbol{\mathbf{A}} $ 的特征值。

   关于特征值还有一个常用结论:特征值的几何重数小于或等于对应的代数重数,这里不做证明。

习题 2 

  1. 证明三角矩阵(上三角或下三角)的对角元为特征值。
  2. 证明严格上三角矩阵为幂零矩阵,即矩阵自乘若干次后为零矩阵。提示:用 Hamilton-Cayley 定理。

1. ^ “方向” 只是从几何矢量中沿用过来的一个习惯说法,注意式 1 中的所有量都可以是复数。两个矢量方向相同意味着一个矢量乘以标量(包括复数)可以得到另一个。
2. ^ 即对角线上的元为 1,其他元为 0,见 “矩阵


致读者: 小时百科一直以来坚持所有内容免费,这导致我们处于严重的亏损状态。 长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。 因此,我们请求广大读者热心打赏 ,使网站得以健康发展。 如果看到这条信息的每位读者能慷慨打赏 10 元,我们一个星期内就能脱离亏损, 并保证在接下来的一整年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获取知识, 我们在此表示感谢。

                     

友情链接: 超理论坛 | ©小时科技 保留一切权利