矩阵指数

                     

贡献者: JierPeter

  • 本文缺少预备知识,初学者可能会遇到困难。

1. 定义

   实数域上的指数函数 $ \mathrm{e} ^x$ 可以进行 Maclaurin 展开:

\begin{equation} \mathrm{e} ^x=\sum\limits_{n=0}^\infty \frac{x^n}{n!}~. \end{equation}

   展开式使得我们只需要用 $x$ 的幂就可以表示指数 $ \mathrm{e} ^x$。我们把这一点应用到矩阵中,就可以用方阵的幂来定义出矩阵的指数:

定义 1 矩阵指数

   给定方阵 $ \boldsymbol{\mathbf{M}} $,定义

\begin{equation} \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }=\sum_{n=0}^\infty \frac{ \boldsymbol{\mathbf{M}} ^n}{n!}~. \end{equation}
并称之为矩阵 $ \boldsymbol{\mathbf{M}} $ 的指数(matrix exponential)。其中对于任意方阵 $ \boldsymbol{\mathbf{M}} $,都有 $ \boldsymbol{\mathbf{M}} ^0= \boldsymbol{\mathbf{I}} $,$ \boldsymbol{\mathbf{I}} $ 是单位矩阵。

   矩阵指数在常微分方程中非常常用,是用来解线性齐次方程组的利器。一个矩阵的指数本身还是一个矩阵。

2. 矩阵指数的性质

相似变换的统一

   由过渡矩阵可知,如果矩阵 $ \boldsymbol{\mathbf{M}} $ 在某基下表示一个线性变换,那么当基按过渡矩阵 $ \boldsymbol{\mathbf{Q}} $ 改变时,同一个线性变换的矩阵表示就变为 $ \boldsymbol{\mathbf{Q}} ^{-1} \boldsymbol{\mathbf{M}} \boldsymbol{\mathbf{Q}} $。在原基下,$ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 可以表示另一个线性变换,而它在 $ \boldsymbol{\mathbf{Q}} $ 下的变换是

\begin{equation} \boldsymbol{\mathbf{Q}} ^{-1} \mathrm{e} ^{ \boldsymbol{\mathbf{M}} } \boldsymbol{\mathbf{Q}} = \mathrm{e} ^{ \boldsymbol{\mathbf{Q}} ^{-1} \boldsymbol{\mathbf{M}} \boldsymbol{\mathbf{Q}} }~. \end{equation}

   也就是说,$ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 所表示的变换,在基变换的时候,其矩阵表示的变换相当于给 $ \boldsymbol{\mathbf{M}} $ 变换后再取矩阵指数。这意味着我们也可以定义线性变换的指数——也可以反过来说,这是因为我们可以定义线性变换的指数,方式也是使用 Maclaulin 级数。

   事实上,如果 $\mathcal{T}_i$ 表示若干线性变换,我们可以用映射的复合来定义线性变换的乘法:那么对于任意向量 $ \boldsymbol{\mathbf{v}} $,$\mathcal{T}^n_i( \boldsymbol{\mathbf{v}} )=\mathcal{T}_i(\mathcal{T}^{n-1}_i( \boldsymbol{\mathbf{v}} ))$,其中 $\mathcal{T}_i^1=\mathcal{T}_i$。类似地,也可以定义线性变换的加法:$(\mathcal{T}_1+\mathcal{T}_2)( \boldsymbol{\mathbf{v}} )=\mathcal{T}_1( \boldsymbol{\mathbf{v}} )+\mathcal{T}_2( \boldsymbol{\mathbf{v}} )$。这样,有了乘法和加法,就可以计算线性变换的级数了,而 Maclaulin 级数就可以定义为其指数:

\begin{equation} \mathrm{e} ^\mathcal{T}=\sum\limits_{n=0}^\infty \frac{\mathcal{T}^n}{n!}~. \end{equation}
其中 $\mathcal{T}^0$ 是恒等变换,对应单位矩阵。

   式 3 意味着,如果 $ \boldsymbol{\mathbf{M}} $ 是 $\mathcal{T}$ 在某基下的矩阵表示,那么 $ \mathrm{e} ^\mathcal{T}$ 在该基下的矩阵表示就是 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$。

运算性质

   设 $ \boldsymbol{\mathbf{M}} , \boldsymbol{\mathbf{N}} \in \operatorname {gl}(n, \mathbb{F})$,$a, b\in\mathbb{F}$,则容易得出以下性质:

   如果 $ \boldsymbol{\mathbf{MN}} = \boldsymbol{\mathbf{NM}} $,那么我们有 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} } \mathrm{e} ^{ \boldsymbol{\mathbf{N}} }= \mathrm{e} ^{ \boldsymbol{\mathbf{M}} + \boldsymbol{\mathbf{N}} }$。

   $ \mathrm{e} ^{( \boldsymbol{\mathbf{M}} ^{\mathrm{T}} )}=( \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }) ^{\mathrm{T}} $,$ \mathrm{e} ^{( \boldsymbol{\mathbf{M}} ^\dagger)}=({ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }})^\dagger$。

定理 1 矩阵指数的行列式与矩阵的迹

   对于 $ \boldsymbol{\mathbf{M}} \in \operatorname {gl}(n, \mathbb{F})$,有 $ \left\lvert \mathrm{e} ^{ \boldsymbol{\mathbf{M}} } \right\rvert = \mathrm{e} ^{ \operatorname {tr}( \boldsymbol{\mathbf{M}} )}$。即:矩阵指数的行列式,等于矩阵迹的指数。

   证明

   我们只需要考虑上三角矩阵 $ \boldsymbol{\mathbf{M}} $ 的情况即可,因为任何矩阵总可以通过相似变换变成上三角矩阵。此时,$ \boldsymbol{\mathbf{M}} $ 的迹就是主对角元素之和,而 $ \boldsymbol{\mathbf{M}} ^k$ 的第 $i$ 个主对角元素都是 $ \boldsymbol{\mathbf{M}} $ 的第 $i$ 个主对角元素的 $k$ 次方。

   如果只看主对角元素,那么可以记 $ \boldsymbol{\mathbf{M}} $ 为 $(m_1, m_2,\cdots,m_n)$,其中各 $m_i$ 是 $ \boldsymbol{\mathbf{M}} $ 的第 $i$ 个元素。类似地,$ \boldsymbol{\mathbf{M}} ^k$ 就可以记为 $(m_1^k, m_2^k,\cdots,m_n^k)$。代入矩阵指数的定义式,可得 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 的对角线元素为 $( \mathrm{e} ^m_1, \mathrm{e} ^m_2,\cdots, \mathrm{e} ^m_n)$。

   由于上三角矩阵的乘积还是上三角矩阵,可知 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 是上三角矩阵,因此 $ \left\lvert \mathrm{e} ^{ \boldsymbol{\mathbf{M}} } \right\rvert = \mathrm{e} ^m_1\times \mathrm{e} ^m_2\times\cdots\times \mathrm{e} ^m_n= \mathrm{e} ^{ \mathrm{e} ^m_1+ \mathrm{e} ^m_2+\cdots+ \mathrm{e} ^m_n}= \mathrm{e} ^{ \operatorname {tr}( \boldsymbol{\mathbf{M}} )}$。

   证毕

定理 2 矩阵指数求导

   矩阵 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} t}$ 是一个关于实变量 $t$ 的函数,则

\begin{equation} \frac{ \,\mathrm{d}{}} { \,\mathrm{d}{t} } \mathrm{e} ^{ \boldsymbol{\mathbf{M}} t}= \boldsymbol{\mathbf{M}} \mathrm{e} ^{ \boldsymbol{\mathbf{M}} t}~, \end{equation}
其中求导定义为对每个矩阵元单独求导的结果。

   定理 2 的形式和 $\frac{ \,\mathrm{d}{}} { \,\mathrm{d}{t} } \mathrm{e} ^{at}=a \mathrm{e} ^{at}$ 是一样的,它们也共享同一个证明,我们留作习题:

习题 1 

   根据式 2 的定义,注意 $ \boldsymbol{\mathbf{M}} $ 是常数矩阵,证明式 5

                     

© 小时科技 保留一切权利