贡献者: JierPeter
实数域上的指数函数 $ \mathrm{e} ^x$ 可以进行 Maclaurin 展开:
展开式使得我们只需要用 $x$ 的幂就可以表示指数 $ \mathrm{e} ^x$。我们把这一点应用到矩阵中,就可以用方阵的幂来定义出矩阵的指数:
矩阵指数在常微分方程中非常常用,是用来解线性齐次方程组的利器。一个矩阵的指数本身还是一个矩阵。
由过渡矩阵可知,如果矩阵 $ \boldsymbol{\mathbf{M}} $ 在某基下表示一个线性变换,那么当基按过渡矩阵 $ \boldsymbol{\mathbf{Q}} $ 改变时,同一个线性变换的矩阵表示就变为 $ \boldsymbol{\mathbf{Q}} ^{-1} \boldsymbol{\mathbf{M}} \boldsymbol{\mathbf{Q}} $。在原基下,$ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 可以表示另一个线性变换,而它在 $ \boldsymbol{\mathbf{Q}} $ 下的变换是
也就是说,$ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 所表示的变换,在基变换的时候,其矩阵表示的变换相当于给 $ \boldsymbol{\mathbf{M}} $ 变换后再取矩阵指数。这意味着我们也可以定义线性变换的指数——也可以反过来说,这是因为我们可以定义线性变换的指数,方式也是使用 Maclaulin 级数。
事实上,如果 $\mathcal{T}_i$ 表示若干线性变换,我们可以用映射的复合来定义线性变换的乘法:那么对于任意向量 $ \boldsymbol{\mathbf{v}} $,$\mathcal{T}^n_i( \boldsymbol{\mathbf{v}} )=\mathcal{T}_i(\mathcal{T}^{n-1}_i( \boldsymbol{\mathbf{v}} ))$,其中 $\mathcal{T}_i^1=\mathcal{T}_i$。类似地,也可以定义线性变换的加法:$(\mathcal{T}_1+\mathcal{T}_2)( \boldsymbol{\mathbf{v}} )=\mathcal{T}_1( \boldsymbol{\mathbf{v}} )+\mathcal{T}_2( \boldsymbol{\mathbf{v}} )$。这样,有了乘法和加法,就可以计算线性变换的级数了,而 Maclaulin 级数就可以定义为其指数:
式 3 意味着,如果 $ \boldsymbol{\mathbf{M}} $ 是 $\mathcal{T}$ 在某基下的矩阵表示,那么 $ \mathrm{e} ^\mathcal{T}$ 在该基下的矩阵表示就是 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$。
设 $ \boldsymbol{\mathbf{M}} , \boldsymbol{\mathbf{N}} \in \operatorname {gl}(n, \mathbb{F})$,$a, b\in\mathbb{F}$,则容易得出以下性质:
如果 $ \boldsymbol{\mathbf{MN}} = \boldsymbol{\mathbf{NM}} $,那么我们有 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} } \mathrm{e} ^{ \boldsymbol{\mathbf{N}} }= \mathrm{e} ^{ \boldsymbol{\mathbf{M}} + \boldsymbol{\mathbf{N}} }$。
$ \mathrm{e} ^{( \boldsymbol{\mathbf{M}} ^{\mathrm{T}} )}=( \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }) ^{\mathrm{T}} $,$ \mathrm{e} ^{( \boldsymbol{\mathbf{M}} ^\dagger)}=({ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }})^\dagger$。
证明:
我们只需要考虑上三角矩阵 $ \boldsymbol{\mathbf{M}} $ 的情况即可,因为任何矩阵总可以通过相似变换变成上三角矩阵。此时,$ \boldsymbol{\mathbf{M}} $ 的迹就是主对角元素之和,而 $ \boldsymbol{\mathbf{M}} ^k$ 的第 $i$ 个主对角元素都是 $ \boldsymbol{\mathbf{M}} $ 的第 $i$ 个主对角元素的 $k$ 次方。
如果只看主对角元素,那么可以记 $ \boldsymbol{\mathbf{M}} $ 为 $(m_1, m_2,\cdots,m_n)$,其中各 $m_i$ 是 $ \boldsymbol{\mathbf{M}} $ 的第 $i$ 个元素。类似地,$ \boldsymbol{\mathbf{M}} ^k$ 就可以记为 $(m_1^k, m_2^k,\cdots,m_n^k)$。代入矩阵指数的定义式,可得 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 的对角线元素为 $( \mathrm{e} ^m_1, \mathrm{e} ^m_2,\cdots, \mathrm{e} ^m_n)$。
由于上三角矩阵的乘积还是上三角矩阵,可知 $ \mathrm{e} ^{ \boldsymbol{\mathbf{M}} }$ 是上三角矩阵,因此 $ \left\lvert \mathrm{e} ^{ \boldsymbol{\mathbf{M}} } \right\rvert = \mathrm{e} ^m_1\times \mathrm{e} ^m_2\times\cdots\times \mathrm{e} ^m_n= \mathrm{e} ^{ \mathrm{e} ^m_1+ \mathrm{e} ^m_2+\cdots+ \mathrm{e} ^m_n}= \mathrm{e} ^{ \operatorname {tr}( \boldsymbol{\mathbf{M}} )}$。
证毕。
定理 2 的形式和 $\frac{ \,\mathrm{d}{}} { \,\mathrm{d}{t} } \mathrm{e} ^{at}=a \mathrm{e} ^{at}$ 是一样的,它们也共享同一个证明,我们留作习题: