贡献者: Relo Stern
预备知识 凸区域、矩阵、线性映射、有界线性算子、范数
本文中我们约定,当 $x\in \mathbb{R}^n$ 时,用 $|x|$ 表示 $x$ 的欧氏范数。
1. 1。向量函数的全微分
定义 1 (全微分)
设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, 且 $p$ 是 $\mathbb{R}^n$ 中的一点。若存在线性变换 $A:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$
使成立
\begin{equation}
F(x)=F(p)+A(x-p)+o(| x-p| )\quad\quad(x\rightarrow p\in\mathbb{R}^{n})~,
\end{equation}
即
\[
{\displaystyle \lim_{x\rightarrow p}{\displaystyle \frac{|F(x)-F(p)-A(x-p)|}{| x-p| }=0~,}}
\]
则称 $F(x)$ 在 $x=p$ 处
可微, 将 $F(x)$ 在 $x=p$ 处的
全微分 (简称
微分) 记作 $\mathrm{d}F(p)$,同时将线性变换 $A$ 称为 $\mathrm{d}F(p)$ 的主部,写成 $\mathrm{d}F(p)=A \triangle x,$ 其中 $\triangle x=(\triangle x_1,\triangle x_2,\cdots,\triangle x_n).$
当然,根据书写习惯,也可以写成 $\mathrm{d}F(p)=A\mathrm{d}x,$ 其中 $\mathrm{d}x=(\mathrm{d}x_1,\mathrm{d}x_2,\cdots,\mathrm{d}x_n).$
定义 2 (导映射 或 导矩阵)
设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, $F$ 可表为分量函数形式
$$
F(x)=\left(\begin{array}{c}
F_{1}(x)\\
F_{2}(x)\\
\vdots\\
F_{m}(x)
\end{array}\right)~,\quad x:=(x_{1},x_{2},\ldots,x_{n})\in\mathbb{R}^{n}~,
$$
其中 $F_{j}:\mathbb{R}^{n}\rightarrow\mathbb{R}$ 是数量函数 $(j=1,2,\ldots,m)$.
若每个 $F_{j}$ 在 $x=p$ 处可微,则 ${\displaystyle \frac{\partial F_{j}}{\partial x_{i}}(p)}$
都有意义 $(i=1,2,\ldots,n)~,$ 因而可定义
$$
\frac{\partial F}{\partial x_{i}}(p):=\left(\begin{array}{c}
\frac{\partial F_{1}}{\partial x_{i}}(p)\\
\frac{\partial F_{2}}{\partial x_{i}}(p)\\
\vdots\\
\frac{\partial F_{m}}{\partial x_{i}}(p)
\end{array}\right)\qquad (i=1,2,\ldots,n)~
$$
称为 $F(x)$ 在 $x=p$ 处关于 $x_{i}$ 变元的 偏导数, 以及也可定义
\[
\mathrm{D}F(p)=(\frac{\partial F}{\partial x_{1}}(p)~,\frac{\partial F}{\partial x_{2}}(p)~,\ldots,\frac{\partial F}{\partial x_{n}}(p))~.
\]
称为 $F(x)$ 在 $x=p$ 处的 导映射 或 导矩阵, 也叫 雅可比(Jocobi)
矩阵, 即
$$
\mathrm{D}F(p)=\left(\begin{array}{cccc}
\frac{\partial F_{1}}{\partial x_{1}}(p) & \frac{\partial F_{1}}{\partial x_{2}}(p) & \cdots & \frac{\partial F_{1}}{\partial x_{n}}(p)\\
\frac{\partial F_{2}}{\partial x_{1}}(p) & \frac{\partial F_{2}}{\partial x_{2}}(p) & \cdots & \frac{\partial F_{2}}{\partial x_{n}}(p)\\
\vdots & \vdots & & \vdots\\
\frac{\partial F_{m}}{\partial x_{1}}(p) & \frac{\partial F_{m}}{\partial x_{2}}(p) & \ldots & \frac{\partial F_{m}}{\partial x_{n}}(p)
\end{array}\right)_{m\times n}~.
$$
关于 Jocobi 矩阵的记号,有些书也将其记为 $\mathrm{D}F(p):={\displaystyle \left.\frac{\mathrm{\partial}(F_{1},F_{2},\ldots,F_{m})}{\mathrm{\partial}(x_{1},x_{2},\ldots,x_{n})}\right|_{x=p}~.}$
注:线性变换与矩阵之间存在 代数同构 的关系,见《线性变换与矩阵的代数关系》一节,这就是既可称为 导映射 又可称为 导矩阵 的原因。
下面的定理表明,上面两个定义是完全等价的。
定理 1
向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 在 $p\in\mathbb{R}^{n}$
处可微的充要条件是它的每个分量函数 $F_{j}:\mathbb{R}^{n}\rightarrow\mathbb{R}$ ($j=1,2,\ldots,$ $m$)
都在 $p$ 处可微。因此,$\mathrm{d}F(p)$ 的主部恰好是 $\mathrm{D}F(p)$, 即 $\mathrm{d}F(p)=\mathrm{D}F(p)~\mathrm{d}x$.
此定理表明,( 式 1 ) 也可以写成
\[
F(x)=F(p)+\mathrm{D}F(p)(x-p)+o(| x-p| )\quad\quad(x\rightarrow p)~.
\]
或
\[
F(p+\triangle p)-F(p)=\mathrm{D}F(p)\cdot\triangle p+o(|\triangle p|)\quad\quad(\triangle p\rightarrow0)~,
\]
其中 $\triangle p\in\mathbb{R}^{n},$ $|\triangle p|\ll1.$
注:定理 1 表明向量函数 $F$ 的微分 $\mathrm{d}F$ 只与其导矩阵 $\mathrm{D}F$ 有关,因此,有时我们也直接说该导矩阵就是它的微分,而省略 “主部” 二字。
下面给出向量函数全微分的一些例子。
例 1
若矩阵 $A\in\mathbb{R}^{m\times n}$ ($m$ 行 $n$ 列), 向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m},$
$F(x)=Ax,$ 则 $F(x)$ 在任意点 $x=p$ 处的微分都等于 $A,$ 即
\[
\mathrm{d}F(p)\equiv A~.
\]
例 2
设 $F(x,y)=(x^{2}+xy,y^{2}+xy)$, 求 $\mathrm{D}F(x,y).$
解:
$$
\mathrm{D}F(x,y)=\left(\begin{array}{cc}
2x+y\quad & x\\
y & 2y+x
\end{array}\right)~.
$$
2. 2。向量函数的方向导数
定义 3 (方向导数)
设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, 以及向量 $v\in\mathbb{R}^{n},$
定义 $F$ 在点 $p$ 处沿方向 $v$ 的 方向导数 为
\[
{\displaystyle \frac{\partial F}{\partial v}(p)={\displaystyle \lim_{\varepsilon\rightarrow0}{\displaystyle \frac{F(p+\varepsilon v)-F(p)}{\varepsilon}}~.}}
\]
定理 2 (方向导数与微分的关系)
若向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 在 $p\in\mathbb{R}^{n}$
处可微,则对任意单位向量 $v\in\mathbb{R}^{n}$, 有
\[
\frac{\partial F}{\partial v}(p)=[\mathrm{D}F(p)](v)=[\mathrm{D}F(p)]\cdot v~,
\]
其中第一个等号后的 $\mathrm{D}F(p)$ 表示导映射(看成线性变换对 $v$ 作用), 第二个等号后的 $\mathrm{D}F(p)$
表示导矩阵(看成矩阵与列向量 $v$ 作矩阵乘法运算).
3. 3。向量函数的求导法则
定理 3 (链式法则)
设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, $x\mapsto F(x)$,
又有 $G:\mathbb{R}^{m}\rightarrow\mathbb{R}^{k}$, $y\mapsto G(y)$.
假设 $F$ 在点 $p$ 处可微,$G$ 在点 $F(p)$ 处可微,则复合函数 $G\circ F$ 也在点 $p$
处可微,且
\[
\mathrm{D}(G\circ F)(p)=\mathrm{D}G(F(p))\mathrm{D}F(p)~.
\]
例 3
设 $F(x,y)=(2x+y,2y+x),$ $G(u,v)=u^{2}+v^{2}$, 则
\[
(G\circ F)(x,y)=(2x+y)^{2}+(2y+x)^{2}=5x^{2}+5y^{2}+8xy~,
\]
一方面有
$$
\mathrm{D}F(x,y)=\left(\begin{array}{cc}
2& 1\\
1 & 2
\end{array}\right),\quad\mathrm{D}G(u,v)=(2u,2v)~,
$$
\[
\mathrm{D}(G\circ F)(x,y)=(10x+8y,10y+8x)~.
\]
另一方面
$$
\mathrm{D}G(F(x,y))\mathrm{D}F(x,y) = \left.(2u,2v)\right|_{u=2x+y,\,v=2y+x}\cdot\left(\begin{array}{cc}
2 & 1\\
1 & 2
\end{array}\right)~
$$
$$
= (4x+2y,4y+2x)\left(\begin{array}{cc}
2 & 1\\
1 & 2
\end{array}\right)
= (10x+8y,10y+8x)~,
$$
说明 $\mathrm{D}(G\circ F)(x,y)=\mathrm{D}G(F(x,y))\mathrm{D}F(x,y)$.
4. 4。微分中值不等式
与数量函数拥有微分中值定理不同,向量函数没有微分中值定理,只有微分中值不等式。
定理 4 (微分中值不等式)
设 $\Omega$ 是 $\mathbb{R}^{n}$ 中的凸区域,向量函数 $F:D\rightarrow\mathbb{R}^{m}$
处处可微,则对任意 $x,y\in D,$ 存在 $x$ 与 $y$ 的连续上的点 $\xi,$ 使成立
\[
|F(x)-F(y)|\leqslant\left\Vert \mathrm{D}F(\xi)\right\Vert |x-y|~,
\]
其中 $\left\Vert \cdot\right\Vert $ 可看成是矩阵范数或有界线性算子范数。
5. 5。向量函数关于分量的微分
设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m},$ $n=k+l$, $\mathbb{R}^{n}\cong\mathbb{R}^{k}\times\mathbb{R}^{l}$.
再设点 $x\in\mathbb{R}^{n}$, $x$ 可表示为 $x=(u,v)$ 其中 $u=(u_{1},\ldots,u_{k})\in\mathbb{R}^{k}$,
$v=(v_{1},\ldots,v_{l})\in\mathbb{R}^{l}~.$
① 若 $F(u,v)$ 有关于变元 $u$ 的全微分,则其导映射记为 $\mathrm{D}_{u}F(u,v)$;
② 若 $F(u,v)$ 有关于变元 $v$ 的全微分,则其导映射记为 $\mathrm{D}_{v}F(u,v)$;
③ 若 $F(u,v)$ 有关于变元 $x$ 的全微分,则其导映射记为 $\mathrm{D}_{x}F(u,v)$ 或 $\mathrm{D}_{(u,v)}F(u,v)$,
简记为 $\mathrm{D}F(u,v)$ .
易知,此时
$$
\begin{aligned}
\mathrm{D}F(u,v) & \in L(\mathbb{R}^{n},\mathbb{R}^{m})\cong\mathbb{R}^{m\times n},\\
\mathrm{D}_{u}F(u,v) & \in L(\mathbb{R}^{k},\mathbb{R}^{m})\cong\mathbb{R}^{m\times k},\\
\mathrm{D}_{v}F(u,v) & \in L(\mathbb{R}^{l},\mathbb{R}^{m})\cong\mathbb{R}^{m\times l}~.
\end{aligned}
$$
它们之间有如下关系:
$$
\mathrm{D}F(u,v)\cdot\left(\begin{array}{c}
\mathrm{d}u\\
\mathrm{d}v
\end{array}\right)=\mathrm{D}_{u}F(u,v)\mathrm{d}u+\mathrm{D}_{v}F(u,v)\mathrm{d}v~,
$$
其中 $\mathrm{d}u=(\mathrm{d}u_{1},\ldots,\mathrm{d}u_{k})\in\mathbb{R}^{k}$,
$\mathrm{d}v=(\mathrm{d}v_{1},\ldots,\mathrm{d}v_{l})\in\mathbb{R}^{l}$
看成列向量。
设有向量函数 $F:\mathbb{R}^{k+l}\rightarrow\mathbb{R}^{m},$ $x=(u,v)\mapsto F(u,v)=F(x)$.
再设点 $\overline{x}=(\overline{u},\overline{v})\in\mathbb{R}^{k}\times\mathbb{R}^{l}~.$
若 $F$ 在点 $\overline{x}=(\overline{u},\overline{v})$ 处可微,则以下两个微分公式等价:
\[
F(\overline{x}+\triangle x)-F(\overline{x})=\mathrm{D}F(\overline{x})\cdot\triangle x+o(|\triangle x|)~,
\]
\[
F(\overline{u}+\triangle u,\overline{v}+\triangle v)-F(\overline{u},\overline{v})=\mathrm{D}_{u}F(\overline{u},\overline{v})\cdot\triangle u+\mathrm{D}_{v}F(\overline{u},\overline{v})\cdot\triangle v+o(\sqrt{|\triangle u|^{2}+|\triangle v|^{2}})~,
\]
其中 $\triangle x=(\triangle u,\triangle v)$。
写在后面:本文关于向量函数的微分、导映射、方向导数的内容,可以平行地推广到泛函分析 Banach 空间上的算子的 Frechet 微分或 Frechet 导数,这一点是十分重要的。