向量函数的微分

贡献者： Relo Stern

预备知识　凸区域、矩阵、线性映射、有界线性算子、范数

　　本文中我们约定，当 $x\in \mathbb{R}^n$ 时，用 $|x|$ 表示 $x$ 的欧氏范数。

1. 1。向量函数的全微分

定义 1　(全微分)

　　设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, 且 $p$ 是 $\mathbb{R}^n$ 中的一点。若存在线性变换 $A:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 使成立

\begin{equation} F(x)=F(p)+A(x-p)+o(| x-p| )\quad\quad(x\rightarrow p\in\mathbb{R}^{n})~, \end{equation}

即 \[ {\displaystyle \lim_{x\rightarrow p}{\displaystyle \frac{|F(x)-F(p)-A(x-p)|}{| x-p| }=0~,}} \] 则称 $F(x)$ 在 $x=p$ 处可微, 将 $F(x)$ 在 $x=p$ 处的 全微分 (简称微分) 记作 $\mathrm{d}F(p)$，同时将线性变换 $A$ 称为 $\mathrm{d}F(p)$ 的主部，写成 $\mathrm{d}F(p)=A \triangle x,$ 其中 $\triangle x=(\triangle x_1,\triangle x_2,\cdots,\triangle x_n).$

　　当然，根据书写习惯，也可以写成 $\mathrm{d}F(p)=A\mathrm{d}x,$ 其中 $\mathrm{d}x=(\mathrm{d}x_1,\mathrm{d}x_2,\cdots,\mathrm{d}x_n).$

定义 2　(导映射或导矩阵)

　　设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, $F$ 可表为分量函数形式 $$ F(x)=\left(\begin{array}{c} F_{1}(x)\\ F_{2}(x)\\ \vdots\\ F_{m}(x) \end{array}\right)~,\quad x:=(x_{1},x_{2},\ldots,x_{n})\in\mathbb{R}^{n}~, $$ 其中 $F_{j}:\mathbb{R}^{n}\rightarrow\mathbb{R}$ 是数量函数 $(j=1,2,\ldots,m)$. 若每个 $F_{j}$ 在 $x=p$ 处可微，则 ${\displaystyle \frac{\partial F_{j}}{\partial x_{i}}(p)}$ 都有意义 $(i=1,2,\ldots,n)~,$ 因而可定义 $$ \frac{\partial F}{\partial x_{i}}(p):=\left(\begin{array}{c} \frac{\partial F_{1}}{\partial x_{i}}(p)\\ \frac{\partial F_{2}}{\partial x_{i}}(p)\\ \vdots\\ \frac{\partial F_{m}}{\partial x_{i}}(p) \end{array}\right)\qquad (i=1,2,\ldots,n)~ $$ 称为 $F(x)$ 在 $x=p$ 处关于 $x_{i}$ 变元的 偏导数, 以及也可定义 \[ \mathrm{D}F(p)=(\frac{\partial F}{\partial x_{1}}(p)~,\frac{\partial F}{\partial x_{2}}(p)~,\ldots,\frac{\partial F}{\partial x_{n}}(p))~. \] 称为 $F(x)$ 在 $x=p$ 处的 导映射 或 导矩阵, 也叫 雅可比（Jocobi）矩阵, 即 $$ \mathrm{D}F(p)=\left(\begin{array}{cccc} \frac{\partial F_{1}}{\partial x_{1}}(p) & \frac{\partial F_{1}}{\partial x_{2}}(p) & \cdots & \frac{\partial F_{1}}{\partial x_{n}}(p)\\ \frac{\partial F_{2}}{\partial x_{1}}(p) & \frac{\partial F_{2}}{\partial x_{2}}(p) & \cdots & \frac{\partial F_{2}}{\partial x_{n}}(p)\\ \vdots & \vdots & & \vdots\\ \frac{\partial F_{m}}{\partial x_{1}}(p) & \frac{\partial F_{m}}{\partial x_{2}}(p) & \ldots & \frac{\partial F_{m}}{\partial x_{n}}(p) \end{array}\right)_{m\times n}~. $$ 关于 Jocobi 矩阵的记号，有些书也将其记为 $\mathrm{D}F(p):={\displaystyle \left.\frac{\mathrm{\partial}(F_{1},F_{2},\ldots,F_{m})}{\mathrm{\partial}(x_{1},x_{2},\ldots,x_{n})}\right|_{x=p}~.}$

　　注：线性变换与矩阵之间存在 代数同构 的关系，见《线性变换与矩阵的代数关系》一节，这就是既可称为 导映射 又可称为 导矩阵 的原因。

　　下面的定理表明，上面两个定义是完全等价的。

定理 1　

　　向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 在 $p\in\mathbb{R}^{n}$ 处可微的充要条件是它的每个分量函数 $F_{j}:\mathbb{R}^{n}\rightarrow\mathbb{R}$ ($j=1,2,\ldots,$ $m$) 都在 $p$ 处可微。因此，$\mathrm{d}F(p)$ 的主部恰好是 $\mathrm{D}F(p)$, 即 $\mathrm{d}F(p)=\mathrm{D}F(p)~\mathrm{d}x$.

　　此定理表明，( 式 1 ) 也可以写成 \[ F(x)=F(p)+\mathrm{D}F(p)(x-p)+o(| x-p| )\quad\quad(x\rightarrow p)~. \] 或 \[ F(p+\triangle p)-F(p)=\mathrm{D}F(p)\cdot\triangle p+o(|\triangle p|)\quad\quad(\triangle p\rightarrow0)~, \] 其中 $\triangle p\in\mathbb{R}^{n},$ $|\triangle p|\ll1.$

　　注：定理 1 表明向量函数 $F$ 的微分 $\mathrm{d}F$ 只与其导矩阵 $\mathrm{D}F$ 有关，因此，有时我们也直接说该导矩阵就是它的微分，而省略 “主部” 二字。

　　下面给出向量函数全微分的一些例子。

例 1　

　　若矩阵 $A\in\mathbb{R}^{m\times n}$ ($m$ 行 $n$ 列), 向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m},$ $F(x)=Ax,$ 则 $F(x)$ 在任意点 $x=p$ 处的微分都等于 $A,$ 即 \[ \mathrm{d}F(p)\equiv A~. \]

例 2　

　　设 $F(x,y)=(x^{2}+xy,y^{2}+xy)$, 求 $\mathrm{D}F(x,y).$

　　解： $$ \mathrm{D}F(x,y)=\left(\begin{array}{cc} 2x+y\quad & x\\ y & 2y+x \end{array}\right)~. $$

2. 2。向量函数的方向导数

定义 3　(方向导数)

　　设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, 以及向量 $v\in\mathbb{R}^{n},$ 定义 $F$ 在点 $p$ 处沿方向 $v$ 的 方向导数 为 \[ {\displaystyle \frac{\partial F}{\partial v}(p)={\displaystyle \lim_{\varepsilon\rightarrow0}{\displaystyle \frac{F(p+\varepsilon v)-F(p)}{\varepsilon}}~.}} \]

定理 2　(方向导数与微分的关系)

　　若向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 在 $p\in\mathbb{R}^{n}$ 处可微，则对任意单位向量 $v\in\mathbb{R}^{n}$, 有 \[ \frac{\partial F}{\partial v}(p)=[\mathrm{D}F(p)](v)=[\mathrm{D}F(p)]\cdot v~, \] 其中第一个等号后的 $\mathrm{D}F(p)$ 表示导映射（看成线性变换对 $v$ 作用）, 第二个等号后的 $\mathrm{D}F(p)$ 表示导矩阵（看成矩阵与列向量 $v$ 作矩阵乘法运算）.

3. 3。向量函数的求导法则

定理 3　(链式法则)

　　设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, $x\mapsto F(x)$, 又有 $G:\mathbb{R}^{m}\rightarrow\mathbb{R}^{k}$, $y\mapsto G(y)$. 假设 $F$ 在点 $p$ 处可微，$G$ 在点 $F(p)$ 处可微，则复合函数 $G\circ F$ 也在点 $p$ 处可微，且 \[ \mathrm{D}(G\circ F)(p)=\mathrm{D}G(F(p))\mathrm{D}F(p)~. \]

例 3　

　　设 $F(x,y)=(2x+y,2y+x),$ $G(u,v)=u^{2}+v^{2}$, 则 \[ (G\circ F)(x,y)=(2x+y)^{2}+(2y+x)^{2}=5x^{2}+5y^{2}+8xy~, \] 一方面有 $$ \mathrm{D}F(x,y)=\left(\begin{array}{cc} 2& 1\\ 1 & 2 \end{array}\right),\quad\mathrm{D}G(u,v)=(2u,2v)~, $$ \[ \mathrm{D}(G\circ F)(x,y)=(10x+8y,10y+8x)~. \] 另一方面 $$ \mathrm{D}G(F(x,y))\mathrm{D}F(x,y) = \left.(2u,2v)\right|_{u=2x+y,\,v=2y+x}\cdot\left(\begin{array}{cc} 2 & 1\\ 1 & 2 \end{array}\right)~ $$ $$ = (4x+2y,4y+2x)\left(\begin{array}{cc} 2 & 1\\ 1 & 2 \end{array}\right) = (10x+8y,10y+8x)~, $$ 说明 $\mathrm{D}(G\circ F)(x,y)=\mathrm{D}G(F(x,y))\mathrm{D}F(x,y)$.

4. 4。微分中值不等式

　　与数量函数拥有微分中值定理不同，向量函数没有微分中值定理，只有微分中值不等式。

定理 4　(微分中值不等式)

　　设 $\Omega$ 是 $\mathbb{R}^{n}$ 中的凸区域，向量函数 $F:D\rightarrow\mathbb{R}^{m}$ 处处可微，则对任意 $x,y\in D,$ 存在 $x$ 与 $y$ 的连续上的点 $\xi,$ 使成立 \[ |F(x)-F(y)|\leqslant\left\Vert \mathrm{D}F(\xi)\right\Vert |x-y|~, \] 其中 $\left\Vert \cdot\right\Vert $ 可看成是矩阵范数或有界线性算子范数。

5. 5。向量函数关于分量的微分

　　设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m},$ $n=k+l$, $\mathbb{R}^{n}\cong\mathbb{R}^{k}\times\mathbb{R}^{l}$. 再设点 $x\in\mathbb{R}^{n}$, $x$ 可表示为 $x=(u,v)$ 其中 $u=(u_{1},\ldots,u_{k})\in\mathbb{R}^{k}$, $v=(v_{1},\ldots,v_{l})\in\mathbb{R}^{l}~.$

　　 ① 若 $F(u,v)$ 有关于变元 $u$ 的全微分，则其导映射记为 $\mathrm{D}_{u}F(u,v)$；

　　 ② 若 $F(u,v)$ 有关于变元 $v$ 的全微分，则其导映射记为 $\mathrm{D}_{v}F(u,v)$；

　　 ③ 若 $F(u,v)$ 有关于变元 $x$ 的全微分，则其导映射记为 $\mathrm{D}_{x}F(u,v)$ 或 $\mathrm{D}_{(u,v)}F(u,v)$, 简记为 $\mathrm{D}F(u,v)$ .

　　易知，此时 $$ \begin{aligned} \mathrm{D}F(u,v) & \in L(\mathbb{R}^{n},\mathbb{R}^{m})\cong\mathbb{R}^{m\times n},\\ \mathrm{D}_{u}F(u,v) & \in L(\mathbb{R}^{k},\mathbb{R}^{m})\cong\mathbb{R}^{m\times k},\\ \mathrm{D}_{v}F(u,v) & \in L(\mathbb{R}^{l},\mathbb{R}^{m})\cong\mathbb{R}^{m\times l}~. \end{aligned} $$ 它们之间有如下关系： $$ \mathrm{D}F(u,v)\cdot\left(\begin{array}{c} \mathrm{d}u\\ \mathrm{d}v \end{array}\right)=\mathrm{D}_{u}F(u,v)\mathrm{d}u+\mathrm{D}_{v}F(u,v)\mathrm{d}v~, $$ 其中 $\mathrm{d}u=(\mathrm{d}u_{1},\ldots,\mathrm{d}u_{k})\in\mathbb{R}^{k}$, $\mathrm{d}v=(\mathrm{d}v_{1},\ldots,\mathrm{d}v_{l})\in\mathbb{R}^{l}$ 看成列向量。

　　设有向量函数 $F:\mathbb{R}^{k+l}\rightarrow\mathbb{R}^{m},$ $x=(u,v)\mapsto F(u,v)=F(x)$. 再设点 $\overline{x}=(\overline{u},\overline{v})\in\mathbb{R}^{k}\times\mathbb{R}^{l}~.$ 若 $F$ 在点 $\overline{x}=(\overline{u},\overline{v})$ 处可微，则以下两个微分公式等价： \[ F(\overline{x}+\triangle x)-F(\overline{x})=\mathrm{D}F(\overline{x})\cdot\triangle x+o(|\triangle x|)~, \] \[ F(\overline{u}+\triangle u,\overline{v}+\triangle v)-F(\overline{u},\overline{v})=\mathrm{D}_{u}F(\overline{u},\overline{v})\cdot\triangle u+\mathrm{D}_{v}F(\overline{u},\overline{v})\cdot\triangle v+o(\sqrt{|\triangle u|^{2}+|\triangle v|^{2}})~, \] 其中 $\triangle x=(\triangle u,\triangle v)$。

　　 写在后面：本文关于向量函数的微分、导映射、方向导数的内容，可以平行地推广到泛函分析 Banach 空间上的算子的 Frechet 微分或 Frechet 导数，这一点是十分重要的。

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。

向量函数的微分

1. 1。向量函数的全微分

定义 1 (全微分)

定义 2 (导映射 或 导矩阵)

定理 1

例 1

例 2

2. 2。向量函数的方向导数

定义 3 (方向导数)

定理 2 (方向导数与微分的关系)

3. 3。向量函数的求导法则

定理 3 (链式法则)

例 3

4. 4。微分中值不等式

定理 4 (微分中值不等式)

5. 5。向量函数关于分量的微分

定义 1　(全微分)

定义 2　(导映射或导矩阵)

定理 1　

例 1　

例 2　

定义 3　(方向导数)

定理 2　(方向导数与微分的关系)

定理 3　(链式法则)

例 3　

定理 4　(微分中值不等式)