向量函数的微分

                     

贡献者: Relo Stern

预备知识 凸区域、矩阵、线性映射、有界线性算子、范数

   本文中我们约定,当 $x\in \mathbb{R}^n$ 时,用 $|x|$ 表示 $x$ 的欧氏范数。

1. 1。向量函数的全微分

定义 1 (全微分)

   设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, 且 $p$ 是 $\mathbb{R}^n$ 中的一点。若存在线性变换 $A:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 使成立

\begin{equation} F(x)=F(p)+A(x-p)+o(| x-p| )\quad\quad(x\rightarrow p\in\mathbb{R}^{n})~, \end{equation}
即 \[ {\displaystyle \lim_{x\rightarrow p}{\displaystyle \frac{|F(x)-F(p)-A(x-p)|}{| x-p| }=0~,}} \] 则称 $F(x)$ 在 $x=p$ 处 可微, 将 $F(x)$ 在 $x=p$ 处的 全微分 (简称 微分) 记作 $\mathrm{d}F(p)$,同时将线性变换 $A$ 称为 $\mathrm{d}F(p)$ 的主部,写成 $\mathrm{d}F(p)=A \triangle x,$ 其中 $\triangle x=(\triangle x_1,\triangle x_2,\cdots,\triangle x_n).$

   当然,根据书写习惯,也可以写成 $\mathrm{d}F(p)=A\mathrm{d}x,$ 其中 $\mathrm{d}x=(\mathrm{d}x_1,\mathrm{d}x_2,\cdots,\mathrm{d}x_n).$

定义 2 (导映射 或 导矩阵)

   设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, $F$ 可表为分量函数形式 $$ F(x)=\left(\begin{array}{c} F_{1}(x)\\ F_{2}(x)\\ \vdots\\ F_{m}(x) \end{array}\right)~,\quad x:=(x_{1},x_{2},\ldots,x_{n})\in\mathbb{R}^{n}~, $$ 其中 $F_{j}:\mathbb{R}^{n}\rightarrow\mathbb{R}$ 是数量函数 $(j=1,2,\ldots,m)$. 若每个 $F_{j}$ 在 $x=p$ 处可微,则 ${\displaystyle \frac{\partial F_{j}}{\partial x_{i}}(p)}$ 都有意义 $(i=1,2,\ldots,n)~,$ 因而可定义 $$ \frac{\partial F}{\partial x_{i}}(p):=\left(\begin{array}{c} \frac{\partial F_{1}}{\partial x_{i}}(p)\\ \frac{\partial F_{2}}{\partial x_{i}}(p)\\ \vdots\\ \frac{\partial F_{m}}{\partial x_{i}}(p) \end{array}\right)\qquad (i=1,2,\ldots,n)~ $$ 称为 $F(x)$ 在 $x=p$ 处关于 $x_{i}$ 变元的 偏导数, 以及也可定义 \[ \mathrm{D}F(p)=(\frac{\partial F}{\partial x_{1}}(p)~,\frac{\partial F}{\partial x_{2}}(p)~,\ldots,\frac{\partial F}{\partial x_{n}}(p))~. \] 称为 $F(x)$ 在 $x=p$ 处的 导映射导矩阵, 也叫 雅可比(Jocobi) 矩阵, 即 $$ \mathrm{D}F(p)=\left(\begin{array}{cccc} \frac{\partial F_{1}}{\partial x_{1}}(p) & \frac{\partial F_{1}}{\partial x_{2}}(p) & \cdots & \frac{\partial F_{1}}{\partial x_{n}}(p)\\ \frac{\partial F_{2}}{\partial x_{1}}(p) & \frac{\partial F_{2}}{\partial x_{2}}(p) & \cdots & \frac{\partial F_{2}}{\partial x_{n}}(p)\\ \vdots & \vdots & & \vdots\\ \frac{\partial F_{m}}{\partial x_{1}}(p) & \frac{\partial F_{m}}{\partial x_{2}}(p) & \ldots & \frac{\partial F_{m}}{\partial x_{n}}(p) \end{array}\right)_{m\times n}~. $$ 关于 Jocobi 矩阵的记号,有些书也将其记为 $\mathrm{D}F(p):={\displaystyle \left.\frac{\mathrm{\partial}(F_{1},F_{2},\ldots,F_{m})}{\mathrm{\partial}(x_{1},x_{2},\ldots,x_{n})}\right|_{x=p}~.}$

   :线性变换与矩阵之间存在 代数同构 的关系,见《线性变换与矩阵的代数关系》一节,这就是既可称为 导映射 又可称为 导矩阵 的原因。

   下面的定理表明,上面两个定义是完全等价的。

定理 1 

   向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 在 $p\in\mathbb{R}^{n}$ 处可微的充要条件是它的每个分量函数 $F_{j}:\mathbb{R}^{n}\rightarrow\mathbb{R}$ ($j=1,2,\ldots,$ $m$) 都在 $p$ 处可微。因此,$\mathrm{d}F(p)$ 的主部恰好是 $\mathrm{D}F(p)$, 即 $\mathrm{d}F(p)=\mathrm{D}F(p)~\mathrm{d}x$.

   此定理表明,( 式 1 ) 也可以写成 \[ F(x)=F(p)+\mathrm{D}F(p)(x-p)+o(| x-p| )\quad\quad(x\rightarrow p)~. \] 或 \[ F(p+\triangle p)-F(p)=\mathrm{D}F(p)\cdot\triangle p+o(|\triangle p|)\quad\quad(\triangle p\rightarrow0)~, \] 其中 $\triangle p\in\mathbb{R}^{n},$ $|\triangle p|\ll1.$

   定理 1 表明向量函数 $F$ 的微分 $\mathrm{d}F$ 只与其导矩阵 $\mathrm{D}F$ 有关,因此,有时我们也直接说该导矩阵就是它的微分,而省略 “主部” 二字。

   下面给出向量函数全微分的一些例子。

例 1 

   若矩阵 $A\in\mathbb{R}^{m\times n}$ ($m$ 行 $n$ 列), 向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m},$ $F(x)=Ax,$ 则 $F(x)$ 在任意点 $x=p$ 处的微分都等于 $A,$ 即 \[ \mathrm{d}F(p)\equiv A~. \]

例 2 

   设 $F(x,y)=(x^{2}+xy,y^{2}+xy)$, 求 $\mathrm{D}F(x,y).$

   : $$ \mathrm{D}F(x,y)=\left(\begin{array}{cc} 2x+y\quad & x\\ y & 2y+x \end{array}\right)~. $$

2. 2。向量函数的方向导数

定义 3 (方向导数)

   设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, 以及向量 $v\in\mathbb{R}^{n},$ 定义 $F$ 在点 $p$ 处沿方向 $v$ 的 方向导数 为 \[ {\displaystyle \frac{\partial F}{\partial v}(p)={\displaystyle \lim_{\varepsilon\rightarrow0}{\displaystyle \frac{F(p+\varepsilon v)-F(p)}{\varepsilon}}~.}} \]

定理 2 (方向导数与微分的关系)

   若向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ 在 $p\in\mathbb{R}^{n}$ 处可微,则对任意单位向量 $v\in\mathbb{R}^{n}$, 有 \[ \frac{\partial F}{\partial v}(p)=[\mathrm{D}F(p)](v)=[\mathrm{D}F(p)]\cdot v~, \] 其中第一个等号后的 $\mathrm{D}F(p)$ 表示导映射(看成线性变换对 $v$ 作用), 第二个等号后的 $\mathrm{D}F(p)$ 表示导矩阵(看成矩阵与列向量 $v$ 作矩阵乘法运算).

3. 3。向量函数的求导法则

定理 3 (链式法则)

   设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$, $x\mapsto F(x)$, 又有 $G:\mathbb{R}^{m}\rightarrow\mathbb{R}^{k}$, $y\mapsto G(y)$. 假设 $F$ 在点 $p$ 处可微,$G$ 在点 $F(p)$ 处可微,则复合函数 $G\circ F$ 也在点 $p$ 处可微,且 \[ \mathrm{D}(G\circ F)(p)=\mathrm{D}G(F(p))\mathrm{D}F(p)~. \]

例 3 

   设 $F(x,y)=(2x+y,2y+x),$ $G(u,v)=u^{2}+v^{2}$, 则 \[ (G\circ F)(x,y)=(2x+y)^{2}+(2y+x)^{2}=5x^{2}+5y^{2}+8xy~, \] 一方面有 $$ \mathrm{D}F(x,y)=\left(\begin{array}{cc} 2& 1\\ 1 & 2 \end{array}\right),\quad\mathrm{D}G(u,v)=(2u,2v)~, $$ \[ \mathrm{D}(G\circ F)(x,y)=(10x+8y,10y+8x)~. \] 另一方面 $$ \mathrm{D}G(F(x,y))\mathrm{D}F(x,y) = \left.(2u,2v)\right|_{u=2x+y,\,v=2y+x}\cdot\left(\begin{array}{cc} 2 & 1\\ 1 & 2 \end{array}\right)~ $$ $$ = (4x+2y,4y+2x)\left(\begin{array}{cc} 2 & 1\\ 1 & 2 \end{array}\right) = (10x+8y,10y+8x)~, $$ 说明 $\mathrm{D}(G\circ F)(x,y)=\mathrm{D}G(F(x,y))\mathrm{D}F(x,y)$.

  

4. 4。微分中值不等式

   与数量函数拥有微分中值定理不同,向量函数没有微分中值定理,只有微分中值不等式。

定理 4 (微分中值不等式)

   设 $\Omega$ 是 $\mathbb{R}^{n}$ 中的凸区域,向量函数 $F:D\rightarrow\mathbb{R}^{m}$ 处处可微,则对任意 $x,y\in D,$ 存在 $x$ 与 $y$ 的连续上的点 $\xi,$ 使成立 \[ |F(x)-F(y)|\leqslant\left\Vert \mathrm{D}F(\xi)\right\Vert |x-y|~, \] 其中 $\left\Vert \cdot\right\Vert $ 可看成是矩阵范数或有界线性算子范数。

5. 5。向量函数关于分量的微分

   设有向量函数 $F:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m},$ $n=k+l$, $\mathbb{R}^{n}\cong\mathbb{R}^{k}\times\mathbb{R}^{l}$. 再设点 $x\in\mathbb{R}^{n}$, $x$ 可表示为 $x=(u,v)$ 其中 $u=(u_{1},\ldots,u_{k})\in\mathbb{R}^{k}$, $v=(v_{1},\ldots,v_{l})\in\mathbb{R}^{l}~.$

   ① 若 $F(u,v)$ 有关于变元 $u$ 的全微分,则其导映射记为 $\mathrm{D}_{u}F(u,v)$;

   ② 若 $F(u,v)$ 有关于变元 $v$ 的全微分,则其导映射记为 $\mathrm{D}_{v}F(u,v)$;

   ③ 若 $F(u,v)$ 有关于变元 $x$ 的全微分,则其导映射记为 $\mathrm{D}_{x}F(u,v)$ 或 $\mathrm{D}_{(u,v)}F(u,v)$, 简记为 $\mathrm{D}F(u,v)$ .

   易知,此时 $$ \begin{aligned} \mathrm{D}F(u,v) & \in L(\mathbb{R}^{n},\mathbb{R}^{m})\cong\mathbb{R}^{m\times n},\\ \mathrm{D}_{u}F(u,v) & \in L(\mathbb{R}^{k},\mathbb{R}^{m})\cong\mathbb{R}^{m\times k},\\ \mathrm{D}_{v}F(u,v) & \in L(\mathbb{R}^{l},\mathbb{R}^{m})\cong\mathbb{R}^{m\times l}~. \end{aligned} $$ 它们之间有如下关系: $$ \mathrm{D}F(u,v)\cdot\left(\begin{array}{c} \mathrm{d}u\\ \mathrm{d}v \end{array}\right)=\mathrm{D}_{u}F(u,v)\mathrm{d}u+\mathrm{D}_{v}F(u,v)\mathrm{d}v~, $$ 其中 $\mathrm{d}u=(\mathrm{d}u_{1},\ldots,\mathrm{d}u_{k})\in\mathbb{R}^{k}$, $\mathrm{d}v=(\mathrm{d}v_{1},\ldots,\mathrm{d}v_{l})\in\mathbb{R}^{l}$ 看成列向量。

   设有向量函数 $F:\mathbb{R}^{k+l}\rightarrow\mathbb{R}^{m},$ $x=(u,v)\mapsto F(u,v)=F(x)$. 再设点 $\overline{x}=(\overline{u},\overline{v})\in\mathbb{R}^{k}\times\mathbb{R}^{l}~.$ 若 $F$ 在点 $\overline{x}=(\overline{u},\overline{v})$ 处可微,则以下两个微分公式等价: \[ F(\overline{x}+\triangle x)-F(\overline{x})=\mathrm{D}F(\overline{x})\cdot\triangle x+o(|\triangle x|)~, \] \[ F(\overline{u}+\triangle u,\overline{v}+\triangle v)-F(\overline{u},\overline{v})=\mathrm{D}_{u}F(\overline{u},\overline{v})\cdot\triangle u+\mathrm{D}_{v}F(\overline{u},\overline{v})\cdot\triangle v+o(\sqrt{|\triangle u|^{2}+|\triangle v|^{2}})~, \] 其中 $\triangle x=(\triangle u,\triangle v)$。

   写在后面:本文关于向量函数的微分、导映射、方向导数的内容,可以平行地推广到泛函分析 Banach 空间上的算子的 Frechet 微分或 Frechet 导数,这一点是十分重要的。

                     

© 小时科技 保留一切权利