海森矩阵

                     

贡献者: addis

  • 本文处于草稿阶段。
预备知识 偏导数(简明微积分)

  1一个二阶可导的多元函数 $f( \boldsymbol{\mathbf{x}} )$ 的海森矩阵(Hessian matrix)2,$ \boldsymbol{\mathbf{H}} $ 的定义为

\begin{equation} H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j} ~. \end{equation}
$f( \boldsymbol{\mathbf{x}} )$ 的泰勒展开的前两项可以用梯度矢量和海森矩阵表示为
\begin{equation} f( \boldsymbol{\mathbf{x}} ) = f( \boldsymbol{\mathbf{x}} _0) + ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0) + \frac12( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) \boldsymbol{\mathbf{H}} ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) + \mathcal{O}\left((x-x_0)^3 \right) ~. \end{equation}
海森矩阵可以看做梯度矢量 $ \boldsymbol\nabla f$ 的雅可比矩阵,即
\begin{equation} H_{ij} = \frac{\partial}{\partial{x_j}} \left( \frac{\partial f}{\partial x_i} \right) ~, \end{equation}
所以有
\begin{equation} \,\mathrm{d}{( \boldsymbol\nabla f)} = \boldsymbol{\mathbf{H}} \,\mathrm{d}{ \boldsymbol{\mathbf{x}} } ~. \end{equation}

   如果 $f( \boldsymbol{\mathbf{x}} )$ 是一个二阶函数,海森矩将不随 $ \boldsymbol{\mathbf{x}} $ 变化。所以有

\begin{equation} \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} ) - \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0) = \boldsymbol{\mathbf{H}} ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0)~, \end{equation}
则函数的极值点为(令 $ \boldsymbol\nabla f = 0$)
\begin{equation} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{x}} _0 - \boldsymbol{\mathbf{H}} ^{-1} \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0)~. \end{equation}
这就是牛顿法寻找函数极小值的主要思路。


1. ^ 参考 Wikipedia 相关页面
2. ^ 也译作海瑟矩阵海塞矩阵黑塞矩阵等。

                     

© 小时科技 保留一切权利