海森矩阵

贡献者： addis

本文处于草稿阶段。

预备知识　偏导数（简明微积分）

　　¹一个二阶可导的多元函数 $f( \boldsymbol{\mathbf{x}} )$ 的海森矩阵（Hessian matrix）²，$ \boldsymbol{\mathbf{H}} $ 的定义为

\begin{equation} H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j} ~. \end{equation}

$f( \boldsymbol{\mathbf{x}} )$ 的泰勒展开的前两项可以用梯度矢量和海森矩阵表示为

\begin{equation} f( \boldsymbol{\mathbf{x}} ) = f( \boldsymbol{\mathbf{x}} _0) + ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0) + \frac12( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) \boldsymbol{\mathbf{H}} ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0) + \mathcal{O}\left((x-x_0)^3 \right) ~. \end{equation}

海森矩阵可以看做梯度矢量 $ \boldsymbol\nabla f$ 的雅可比矩阵，即

\begin{equation} H_{ij} = \frac{\partial}{\partial{x_j}} \left( \frac{\partial f}{\partial x_i} \right) ~, \end{equation}

所以有

\begin{equation} \,\mathrm{d}{( \boldsymbol\nabla f)} = \boldsymbol{\mathbf{H}} \,\mathrm{d}{ \boldsymbol{\mathbf{x}} } ~. \end{equation}

　　如果 $f( \boldsymbol{\mathbf{x}} )$ 是一个二阶函数，海森矩将不随 $ \boldsymbol{\mathbf{x}} $ 变化。所以有

\begin{equation} \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} ) - \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0) = \boldsymbol{\mathbf{H}} ( \boldsymbol{\mathbf{x}} - \boldsymbol{\mathbf{x}} _0)~, \end{equation}

则函数的极值点为（令 $ \boldsymbol\nabla f = 0$）

\begin{equation} \boldsymbol{\mathbf{x}} = \boldsymbol{\mathbf{x}} _0 - \boldsymbol{\mathbf{H}} ^{-1} \boldsymbol\nabla f( \boldsymbol{\mathbf{x}} _0)~. \end{equation}

这就是牛顿法寻找函数极小值的主要思路。

1. ^ 参考 Wikipedia 相关页面。
2. ^ 也译作海瑟矩阵，海塞矩阵，黑塞矩阵等。

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。