凸函数（补）

贡献者：吴鑫

定义 1　凸集

　　对于一个集合 $C\subseteq\mathbb{R}^n,\forall\boldsymbol{x}_1,\cdot,\boldsymbol{x}_n,\theta_k\in[0,1], \sum_{k=1}^n\theta_k=1$ 满足

\begin{equation} \theta_1\boldsymbol{x}_1+\cdots+\theta_n\boldsymbol{x}_n\in C~ \end{equation}

称 $C$ 是凸集.

定义 2　凸集

　　对于一个集合 $C\subseteq\mathbb{R}^n,$ 存在映射 $p:\mathbb{R}^n\to\mathbb{R},p(\boldsymbol{x}),\int_Cp(\boldsymbol{x})\mathrm{d}\boldsymbol{x}=1,\forall\boldsymbol{x}\in C,$ 满足

\begin{equation} \int_C\boldsymbol{x}p(\boldsymbol{x})\mathrm{d}\boldsymbol{x}\in C~ \end{equation}

称 $C$ 是凸集.

定义 3　凸函数

　　存在映射 $f:\mathbb{R}^n\to\mathbb{R},\mathrm{dom} f$ 是凸集合，如果 $\forall\boldsymbol{x_1},\boldsymbol{x_2}\in\mathrm{dom} f, \theta\in[0,1],$ 满足

\begin{equation} f(\theta\boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2)\leqslant\theta f(\boldsymbol{x}_1) + (1-\theta)f(\boldsymbol{x}_2)~ \end{equation}

　　称映射 $f$ 是定义在 $\mathrm{dom} f$ 上的凸函数.如果满足

\begin{equation} f(\theta\boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2)<\theta f(\boldsymbol{x}_1) + (1-\theta)f(\boldsymbol{x}_2)~ \end{equation}

称映射 $f$ 是定义在 $\mathrm{dom} f$ 上的强凸函数.

定义 4　凹函数

　　存在映射 $f:\mathbb{R}^n\to\mathbb{R},\mathrm{dom} f$ 是凸集合，如果 $\forall\boldsymbol{x_1},\boldsymbol{x_2}\in\mathrm{dom} f, \theta\in[0,1],$ 满足

\begin{equation} f(\theta\boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2)\geqslant\theta f(\boldsymbol{x}_1) + (1-\theta)f(\boldsymbol{x}_2)~ \end{equation}

　　称映射 $f$ 是定义在 $\mathrm{dom} f$ 上的凹函数.如果满足

\begin{equation} f(\theta\boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2)>\theta f(\boldsymbol{x}_1) + (1-\theta)f(\boldsymbol{x}_2)~ \end{equation}

称映射 $f$ 是定义在 $\mathrm{dom} f$ 上的强凹函数.

定理 1　凸函数判定

　　 $f:\mathbb{R}^n\to\mathbb{R}$ 是凸函数，当且仅当 $g:\mathbb{R}\to\mathbb{R},g(t)=f(\boldsymbol{x}+t\boldsymbol{v}),t=\{t|\boldsymbol{x}+t\boldsymbol{v}\in\mathrm{dom} f,\boldsymbol{v}\in\mathbb{R}^n\}$ 是凸函数.

　　证明:(1)必要性

　　 $f(\boldsymbol{x})$ 是凸函数，令 $g(t)=f(\boldsymbol{x}+t\boldsymbol{v}),$ 那么对 $\forall t_1,t_2,$ 有以下关系: $$ \begin{aligned} g\left( \theta t_1+\left( 1-\theta \right) t_2 \right) &=f\left( \boldsymbol{x}+\left( \theta t_1+\left( 1-\theta \right) t_2 \right) \boldsymbol{v} \right)\\ &=f\left( \boldsymbol{x}+\theta t_1\boldsymbol{v}+\left( 1-\theta \right) t_2\boldsymbol{v} \right)\\ &=f\left( \theta \left( \boldsymbol{x}+t_1\boldsymbol{v} \right) +\left( 1-\theta \right) \left( \boldsymbol{x}+t_2\boldsymbol{v} \right) \right) \\ &\leqslant \theta f\left( \boldsymbol{x}+t_1\boldsymbol{v} \right) +\left( 1-\theta \right) f\left( \boldsymbol{x}+t_2\boldsymbol{v} \right) =\theta g\left( t_1 \right) +\left( 1-\theta \right) g\left( t_2 \right) \end{aligned}~ $$ 由此可知，$g(t)$ 是凸函数.

　　 (2)充分性

　　 $g(t)=f(\boldsymbol{x}+t\boldsymbol{v})$ 是凸函数，因此，\forall \theta \in \left[ 0,1 \right] $$ \begin{aligned} g\left( \theta t_1+\left( 1-\theta \right) t_2 \right) &=f\left( \boldsymbol{x}+\left( \theta t_1+\left( 1-\theta \right) t_2 \right) \boldsymbol{v} \right) \\ &=f\left( \boldsymbol{x}+\theta t_1\boldsymbol{v}+\left( 1-\theta \right) t_2\boldsymbol{v} \right) =f\left( \theta \left( \boldsymbol{x}+t_1\boldsymbol{v} \right) +\left( 1-\theta \right) \left( \boldsymbol{x}+t_2\boldsymbol{v} \right) \right) \\ &\leqslant \theta g\left( t_1 \right) +\left( 1-\theta \right) g\left( t_2 \right)\\ &=\theta f\left( \boldsymbol{x}+t_1\boldsymbol{v} \right) +\left( 1-\theta \right) f\left( \boldsymbol{x}+t_2\boldsymbol{v} \right) \end{aligned}~ $$ 令 $\boldsymbol{z}_1=\boldsymbol{x}+t_1\boldsymbol{v},\boldsymbol{z}_2=\boldsymbol{x}+t_2\boldsymbol{v},$ 上述不等式等价为 $$ f\left( \theta \boldsymbol{z}_1+\left( 1-\theta \right) \boldsymbol{z}_2 \right) \leqslant \theta f\left( \boldsymbol{z}_1 \right) +\left( 1-\theta \right) f\left( \boldsymbol{z}_2 \right)~ $$ 由此可知，$f(\boldsymbol{x})$ 是凸函数.

定理 2　一阶条件

　　假设 $f:\mathbb{R}^n\to\mathbb{R}$ 一阶可微，$f:\mathbb{R}^n\to\mathbb{R}$ 是凸函数，当且仅当

\begin{equation} f(\boldsymbol{y})\geqslant f(\boldsymbol{x})+\nabla^\top f(\boldsymbol{x})(\boldsymbol{y}-\boldsymbol{x})~ \end{equation}

对 $\forall\boldsymbol{x},\boldsymbol{y}\in\mathrm{dom} f$ 成立.

　　证明:(1)必要性

　　令 $\boldsymbol{z}=\theta \boldsymbol{y}+\left( 1-\theta \right) \boldsymbol{x}=\boldsymbol{x}+\theta \left( \boldsymbol{y}-\boldsymbol{x} \right),$ 由凸函数定位可知， $$ f\left( \theta \boldsymbol{y}+\left( 1-\theta \right) \boldsymbol{x} \right) =f\left( \boldsymbol{x}+\theta \left( \boldsymbol{y}-\boldsymbol{x} \right) \right) \leqslant \theta f\left( \boldsymbol{y} \right) +\left( 1-\theta \right) f\left( \boldsymbol{x} \right)~ $$ 整理得， $$ f\left( \boldsymbol{y} \right) \geqslant \frac{f\left( \boldsymbol{x}+\theta \left( \boldsymbol{y}-\boldsymbol{x} \right) \right) -\left( 1-\theta \right) f\left( \boldsymbol{x} \right)}{\theta}=f\left( \boldsymbol{x} \right) +\frac{f\left( \boldsymbol{x}+\theta \left( \boldsymbol{y}-\boldsymbol{x} \right) \right) -f\left( \boldsymbol{x} \right)}{\theta}~ $$ 让 $\theta\to 0$ 可得 $$ f\left( \boldsymbol{y} \right) \geqslant f\left( \boldsymbol{x} \right) +\lim_{\theta \rightarrow 0} \frac{f\left( \boldsymbol{x}+\theta \left( \boldsymbol{y}-\boldsymbol{x} \right) \right) -f\left( \boldsymbol{x} \right)}{\theta}=f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right)~ $$

　　 (2)充分性

　　令 $z=\theta\boldsymbol{x}+(1-\theta)\boldsymbol{y},$ 于是可以得到 $$ f\left( \boldsymbol{x} \right) \geqslant f\left( \boldsymbol{z} \right) +\nabla ^{\top}f\left( \boldsymbol{z} \right) \left( \boldsymbol{x}-\boldsymbol{z} \right)~ $$ $$ f\left( \boldsymbol{y} \right) \geqslant f\left( \boldsymbol{z} \right) +\nabla ^{\top}f\left( \boldsymbol{z} \right) \left( \boldsymbol{y}-\boldsymbol{z} \right)~ $$ 也即是 $$ \theta f\left( \boldsymbol{x} \right) +\left( 1-\theta \right) f\left( \boldsymbol{y} \right) \geqslant \theta \left( f\left( \boldsymbol{z} \right) +\nabla ^{\top}f\left( \boldsymbol{z} \right) \left( \boldsymbol{x}-\boldsymbol{z} \right) \right) +\left( 1-\theta \right) \left( f\left( \boldsymbol{z} \right) +\nabla ^{\top}f\left( \boldsymbol{z} \right) \left( \boldsymbol{y}-\boldsymbol{z} \right) \right)~ $$ 展开得 $$ \theta f\left( \boldsymbol{x} \right) +\left( 1-\theta \right) f\left( \boldsymbol{y} \right) \geqslant \theta f\left( \boldsymbol{z} \right) +\theta \nabla ^{\top}f\left( \boldsymbol{z} \right) \left( \boldsymbol{x}-\boldsymbol{z} \right) +\left( 1-\theta \right) f\left( \boldsymbol{z} \right) +\left( 1-\theta \right) \nabla ^{\top}f\left( \boldsymbol{z} \right) \left( \boldsymbol{y}-\boldsymbol{z} \right)~ $$ 进一步得到 $$ \theta f\left( \boldsymbol{x} \right) +\left( 1-\theta \right) f\left( \boldsymbol{y} \right) \geqslant \nabla ^{\top}f\left( \boldsymbol{z} \right) \left[ \theta \left( \boldsymbol{x}-\boldsymbol{z} \right) +\left( 1-\theta \right) \left( \boldsymbol{y}-\boldsymbol{z} \right) \right] +f\left( \boldsymbol{z} \right)~ $$ 也即是 $$ f\left( \boldsymbol{z} \right) \leqslant \theta f\left( \boldsymbol{x} \right) +\left( 1-\theta \right) f\left( \boldsymbol{y} \right)~ $$ 即 $$ f\left( \theta \boldsymbol{x}+\left( 1-\theta \right) \boldsymbol{y} \right) \leqslant \theta f\left( \boldsymbol{x} \right) +\left( 1-\theta \right) f\left( \boldsymbol{y} \right)~ $$ 因此，$f(\boldsymbol{x})$ 是凸函数.

定理 3　二阶条件

　　假设 $f:\mathbb{R}^n\to\mathbb{R}$ 二阶可微，$f:\mathbb{R}^n\to\mathbb{R}$ 是凸函数，当且仅当

\begin{equation} \nabla^2 f(\boldsymbol{x})\succeq 0~ \end{equation}

对 $\forall\boldsymbol{x}\in\mathrm{dom} f$ 成立.

　　证明:(1)必要性

　　由函数的泰勒展开, $$ f\left( \boldsymbol{y} \right) =f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +\frac{1}{2}\left( \boldsymbol{y}-\boldsymbol{x} \right) ^{\top}\nabla ^2f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +o\left( \left\| \boldsymbol{y}-\boldsymbol{x} \right\| ^2 \right)~ $$ 再由定理 2 可知, $$ f\left( \boldsymbol{y} \right) \geqslant f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right)~ $$ 于是可得, $$ f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +\frac{1}{2}\left( \boldsymbol{y}-\boldsymbol{x} \right) ^{\top}\nabla ^2f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +o\left( \left\| \boldsymbol{y}-\boldsymbol{x} \right\| ^2 \right) \geqslant f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right)~ $$ 因此, $$ \frac{1}{2}\left( \boldsymbol{y}-\boldsymbol{x} \right) ^{\top}\nabla ^2f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +o\left( \left\| \boldsymbol{y}-\boldsymbol{x} \right\| ^2 \right) \geqslant 0~ $$ 也即 $$ \left( \boldsymbol{y}-\boldsymbol{x} \right) ^{\top}\nabla ^2f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) \geqslant 0~ $$ 由此可知 $$ \nabla ^2f\left( \boldsymbol{x} \right) \succeq 0~ $$

　　 (2)充分性

　　由函数的泰勒展开, $$ f\left( \boldsymbol{y} \right) =f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +\frac{1}{2}\left( \boldsymbol{y}-\boldsymbol{x} \right) ^{\top}\nabla ^2f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +o\left( \left\| \boldsymbol{y}-\boldsymbol{x}\right\| ^2 \right)~ $$ 由 $\nabla ^2f\left( \boldsymbol{x} \right) \succeq$,因此 $$ \left( \boldsymbol{y}-\boldsymbol{x} \right) ^{\top}\nabla ^2f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) \geqslant 0~ $$ 也即 $$ f\left( \boldsymbol{y} \right) =f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +\frac{1}{2}\left( \boldsymbol{y}-\boldsymbol{x} \right) ^{\top}\nabla ^2f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right) +o\left( \left\| \boldsymbol{y}-\boldsymbol{x} \right\| ^2 \right) \geqslant f\left( \boldsymbol{x} \right) +\nabla ^{\top}f\left( \boldsymbol{x} \right) \left( \boldsymbol{y}-\boldsymbol{x} \right)~ $$ 由定理 2 可知，$f(\boldsymbol{x})$ 是凸函数.

习题 1　判断下列函数的凹凸性

$f(\boldsymbol{x})=\max\{x_1,\cdots,x_n\}$
$f(\boldsymbol{x})=\min\{x_1,\cdots,x_n\}$
$f\left( \boldsymbol{x} \right) =\frac{1}{2}\boldsymbol{x}^{\top}P\boldsymbol{x}+\boldsymbol{q}^{\top}\boldsymbol{x}+r,P\succeq 0$
$f\left( \boldsymbol{x} \right) =\left\| A\boldsymbol{x}-b \right\| _{2}^{2},A\in \mathbb{R} ^{m\times n}$
$f\left( \boldsymbol{x} \right) =\log \sum_{k=1}^n{\exp \,x_k}$
$f\left( \boldsymbol{x} \right) =\prod_{k=1}^n{\left( x_k \right) ^{\frac{1}{n}}}$

习题 2　

　　存在映射 $f:\mathbb{R}^n\to\mathbb{R}$,另有映射 $g:\mathbb{R}^m\to\mathbb{R}$,且 $g(\boldsymbol{x})=f(A\boldsymbol{x}+\boldsymbol{b})$,其中 $A\in\mathbb{R}^{n\times m},\boldsymbol{b}\in\mathbb{R}^m$,证明 $f$ 和 $g$ 的凸凹性一致.

凸函数（补）

定义 1 凸集

定义 2 凸集

定义 3 凸函数

定义 4 凹函数

定理 1 凸函数判定

定理 2 一阶条件

定理 3 二阶条件

习题 1 判断下列函数的凹凸性

习题 2

定义 1　凸集

定义 2　凸集

定义 3　凸函数

定义 4　凹函数

定理 1　凸函数判定

定理 2　一阶条件

定理 3　二阶条件

习题 1　判断下列函数的凹凸性

习题 2