von Neumann 熵

贡献者： certain_pineapple; addis

本文存在未完成的内容。
本文缺少预备知识，初学者可能会遇到困难。

预备知识　密度矩阵

　　¹ von Neumann 熵的形式来自于 Shannon 熵。

1. von Neumann 熵和量子相对熵

定义 1　von Neumann 熵

　　对于一个给定的密度矩阵，von Neumann 熵 $S\left(\rho\right)$ 的定义为：

\begin{equation} S\left( \rho \right) = \operatorname {tr}\left( - \rho \log \rho \right)~. \end{equation}

　　如果 $\left\{ \lambda_1,~\lambda_2,~\cdots \lambda_N \right\}$ 是 $\rho$ 的本征值，那么：

\begin{equation} S\left(\rho\right) = \sum_i^N \lambda_i \log \lambda_i~. \end{equation}

　　上式中应注意我们定义 $0\log0 = 0$ 来规避发散。

　　值得注意的是，定义 1 中 von Neumann 熵的底数并未指明，在某些文献中底数被定义为 $2$，在某些文献中底数则被定义为 $ \mathrm{e} $，请读者在阅读相关文献时自行判断，在大多数情况下两者并无任何本质区别，仅仅相差一个倍数，所以我们仅在涉及到 von Neumann 熵的具体数值的时候，比如讨论纠缠熵的连续性时指明底数。

　　 von Neumann 度量了一个混态的密度矩阵的 “混乱程度”，正如约化密度矩阵中提到，如果一个大系统的纯态对其中的某一个子系统取偏迹，同时如果得到了一个混态而非纯态，那么代表该子系统与剩余部分存在纠缠，这时求完偏迹的密度矩阵的 von Neumann 熵就给出了一个度量纠缠的方法，这既是其纠缠熵名字的由来。

量子相对熵

　　量子相对熵类似于经典相对熵，$\rho$ 到 $\sigma$ 的量子相对熵定义为：

\begin{equation} S\left(\rho || \sigma\right) = \operatorname {tr}\left(\rho \log \rho\right) - \operatorname {tr}\left(\rho \log \sigma\right)~. \end{equation}

　　接下来我们证明 Klein 不等式，也就是量子相对熵非负：

\begin{equation} S\left(\rho || \sigma\right) \geqslant 0~. \end{equation}

　　假设 $\rho = \sum\limits_ip_i \left| u_i \right\rangle \left\langle u_i \right| $，$\sigma = \sum\limits_jq_j \left| v_j \right\rangle \left\langle v_j \right| $。

　　带入量子相对熵的表达式：

\begin{equation} \begin{aligned} S\left(\rho || \sigma\right) &= \sum_k \left\langle u_k \right\rvert \left( \sum_ip_i \left| u_i \right\rangle \left\langle u_i \right| \sum_j\log p_j \left| u_j \right\rangle \left\langle u_j \right| - \sum_ip_i \left| u_i \right\rangle \left\langle u_i \right| \sum_j\log q_j \left| v_j \right\rangle \left\langle v_j \right| \right) \left\lvert u_k \right\rangle \\ &= \sum_{i,j,k}\left(\delta_{ik}\delta_{ij}\delta_{jk}p_i\log p_j - \delta_{ik}p_i \left\langle u_i \middle| v_j \right\rangle \left\langle v_j \middle| u_k \right\rangle \log q_j \right) \\ &= \sum_i\left( p_i\log p_i - \sum_jp_i \left\langle u_i \middle| v_j \right\rangle \left\langle v_j \middle| u_i \right\rangle \log q_j \right) \\ &= \sum_i\left(p_i\log p_i - \sum_j p_i \left\lvert \left\langle u_i \middle| v_j \right\rangle \right\rvert ^2\log q_j \right) \\ &= \sum_ip_i\left(\log p_i - \sum_j P_{ij}\log q_j\right)~. \end{aligned}~ \end{equation}

　　其中 $P_{ij} = \left\lvert \left\langle u_i \middle| v_j \right\rangle \right\rvert ^2 \geqslant 0$。易得 $\sum\limits_i P_{ij} = \sum\limits_j P_{ij} = 1$（$u_i$ 在另一组标准正交基 $\left\{v_j\right\}$ 下展开系数模方和为 1）。

　　考虑对数函数的凹凸性，则 $\sum\limits_j P_{ij}\log q_j \leqslant \log\left(\sum\limits_j P_{ij}q_j\right) = \log \left(r_i\right)$。当且仅当 $P$ 矩阵为置换阵时，不等式取等号。

　　且 $\sum\limits_i r_i = \sum\limits_{ij}P_{ij}q_j = \sum\limits_jq_j = 1$，即 $\left\{r_i\right\}$ 可视作一概率分布。

　　则有：

\begin{equation} \begin{aligned} S\left(\rho || \sigma\right) &= \sum_i p_i\left(\log p_i - \sum_j P_{ij}\log q_j\right) \\ &\geqslant\sum_i p_i\left(\log p_i - \log r_i\right) \\ &= \sum_i p_i\log\frac{p_i}{r_i}~. \end{aligned}~ \end{equation}

　　可以看出式 6 最后的形式是概率分布 $\left\{p_i\right\}$ 对概率分布 $\left\{r_i\right\}$ 的经典相对熵，由经典相对熵的非负性有 $\sum\limits_i p_i \log\frac{p_i}{r_i}\geqslant 0$。

　　则 $S\left(\rho || \sigma\right)\geqslant 0$。由此我们证明了量子相对熵是非负的。

2. von Neumann 熵的性质

　　 von Neumann 熵有以下几条性质：

纯态密度矩阵的 von Neumann 熵为 0

　　密度矩阵 $\rho$ 的 von Neumann 熵当且仅当 $\rho$ 表示纯态时为 0。我们在定义量子态的 von Neumann 熵时定义 1 ，规定了 $0\log 0 = 0$，纯态在计算 von Neumann 熵时仅会出现 $1\log 1$ 和 $0\log 0$ 项，均为 0，则纯态的纠缠熵也为 0。

von Neumann 熵存在上限

　　 von Neumann 熵存在上限，$d$ 维的希尔伯特空间中的量子态的 von Neumann 熵的最大值为为 $\log d$，当且仅当 $\rho = \frac{1}{d}I$ 时取到最大值。

　　对于这个上限的证明并不复杂，得益于我们已经在前文中证明了量子相对熵非负，所以我们仅需要计算一个量子态与 $\frac{1}{d}I$ 之间的量子相对熵即可。

\begin{equation} \begin{aligned} S\left(\rho \left|\left| \frac{1}{d}I\right.\right.\right) &= \operatorname {tr}\left(\rho\log\rho\right) - \operatorname {tr}\left( \rho\log\left(\frac{1}{d}I\right) \right) \\ &= -S\left(\rho\right) + \log d \operatorname {tr}\left(\rho\right) \\ &= \log d - S\left(\rho\right) \\ &\geqslant 0 \end{aligned}~ \end{equation}

　　所以我们可以得到 $S\left(\rho\right) \leqslant \log d$

纯态在两个子区域上的约化密度矩阵的 von Neumann 熵相等

　　如果复合系统 $AB$ 总体处于纯态，$\rho_A$ 和 $\rho_B$ 分别为其在 $A$ 区域和在 $B$ 区域分别的约化密度矩阵，那么其 von Neumann 熵相等。

　　对于定义在 $AB$ 两区域上的纯态 $ \left\lvert \psi \right\rangle $，我们取维数较大的 $N$ 维子空间称为空间 $A$，我们总可以取 $A$ 区域的一组正交基将其展开，写成： $$ \left\lvert \psi \right\rangle = \sum\limits_i^N \left\lvert a_i \right\rangle \left\lvert u_i \right\rangle = \begin{pmatrix} \left\lvert a_1 \right\rangle & \left\lvert a_2 \right\rangle &\cdots& \left\lvert a_N \right\rangle \end{pmatrix}\begin{pmatrix} \left\lvert u_1 \right\rangle \\ \left\lvert u_2 \right\rangle \\ \vdots\\ \left\lvert u_M \right\rangle \end{pmatrix}~.$$ 上式中 $\left\{ \left\lvert a_i \right\rangle \right\}$ 是 $A$ 区域上的一组正交归一基矢量，而 $\left\{ \left\lvert u_i \right\rangle \right\}$ 则是一组定义在 $B$ 区域上的，不一定正交也不一定归一的矢量。而我们总可以通过 $\left\{ \left\lvert u_i \right\rangle \right\}$ 来张成一个 $N$ 维线性空间（如果矢量不足 $N$ 个，则需引入额外的基矢量来补足），我们将这组新的基地记作 $\left\{ \left\lvert b_i \right\rangle \right\}$。则存在 $N\times N$ 的 $A$ 矩阵，使得： $$\begin{pmatrix} \left\lvert u_1 \right\rangle \\ \left\lvert u_2 \right\rangle \\ \vdots\\ \left\lvert u_N \right\rangle \end{pmatrix} = A \begin{pmatrix} \left\lvert b_1 \right\rangle \\ \left\lvert b_2 \right\rangle \\ \vdots\\ \left\lvert b_N \right\rangle \end{pmatrix}~.$$ 因此有： $$ \left\lvert \psi \right\rangle = \begin{pmatrix} \left\lvert a_1 \right\rangle & \left\lvert a_2 \right\rangle &\cdots& \left\lvert a_N \right\rangle \end{pmatrix}A\begin{pmatrix} \left\lvert b_1 \right\rangle \\ \left\lvert b_2 \right\rangle \\ \vdots \\ \left\lvert b_N \right\rangle \end{pmatrix}~.$$ 考虑矩阵 $A$ 的奇异值分解，$A = U\Sigma D^\dagger$，其中，$U$ 和 $D$ 为幺正矩阵，而 $\Sigma$ 为半正定对角矩阵，则有： $$ \left\lvert \psi \right\rangle = \begin{pmatrix} \left\lvert a_1 \right\rangle & \left\lvert a_2 \right\rangle &\cdots& \left\lvert a_N \right\rangle \end{pmatrix}U \Sigma D^\dagger\begin{pmatrix} \left\lvert b_1 \right\rangle \\ \left\lvert b_2 \right\rangle \\ \vdots \\ \left\lvert b_N \right\rangle \end{pmatrix}~.$$ 由于 $U$ 和 $D$ 的幺正特性，则其于原本的标准正交基相乘之后得到的仍然是一组标准正交基，即 $$\begin{pmatrix} \left\lvert \tilde{a}_1 \right\rangle & \left\lvert \tilde{a}_2 \right\rangle & \cdots & \left\lvert \tilde{a}_N \right\rangle \end{pmatrix} = \begin{pmatrix} \left\lvert a_1 \right\rangle & \left\lvert a_2 \right\rangle &\cdots & \left\lvert a_N \right\rangle \end{pmatrix}U~$$ 和 $$\begin{pmatrix} \left\lvert \tilde{b}_1 \right\rangle & \left\lvert \tilde{b}_2 \right\rangle & \cdots & \left\lvert \tilde{b}_N \right\rangle \end{pmatrix} = \begin{pmatrix} \left\lvert b_1 \right\rangle & \left\lvert b_2 \right\rangle & \cdots & \left\lvert b_N \right\rangle \end{pmatrix}D~$$ 都是标准正交基，那么我们记 $\Sigma$ 的第 $i$ 个对角元是 $\sigma_i$，那么我们则可以写出： $$ \left\lvert \psi \right\rangle = \sum_i \sigma_i \left\lvert \tilde{a}_i \right\rangle \left\lvert \tilde{b}_i \right\rangle ~.$$ 写道这里已经很容易看到，$ \left\lvert \psi \right\rangle $ 在以 $\left\{ \left\lvert \tilde{a}_i \right\rangle \right\}$ 和 $\left\{ \left\lvert \tilde{b}_i \right\rangle \right\}$ 为基矢分别求取约化密度矩阵时，得到的是相同的对角矩阵的形式，因此自然 von Neumann 熵也相同。

加和的密度矩阵的 von Neumann 熵

　　若 $\left\{p_i\right\}$ 是概率分布，而 $\rho_i$ 位于相互正交的空间上，那么有： $$S\left(\sum\limits_i p_i\rho_i\right) = \sum\limits_i p_i S\left(\rho_i\right) - \sum\limits_i p_i \log p_i~.$$

　　由于 $\rho_i$ 都是位于相互正交的空间上，所以其均是相互对易的，可同时对角化的，记 $\rho_i$ 的第 $j$ 个本征值为 $\lambda_i^j$，有 $\sum\limits_j \lambda_i^j = 1$，同时由于 $\sum\limits_i p_i = 1$，则 $\sum\limits_{ij}p_i\lambda_i^j = 1$，则事实上，$\sum\limits_i p_i\rho_i$ 实际上得到了一个本征值为 $p_i\lambda_i^j$（i，j 任意取值）的密度矩阵，所以有：

\begin{equation} \begin{aligned} S\left( \sum_i p_i\rho_i \right) &= -\sum_{i,j}p_i\lambda_i^j\log\left(p_i \lambda_i^j\right) \\ &= -\sum_{i,j}p_i\lambda_i^j\log p_i - \sum_{i,j}p_i\lambda_i^j\log\lambda_i^j \\ &= -\sum_i p_i\log p_i - \sum_i p_i\sum_j\lambda_i^j\log\lambda_i^j \\ &= \sum_i p_i S\left(\rho_i\right) - \sum_i p_i\log p_i~. \end{aligned}~ \end{equation}

直积态的 von Neumann 熵

　　对于 $\rho$ 和 $\sigma$ 的直积态 $\rho\otimes\sigma$，其纠缠熵为 $S\left(\rho\otimes \sigma\right) = S\left(\rho\right) + S\left(\sigma\right)$。

　　假设 $\rho$ 的本征值为 $\lambda_i^1,~i\in \left\{1,2,\cdots N^1\right\}$，$\sigma$ 的本征值为 $\lambda_i^2,~i \in \left\{1,2,\cdots N^2\right\}$。那么直积态 $\rho\otimes \sigma$ 的本征值就为 $\lambda_i^1\lambda_j^2,~i\in\left\{1,2,\cdots N^1\right\},~j\in\left\{1,2,\cdots N^2\right\}$ 共 $N^1\times N^2$ 个本征值。

　　那么类似上一条性质的，我们有:

\begin{equation} \begin{aligned} S\left(\rho\otimes\sigma\right) &= -\sum_{i,j}\lambda_i^1\lambda_j^2\log\lambda_i^1\lambda_j^2 \\ &= -\sum_{i,j}\lambda_i^1\lambda_j^2\log\lambda_i^1 - \sum_{i,j}\lambda_i^1\lambda_j^2\log\lambda_j^2 \\ &= -\sum_i \lambda_i^1\log\lambda_i^1 - \sum_i\lambda_i^2\log\lambda_i^2 \\ &= S\left(\rho\right) + S\left(\sigma\right)~. \end{aligned}~ \end{equation}

由此得证。

纠缠熵的次可加性

　　纠缠熵的次可加性说的是不等式：

\begin{equation} S\left(A,B\right) \leqslant S\left(A\right) + S\left(B\right) ~. \end{equation}

他的证明是 klein 不等式式 4 的简单应用。记 AB 总系统上密度矩阵为 $\rho_{AB}$，$A$ 和 $B$ 分别两个子系统上的密度矩阵为 $\rho_A$ 和 $\rho_B$，我们令 klein 不等式中的 $\rho = \rho_{AB}$，$\sigma = \rho_A\otimes \rho_B$。那么有：

\begin{equation} \begin{aligned} S\left(\rho_{AB}\left|\left|\rho_A\otimes\rho_B\right.\right.\right)&= \operatorname {tr}\left(\rho_{AB}\log\rho_{AB}\right) - \operatorname {tr}\left(\rho_{AB}\log\left(\rho_A\otimes\rho_B\right)\right) \\ &= -S\left(A,B\right) - \operatorname {tr}\left(\rho_{AB}\log\left(\rho_A\otimes I_B\right) + \rho_{AB}\log\left(I_A\otimes\rho_B\right)\right) \\ &= -S\left(A,B\right) - \operatorname {tr}\left(\rho_A\log\rho_A\right) - \operatorname {tr}\left(\rho_B\log\rho_B\right) \\ &= -S\left(A,B\right) + S\left(A\right) + S\left(B\right) \\ &\geqslant 0~. \end{aligned}~ \end{equation}

由此可证 $S\left(A,B\right)\leqslant S\left(A\right) + \left(B\right)$，其取等号的条件也即是 klein 不等式取等号的条件，即 $\rho_{AB} = \rho_A\otimes \rho_B$，总系统是子系统的直积态时取等号，这恰好与上一条性质相符。

纠缠熵的三角不等式

　　纠缠熵的三角不等式，也被称为 Araki-Lieb 不等式，指的是：

\begin{equation} S\left(A,B\right)\geqslant \left\lvert S\left(A\right) - S\left(B\right) \right\rvert ~. \end{equation}

除 $A$，$B$ 系统外，我们额外引入系统 $C$ 来纯化系统 $A$ 和 $B$。此时由于总系统是纯态，$S\left(A,B,C\right) = 0$，则有 $S\left(A\right) = S\left(B,C\right)$ 和 $S\left(B\right) = S\left(A,C\right)$。

　　分别考虑 $A$，$C$ 区域的次可加性和 $B$，$C$ 区域的次可加性，则有：

\begin{equation} \begin{aligned} S\left(A,C\right)&\leqslant S\left(A\right)+S\left(C\right) \\ S\left(B,C\right)&\leqslant S\left(B\right)+S\left(C\right)~. \end{aligned}~ \end{equation}

　　也可写作：

\begin{equation} \begin{aligned} S\left(B\right)&\leqslant S\left(A\right) + S\left(A,B\right) \\ S\left(A\right)&\leqslant S\left(B\right) + S\left(A,B\right)~. \end{aligned}~ \end{equation}

　　整理得：

\begin{equation} \begin{aligned} S\left(A,B\right)&\geqslant S\left(B\right) - S\left(A\right) \\ S\left(A,B\right)&\geqslant S\left(A\right) - S\left(B\right)~. \end{aligned}~ \end{equation}

　　写在一起就是 $S\left(A,B\right)\geqslant \left\lvert S\left(A\right) - S\left(B\right) \right\rvert $。

3. 纠缠熵的连续性

　　借助迹距离作为密度矩阵的度量，我们可以讨论纠缠熵的连续性。

　　纠缠熵的连续性由 Fannes 不等式保证。

定理 1　Fannes 不等式

　　设 $\rho$ 和 $\sigma$ 是两个密度矩阵，$T\left(\rho,\sigma\right)$ 是 $\rho$ 和 $\sigma$ 之间的迹距离。若 $T\left(\rho,\sigma\right) \leqslant \frac{1}{e}$，则有：

\begin{equation} \left\lvert S\left(\rho\right) - S\left(\sigma\right) \right\rvert \leqslant 2T\left(\rho,\sigma\right)\log_2 d - 2T\left(\rho,\sigma\right) \log_2\left[ 2 T\left(\rho,\sigma\right)\right]~. \end{equation}

其中 $d$ 表示希尔伯特空间的维度。

　　而对于更大的 $T\left(\rho,\sigma\right)$，有弱化版的不等式：

\begin{equation} \left\lvert S\left(\rho\right) - S\left(\sigma\right) \right\rvert \leqslant 2 T\left(\rho,\sigma\right)\log d + \frac{1}{e\ln 2}~. \end{equation}

　　在 [1] 中给出了证明，而在论文中给出了该不等式更强的形式：

\begin{equation} \left\lvert S\left(\rho\right) - S\left(\sigma\right) \right\rvert \leqslant T\left(\rho,\sigma\right)\log_2\left(d-1\right) + H\left(\left(T\left(\rho,\sigma\right),1-T\left(\rho,\sigma\right)\right)\right)~. \end{equation}

　　其中 $H(p)$ 是香农熵。

　　可见由 Fannes 不等式可得，在 $\forall 0<\epsilon,~\exists \delta>0$，当 $T\left(\rho,\sigma\right)<\delta$ 时，有 $ \left\lvert S\left(\rho\right) - S\left(\sigma\right) \right\rvert <\epsilon$，其中，$\delta$ 取 $\epsilon = x\log_2\left(d-1\right) + H\left(\left(x,1-x\right)\right)$ 的较小的解，当解不存在时，取 $f(x)=x\log_2\left(d-1\right) + H\left(\left(x,1-x\right)\right)$ 的极值点横坐标。

　　由此可以说 Fannes 不等式给出了在迹距离的度量下，纠缠熵的连续性。

1. ^ 参考了 [1] 和 Wikipedia相关界面

[1] ^ Michael A. Nielsen，Isaac L. Chuang 著，郑大钟赵千川译 量子计算和量子信息（二）——量子信息部分 清华大学出版社