信息熵简介

贡献者： addis

本文处于草稿阶段。

　　给出一个 $N$ 元离散概率质量函数 $P (x_{i})$ （ $i = 1, \dots, N$ ），信息熵定义为

\begin{matrix} (1) & H = - \sum_{i = 1}^{N} P (i) \log_{2} P (x_{i}) . \end{matrix}

为什么要这么定义？若每个可能都是等概率的，那么

P (x_{i}) = 1 / N

，所以上式化简为

\begin{matrix} (2) & H = \log_{2} N . \end{matrix}

若要从这

N

种可能性种指明一种，所需要的信息量就是

H

比特。

　　无论是在统计力学还是信息论种，简单来说，熵代表不确定的程度。在等可能的情况下，可能性更多，就越不确定。若 $N$ 固定不变，当各种可能的概率不完全相等时，根据式 1 不难验证 $H < \log_{2} N$ 。这是因为 “知道哪种可能性更大” 本身也是一种信息。就像在做选择题时，如果对这道题完全不会，那么每个选项对考生来说都是等可能的，但如果朦胧地记得一些信息，就可能会对某个选项更有把握，信息熵就会变小。

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。