香侬的智能
香侬(Claude Shannon, 1916~2001)被誉为信息理论之父。图灵(Alan Turing, 1912~1954)则被称为计算机科学之父。1943年,香侬和图灵相遇于纽约市的贝尔实验室。尽管他们的研究题目不同,他们讨论彼此的工作,其中包括有关图灵的「通用机器」。图灵相当惊讶,香侬在一片程序码和计算机的海洋中,将艺术和文化视为数字革命不可或缺的部分,将之称为「数字DNA」。香侬在1943年告知图灵梦幻般的想法,如今已经成为现实,因为所有媒体都以数码化呈现,涵盖数百万的「文化事物」和庞大的音乐收藏。香侬在艺术、信息和计算之间建立的早期联系,直观地描绘我们今天正在经历的未来。图灵在1950年发表论文〈计算机与智能〉(Computing machine and Intelligence),首次谈到人工智能(AI),并提出「图灵测试」,为信息研究领域创建智能设计的标竿。图灵测试说,如果一台计算机能够欺骗人类相信它是人类,那麽它就应该被称为智能计算机。香侬则直接订出机器学习的目标: 「创造出击败世界冠军的象棋程序;撰写出能够被知名文学期刊选用的优美诗歌;编写能够证明或反驳黎曼猜想(Riemann hypothesis)的数学程序;设计一款收益超过50%的股票选择软件。」今日,香侬的第一个目标已在2017年由AlphaGo达成。机器学习常见的做法,是将随机事件相关联的预期信息量(expected amount of information)加以量化,并衡量概率分布之间的相似度。今日则被用作衡量概率分布信息内容的指标,则是香侬提出的信息熵(Shannon entropy)。香侬熵背后的基本概念是所谓事件的自信息(self-information),有时也称为惊奇性(surprisal)。自信息的直觉是这样的。当观察到一个不太可能发生的随机事件时,我们将其与大量信息相关联(这代表当不太可能发生的事件发生时,我们获得极大的信息量)。相反,当观察到一个很有可能的结果时,我们将其与较小的信息量相关联。将自信息视为「事件发生会造成我们多大的惊奇」非常有帮助。例如,考虑一个始终会落在正面的硬币。任何硬币投掷的结果都是完全可预测的,我们永远不会对结果感到惊讶,这意味着我们从这样的实验中获得的信息为零。换句话说,其自信息为零。如果硬币的落地面的随机性增加,则每次投掷硬币时都会有一些惊奇,尽管超过50%的时间我们仍然会看到正面。因此,自信息大于零。最大的惊奇量是在硬币是公平不偏的情况下获得的,即落在正面或反面的机会都是50%,因为这是硬币投掷结果最不可预测的情况。基于上述非正式的需求,我们可以找到一个合适的函数来描述自信息。对于一个具有可能值 x1, . . . , xn 和概率质量函数 P(X) 的离散随机变量 X,任何介于0和1之间的正单调递减函数都可以用作衡量信息的指标。还有一个额外且重要的性质,那就是独立事件的可加性;两次相继的硬币投掷的自信息应该是单次硬币投掷的两倍。对于独立变量来说,这是有意义的,因为在这种情况下,惊奇或不可预测性的数量变为两倍。藉由上述特性,香侬熵被应用于测量与一组概率相关的不确定性或信息内容。香侬熵通常用于决策树(decision tree)和其他AI模型,以量化数据集的不纯度或混乱度。例如在决策树算法中,香侬熵用作在每个节点上对数据进行分割的依据。目标是最小化熵,熵较低的节点被认为更「纯粹」或更具信息。为每种可能的分割计算熵,选择导致熵最大程度减小的分割。这个过程在决策树不断增长的情况下进行递归性地重复,得到我们想要的答案。香侬在1948年提出信息熵的概念,影响到80年后的今日机器学习的发展,真奇人也。