Skip to content
Logo

Attention Is All You Need

Eric
Published date:
Edit this post

这篇 Blog 并不是想解析计算机的 Transformer 模型,而是借用这篇大名鼎鼎的论文的标题,来表达我关于“智慧”的思考。

人们总是想评价一个人的认知能力。于是人们提出了各种测试,试图把智力、推理能力、记忆力、反应速度这些东西量化,再用这些量化指标去预测一个人的未来表现,去解释一个人的成功与失败,甚至去判断一个人是否足够“聪明”。这些能力当然都很重要,但如果我们讨论的是更接近“智慧”的东西,我觉得这里面还遗漏了一个前置的能力:注意力。

现实世界不是考试。它不会把条件列好,不会把变量标清,也不会告诉你哪一项信息最关键、哪个前提其实已经变化了。很多时候,问题并没有那么难被分析,而是难被发现。此外,现实生活中,人类接触到的信息量是非常大的,特别是在信息时代,只需要一部手机就能接收到海量的信息。人们不可能把这所有的信息都做一遍深度分析,很多时候得从中首先“注意到”有用的信息,才有机会去分析它。

这里说的注意力(attention),不是那种“要专注”“不要分心”。我想说的东西更具体一些。它更接近于:一个人在复杂、嘈杂、信息不完整的环境里,是否能较早地看到重要信号,是否能意识到某个细节不对劲,是否能察觉到别人略过去但实际上很关键的东西。

换句话说,分析能力决定你如何处理已经进入视野的信息,而注意力在很大程度上决定了哪些信息会先进入视野。如果一开始就没有看到关键条件,后面的推理再严密,也只是在一套残缺的信息上做工。这样的推理当然可能看起来很漂亮,甚至很自洽,但它未必真的接近问题本身。

这也是为什么我不愿意把“智慧”理解成一种纯粹的处理能力。处理能力当然重要,但在现实里,很多差距可能更早就已经出现了。有人很会想,但总是在错误的问题上想得很深;也有人未必最擅长展开长篇推理,但他总能比别人更快地注意到什么地方出了问题、什么信息值得追下去、什么表述其实隐藏了前提。后者未必更“聪明”,但它更接近我想说的智慧。

“注意力”在很多地方都有所体现。以前做包含复杂上下文的题目时,注意力好的学生往往能更快发现题目中的关键条件,而注意力一般的学生可能会漏掉一些条件。看了答案解析后,人会发现题目本身并没有那么难,真正卡住自己的,是一开始没有看到那个让推理成立的入口。

在科研中,分析推理能力固然重要,但发现前人没有发现的问题往往更为可贵。很多人会把研究能力理解成推公式、搭方法、做实验、写结论。但真正把人拉开差距的,往往不是这些环节本身,而是更前面的部分:你注意到了什么问题,为什么会觉得某个现象值得解释,为什么会意识到数据中的某个异常并不只是噪声。在这个基础上开展研究,往往能得到更有意思的结果。

在为人处世上,一个人的智慧也常常体现在:能否观察到对方的需求,察觉对方说话时的微妙变化、情绪的细微波动,甚至是对方没有说出口的东西。只有你注意到了这些东西,才有可能做出更合适的回应。

“注意力”的重要性,也可以借深度学习做一个松散的类比。这里不是要把人的心智和模型结构直接等同起来,而是想借用 attention 的启发:智能系统并不只是依靠后端的计算能力,也依赖前端的信息选择和权重分配机制。在 Transformer 里,attention 机制会影响模型在不同 token 之间分配关注;在视觉模型里,卷积也通过局部连接和权重共享,把结构性的先验放进模型。它们在处理信息之前,先改变了信息被组织和筛选的方式,让MLP能更好的注意到关键信息。

类比到我们自己,人类的分析能力是有限的。如果没有注意力的帮助,人类不可能在海量信息中逐项分析所有东西。AI 能够在短时间内分析海量的数据,但人类现阶段强过 AI,我觉得一个原因是人类在很多开放情境里仍然拥有更强的注意力分配、语境感受和问题识别能力。拥有极高智慧的人,能够依靠注意力抓住问题的关键,从而做出超过 AI 的判断和决策。

当然,把 attention 提到这么靠前的位置,并不是说它就构成了一切。注意到,不等于理解;理解,不等于判断;判断,也不等于行动。一个人可以很敏锐,能察觉很多信号,但未必能把这些信号组织成稳定的认识。也可以很容易发现异常,但并不知道该如何解释异常。更不用说,现实中的很多事情还需要知识、经验、耐心和执行能力。这些都不是“注意到”本身能够替代的。

此外,注意力也和其他能力有着互补的关系。如果一个人对某个领域有着充分的了解,他可以把自己的精力更多地分配到注意力上,而不是努力理解一些基本的概念。反过来,如果一个人面对一个陌生的环境,他的注意力会被海量的信息所淹没。他无法判断哪些该注意,哪些不该注意,最终可能什么都注意不到。注意力和分析能力、知识储备等等都是相辅相成的,缺一不可。

我还觉得注意力与好奇心有着密切的联系。好奇心不只是情绪,也是一种注意力的分配倾向。它能驱使人去注意新的、不一样的信息,同时在注意到这些信息时给人很强的正反馈。反之,如果一个人缺乏好奇心,他可能会逐渐地封闭自我,关闭自己的注意力,最终只在自己的舒适区处理信息,从而遗漏很多关键信息。

也许所谓智慧,并不只是会想。它也包括,什么会先被你看到。