ARTHURCHIAO'S BLOG

[笔记]《人工智能简史（第二版）》（2025）

1 day 7 hours ago

尼克的《人工智能简史（第二版）》从人和流派传承的角度介绍了人工智能作为计算科学一个分支的发展过程，内容和风格有点偏学术史，用作者的话说，“写法比较偏重基础和方法论，而不太注重应用”。作为一本不太“常规”的人工智能入门读物，适合领域内的部分专业读者，或者想从科学、哲学、伦理学等更高角度理解和看待人工智能的读者。

本文整理一些个人阅读笔记和思考。

水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

0 前言
- 0.1 哈代：一等智力 vs. 二等智力
- 0.2 任正非
1 达特茅斯会议：人工智能的起源， 1956
2 自动定理证明兴衰记
3 从专家系统到知识图谱
4 第五代计算机的教训
5 神经网络简史
6 计算机下棋简史
7 自然语言处理
8 向自然学习：从遗传算法到强化学习
9 哲学家和人工智能
10 人是机器吗？——人工智能的计算理论基础
11 智能的进化
12 当我们谈论生死时，我们在谈论什么？
- 12.1 苏格拉底之死和《斐多篇》
- 12.2 作者和苏格拉底之间的假想对话
13 总结
附录
后记

0 前言 0.1 哈代：一等智力 vs. 二等智力

哈代曾说科学和艺术的原创需要一等的智力，解释和欣赏（例如乐评家和书评家）是二等智力的活儿。

搜了一下哈代的原话：

It is a melancholy experience for a professional mathematician to find himself writing about mathematics. The function of a mathematician is to do something, to prove new theorems, to add to mathematics, and not to talk about what he or other mathematicians have done. Statesmen despise publicists, painters despise art-critics, and physiologists, physicists, or mathematicians have usually similar feelings; there is no scorn more profound, or on the whole more justifiable, than that of the men who make for the men who explain. Exposition, criticism, appreciation, is work for second-rate minds.

A Mathematician’s Apology，G. H. Hardy

大致意思：

让一个职业数学家花时间去阐释数学相关的东西是悲哀的。数学家的本职工作是创新，例如证明新定理，发现新东西，而不是去宣讲自己或其它数学家做了些什么。 政客鄙视政治评论家，画家鄙视艺术评论者，生理学家、物理学家或数学家通常都有类似的感受。 没有任何嘲笑，能比创造者对解释者的嘲笑来得更深远，或在整体上更为合理。阐释、批评、欣赏，都是二等智力者的工作。

《一个数学家的自白》，哈代

0.2 任正非

任正非是二十一世纪的哈代。

我自己日暮黄昏，但任正非只七十四岁，来日方长。我希望任先生不要管他人怎样说，因为哈代说得清楚，“没有任何嘲笑能比创作者对解释者的嘲笑来得更深奥，或在整体上更为合理。阐释、批评、欣赏，都是只有二等脑子的人的工作。”

张五常：任正非是今天的哈代吗, 2019

1 达特茅斯会议：人工智能的起源， 1956

What is past is prologue. - William Shakespeare

翻过往皆为序章。

1.1 经典读物

“Man viewed as a Machine” 介绍了图灵机和冯诺依曼的细胞自动机。
- muscle machine
- brain machine - 人工智能的另一种说法
Alchemy and Artificial Intelligence (PDF),《炼金术与人工智能》，1965
《计算机不能干什么》
《Human Memory and the Storage of Information》1956

是《The Magic Number Seven》的另一个版本。

一门年轻的学科，一开始都需要一点“过度销售”（excessive salesmanship） - Minsky

1.2 Chomsky：机器可以思考吗？-> 潜艇会游泳吗？

2015 年他被问及“机器可以思考吗？”，他套用计算机科学家 Dijkstra 的说法反问：“潜艇会游泳吗？”

Youtube: Noam Chomsky - Can Machines Think?

1.3 AI 的两面：工程和科学

Chomsky 把 AI 分成工程的和科学的：

工程的一面，如自动驾驶车等，能做出对人类有用的东西；
科学的一面，Chomsky 明显不认可。

他引用图灵的话：这问题 too meaningless to deserve discussion（没有讨论的意义）。

当一帮奇点理论的粉丝带着正面的期望采访 Chomsky 时，他却对人工智能这个被他深刻影响过的学科没太当回事，他认为气候和毁灭性武器是比奇点更紧迫的问题。

2 自动定理证明兴衰记

As a material machine economises the exertion of force, so a symbolic calculus economises the exertion of intelligence … the more perfect the calculus, the smaller the intelligence compared to the results. —— W. E. Johnson

就像机器能省体力一样，符号演算能省脑力。演算越完美，付出的脑力就越少。

Proof is cultivated reasoning. —— Bruno Buchberger

2.1 自动定理证明的起源数学哲学三大派

逻辑主义
- 代表人物：罗素，
- 把数学归约到逻辑，因此只要把逻辑问题解决了，之上的数学问题自然就解决了。
- 换句话说，把逻辑玩转了，数学就不算事儿。
形式主义
- 代表人物：希尔伯特
- 把数学形式化，数学过程就是把一串符号变成另一串符号。
- 希尔伯特设想，如果能设计一个大一统的算法，那么所有的数学问题都可以由这个算法来解答。这和逻辑主义精神有一定相通之处。哥德尔后来证明这一切是不可能的。
直觉主义

机器定理证明的研究从某种意义上继承了罗素和希尔伯特的思想：用机器来证明和判定那些可以证明和判定的问题。纽厄尔和司马贺的“逻辑理论家”就是早期的机器定理证明程序，他们曾经给罗素写信，期盼能得到伟人的首肯，罗素在回信时说：“我相信演绎逻辑里的所有事，机器都能干。”

逻辑学的源头：亚里士多德三段论

自动定理证明起源于逻辑，初衷就是把逻辑演算自动化。

逻辑学的源头是亚里士多德的三段论：人必有一死，苏格拉底是人，所以苏格拉底必死。

2.2 思想实验：Brain in a vat

把一个人脑放在可以让它继续存活的营养液里，然后插上各自传感器，再连接到电脑，可以通过电脑准确地向这个大脑发送各自传感器刺激（例如让它觉得是在跑步的信号）。问题：如果有这样一个人脑，那它能否判断出自己是一个正常人体内的大脑，还是一个缸中插满传感器的孤零零的大脑？

In philosophy, the brain in a vat (BIV) is a scenario used in a variety of thought experiments intended to draw out certain features of human conceptions of knowledge, reality, truth, mind, consciousness, and meaning.

Wikepedia Brain in a vat:

2.3 王浩（1921—1995）

可以公正地说，王浩的定理证明研究孕育了整个理论计算机科学。

王浩以哥德尔的权威诠释者和知音名世，但他对哲学、逻辑学、计算机科学的原创性却被低估了。

王浩在致获奖词时半开玩笑地说，因为自己的个性，荣誉经常绕道而行。

王浩的定理证明程序后来成为高级语言的基准程序，麦卡锡的 LISP 早期就一直以王浩算法的程序作为例子。

2.4 吴文俊（1919—2017）

1979 年，吴文俊的工作得到杨振宁的关注，当时的科学院大力支持吴文俊，并为他申请到两万五千美元的外汇到美国购买一台家用电脑，以实现他的吴方法。

高龄开始学习编程

吴文俊的长寿也体现在他的学术生命上。1979 年吴文俊 60 岁高龄开始学习计算机编程语言，先是 BASIC，后是 Algol，再后是 Fortran。他在那台两万五千美元的家用电脑上不断取得新的成果。后来系统所的硬件设施改进，吴文俊相当一段时间都是上机时间最长的。

为人类文明做出贡献

杨振宁曾说他最重要的成就是提高了中国人的自信。陈省身、华罗庚、杨振宁、李政道那一批人是最早为人类文明做出贡献的中国人。那个不长的名单里还应该有王浩和吴文俊。

吴文俊生平：《走自己的路》

2.5 哲学问题有黑盒的理解不能算理解，有黑盒的证明也不能算证明

Chomsky 对统计派机器翻译的批评：有黑盒的理解不能算理解，有黑盒的证明也不能算证明。

人已经无法核实部分计算机证明的结果

传统的数学实践遵循共同体过程：一个数学家提出证明，然后一堆同一共同体的专家来验证，如果验证通过，定理成立。费马大定理的证明、庞加莱猜想的证明和张益唐的证明，都是这个套路。
有些机器证明太长，人根本看不过来，那怎么才算是证明了定理呢？如果用一个可被信任的计算机程序验证一遍，是不是就算是证明了呢？罗宾斯猜想的证明就曾用 Mathematica 验证过，而 AUTOMATH 本身就是一个验证系统。对全自动的定理证明，验证过程更容易机械化，而计算机辅助证明可能五花八门，很难有一个统一的过程。

数学家的归宿

无论如何，数学共同体的实践标准在变：从数学家之间互相核实到数学家信任的程序之间互相核实。也难怪传统的数学家在抱怨：数学变成了有成本的实验科学。

其实那些典型的物理科学，例如物理、化学和生物学，是以实验为本的，可重复性（reproducibility）是检验真理的标准之一。只不过在当下，可重复性的成本太高。当下的数学变得越来越实验，而生物学可能变得越来越后现代了。 无论是唯心或唯理的数学，还是唯物或经验的实验科学，最终都成了共同体式的实用主义。

吴文俊和芒福德联合得了 2006 年的邵逸夫数学奖。得奖评语最后一句，大意是他俩都是从纯数学的分支拓扑最后转到和计算机科学相关的研究，这为数学家的未来行为模式提供了典范。

吴文俊曾留学法国，法国的数学家素有关心数学史的传统。
吴文俊认为中国数学是巴比伦式的而不是希腊式的，巴比伦数学讲究计算，而希腊数学讲究公理。

计算模糊了理性和经验的边界

自动定理证明依靠的工具是计算机，正是计算模糊了理性和经验的边界。可以登高一步说：计算是知识演化的基础，计算也是知识民主化的工具。

2.6 现状时代交替 (2006)：定理证明小组被裁，深度学习论文横空出世

阿贡实验室的定理证明小组 2006 年被裁掉了，这大概算是符号派低潮的标志性事件，一个时代结束了。这一年 Hinton 的深度学习论文发表在《科学》杂志上。

有些领域，一开始就把 80% 的容易问题都解决了，而后就一直很难，进展很慢，少有突破。人工智能就是这样，定理证明尤其如此。深度学习领域近来的进步更多得益于硬件。

定理证明领域的名字演化

定理证明领域的名字也经历了有趣的演化。

最早都叫机器定理证明（Mechanical Theorem Proving），
后来改叫自动定理证明（Automatic Theorem Proving），
再后来叫自动演绎（Automated Deduction），目前都叫自动推理（Automated Reasoning）。

原因很简单，演绎（deduction）只是推理的一种，现在归纳（induction）、溯因（abduction）也都算成推理了。

贝叶斯推理，可以叫 Bayesian Logic，或 Bayesian Inference，也可以叫 Bayesian Reasoning。

2.7 结束语数学家不把逻辑学家当回事

王浩曾经抱怨数学家不把逻辑学家当回事。图灵也有类似的说法：逻辑学家给数学家提供了有营养的饭菜，但做的不够美味，数学家不爱吃。

逻辑似乎处于一切科学的底部，因为逻辑探索一切事物的本质

维特根斯坦曾有言：“逻辑似乎处于一切科学的底部 —— 因为逻辑的研究探索一切事物的本质。” 但数学家不觉得他们非得趴在逻辑学家的背上。自动定理证明的状况与此相关，数学家没觉得这玩意儿有用，人工智能的两派人马都不待见。

哈尔莫斯（Paul Halmos）是数学家，但也曾涉猎逻辑，在自传里拿逻辑开玩笑，说即使有人证明了黎曼猜想是不可判定的（哥德尔就是这么猜测的），数学家睡一觉，第二天起来还是该干嘛干嘛。

两个 Alpha-zero 下棋，我们人类已经看不懂了

法国数学家 David Ruelle，《Post-Human Mathematics》： 也许某一天，我们人类看机器做数学，就像黑猩猩看我们阅读伽罗瓦理论。其实这种情况已经发生了：两个 Alpha-zero 下棋，我们人类已经看不懂了。

3 从专家系统到知识图谱

The test of all knowledge is experiment. —— Feynman Lectures on Physics（《费曼物理学讲义》）

3.1 机器归纳法：用现在的话说就是机器学习 3.2 知识表示

知识表示一直是人工智能不温不火的一个领域，催生者是专家系统和自然语言理解。

逻辑是最方便的知识表示语言

逻辑是最方便的知识表示语言，从亚里士多德开始人们就熟悉，逻辑同时具有各种数学性质。任何一本逻辑入门书都会有那个著名的苏格拉底的例子：人必有一死，苏格拉底是人，所以苏格拉底必死。

心理学与语言学

知识表示的另一个来源是心理学和语言学，例如概念的上下位继承关系最方便的表示方式是树而不是一阶逻辑。

心理学实验表明，人在回答“金丝雀会飞吗？”要比回答“鸟会飞吗？”花的时间长，要回答第一个问题，人要再做一次“金丝雀是鸟”的推理。因为人在存储知识时只存储抽象的，这是空间经济的考虑。

心理学家米勒和 Chomsky 等一起开拓了认知科学，他最出名的论文大概就是那篇“魔力数字七”（The Magic Number Seven）。

Minsky 的框架：面向对象

框架（Frame）就是类型。

金丝雀是鸟，所有鸟的性质自动流传给金丝雀，鸟能飞，金丝雀也能飞。
苹果手机是手机，手机能打电话，苹果手机也能打电话。

框架导致了面向对象（OO，Object-Oriented）的设计哲学，相关的程序设计语言都受此影响。

当一个概念有了成熟的实现时，就自动脱离了人工智能

从这个意义上还真验证了：当一个概念有了成熟的实现时，就自动脱离了人工智能。

3.3 知识库把人类的常识编码，建成知识库

想法：把人类的常识编码，建成知识库。这个新项目叫 Cyc，这其实就是最早的知识图谱。

雷纳特坚定地支持他老师费根鲍姆的知识原则（Knowledge Principle）：一个系统之所以能展示高级的智能理解和行为，主要是因为在所从事的领域所表现出来的特定知识：概念、事实、表示、方法、比喻以及启发。
雷纳特甚至说：“智能就是一千万条规则。”

“知识汤”（knowledge soup）的说法：我们脑子里的知识不是一坨知识，而是好几坨知识，每一坨内部是一致的，但坨和坨之间可能不一致，坨和坨之间是松散耦合的。

Cyc 的原始目标更像是当今的维基百科，不过维基百科的受众是人，Cyc 的用户是机器。

学习只在已知事物的边缘发生

雷纳特曾说：“学习只在已知事物的边缘发生，所以人们只可能学到与自己已知相似的新东西。如果你试图学习的东西与你已知的东西距离不远，那么你就能学会。这个边缘的范围越大（你已知的东西越多），就越有可能发现新的东西。”

3.4 语义网（HTTP/HTML）

由专家系统一脉相传的这一派自身的逻辑功力不够，另一方面，他们的工程实践又略显欠缺。直到歪打正着的万维网支持者之一 Tim Berners-Lee 提出“语义网”（Semantic Web），他们认为机会来了。

伯纳斯-李因为草根且便捷的 HTTP 协议和 HTML 出了名，被各种媒体称为万维网的发明人。 20 年后，伯纳斯-李不负所望得了 2016 年图灵奖，这大概是图灵奖有史以来含金量最低的一个。

3.5 计算机科学的划分

计算机科学的划分

3.6 对知识做梳理是人类最早的智力活动之一

对人类的知识做梳理是人类最早的智力活动之一，也是人类的集体自我意识。

当欧洲还在黑暗时期时，伊斯兰科学迎来了黄金期。法拉比（Al-Farabi）是伊斯兰世界第一个自成系统的哲学家，他对亚里士多德的注释和对柏拉图与亚里士多德哲学的调和对后代阿拉伯哲学和西方哲学影响很大，被称为“亚圣”（Second Master 或者 Second Teacher），首圣当然是亚里士多德了。

4 第五代计算机的教训

People learn from history that people never learn from history. – Georg Wilhelm Friedrich Hegel（黑格尔）

Those that fail to learn from history, are doomed to repeat it. Winston Churchill（丘吉尔）

日本早年神经网络研究的先驱福岛邦彦和甘利均一。

当下流程的卷积神经网络 CNN 的源头就是福岛邦彦的工作。

在福岛邦彦和甘利均一的壮年，日本都把资金投入到了五代机，他们没赶上好时候。

5 神经网络简史

I bet the human brain is a kludge. Marvin Minsky

自图灵提出“计算机与智能”起，就一直有两派观点：

一派认为实现人工智能必须用逻辑和符号系统，这一派看问题是自顶向下的；
还有一派认为通过仿造大脑可以达到人工智能，这一派是自底向上的，他们认为如果能造一台机器，模拟大脑中的神经网络，这台机器就有智能了。

5.1 神经网络的初创文章，1943

神经网络的原创文章发表于 1943 年，两位作者都是传奇人物：麦卡洛克（Warren McCulloch）和皮茨（Walter Pitts）。Pitts 打小就喜欢数学和哲学，初中时就读过罗素的《数学原理》，还和罗素通过信。

A Logical Calculus of the Ideas Immanent in Nervous Activity, 1943

神经网络的开山之作：A Logical Calculus of the Ideas Immanent in Nervous Activity，发表在 Bulletin of Mathematical Biology 上。

这篇文章成了控制论的思想源泉之一。
这篇文章只列了三篇貌似不相关的参考文献，卡尔纳普的《语言的逻辑句法》，希尔伯特和他学生阿克曼合著的《数理逻辑基础》，怀特海和罗素的《数学原理》。

5.2 维纳

控制论的创始人维纳（Norbert Wiener）早年自称神童，他爸是哈佛大学教授，曾经带着他到英国见过罗素，但罗素特不喜欢这孩子和他爹。自打进入 20 世纪后，甭管哪门哪派的学问，最后都能扯到罗素那儿。

维纳后来也在哈佛大学任教，但不被主流数学家喜欢，没拿到终身教职。最后到了隔壁的麻省理工学院落脚，在“二战”时搞了点武器研究。那时最好的数学家和物理学家都参与了造原子弹的“曼哈顿”计划，维纳却没沾边。这也许同他的个性有关系，他的同事和家人都觉得他对数学之外的事情反应迟钝。维纳提出“控制论”后出了大名。

维纳曾写过两卷本的自传：《昔日神童》（Ex-prodigy）和《我是数学家》。不喜欢维纳的人开玩笑说，应该是《昔日数学家》和《我是神童》，嘲讽维纳的数学不入主流，同时暗示维纳对自己神童身份的过高自视。

维纳无论如何首先是一位严谨的数学家，而 McCulloch 则被人称为是浪漫的科学家。所谓“浪漫”不是指生活，而是说他对科学思想的表述方式。

维纳曾经把为大脑建模作为他学术生涯的最后野心。

强化学习之路：维纳 -> 阿比卜 -> Andy Barto -> Richard Sutton

阿比卜的“杂学”体现在他那本科普书《大脑、机器和数学》里，其实他本科毕业论文已初露端倪，题为“Turing Machines, Finite Automata, and Neural Nets”。

阿比卜后来创办了麻省大学的计算机系，并延揽一帮人工智能人马，其中有后来以强化学习出名的巴托（Andy Barto），使麻省大学的人工智能曾在很长一段时间都处于领先地位。

5.3 罗森布拉特和感知机

神经网络研究的后一个大突破是在 1957 年。康奈尔大学的实验心理学家 Frank Rosenblatt 在一台 IBM-704 计算机上模拟实现了一种他发明的叫作“感知机”（Perceptron）的神经网络模型。这个模型可以完成一些简单的视觉处理任务。这在当时引起了轰动。

Perceptrons: An Introduction to Computational Geometry

影响巨大、“是也非也”的书：《感知机：计算几何学》（Perceptrons: An Introduction to Computational Geometry）。

在书中，Minsky 和佩珀特证明单层神经网络不能解决 XOR（异或）问题。
异或是一个基本逻辑问题，如果连这个问题都解决不了，那神经网络的计算能力实在有限。

感知机的失败导致了神经网络研究的式微，用加州理工学院的集成电路大佬米德（Carver Mead）的话说是“二十年大饥荒”。 Minsky 1988 年在《感知机：计算几何学》一书再版时，删除了第一版中对罗森布拉特个人攻击的句子，并手写了 In memory of Frank Rosenblatt。

5.4 神经网络的复兴解决 XOR 问题：神经网络多加一层+后向传播

1974 年，哈佛大学的一篇博士论文证明了在神经网络多加一层，并且利用“后向传播”（back-propagation）学习方法，可以解决 XOR 问题。

Paul Werbos 这篇文章刚发表时并没引起多少重视，那时正是神经网络研究的低谷，文章不合时宜。
Paul Werbos 也是递归神经网络 RNN 的原创者。但在深度学习大火后，他的兴趣转向了量子力学。

Hopfield 神经网络：来自物理学而非生物学的突破

神经网络在 20 世纪 80 年代的复兴归功于物理学家 John Hopfield。

1982 年，Hopfield 提出了一种新的神经网络，可以解决一大类模式识别问题，还可以给出一类组合优化问题的近似解。这种神经网络模型后来被称为 Hopfield 网络。
1984 年，Hopfield用模拟集成电路实现了自己提出的模型。

Hopfield 模型的提出振奋了神经网络领域。

神经网络的这次复兴和生物学没啥关系，它既不是来自生物学的刺激，也没有给生物学送去任何慰藉。
倒是它来源于物理学家，并引起了物理学家的关注，曾经一批对复杂系统感兴趣的物理学家在交叉学科杂志上接二连三地发表文章。

连接主义运动（Hinton）

一帮早期神经网络研究的“幸存者”，在生物学家克里克（Francis Crick）和认知科学大佬诺曼（Don Norman）的鼓励下，开始了连接主义（Connectionism）运动。领导者：

两位心理学家鲁梅尔哈特（David Rumelhart）和麦克利兰德（James McLelland），
一位计算机科学家辛顿（Geoffrey Hinton）。

连接主义运动的成果之一就是那本被称为 PDP（Parallel Distributed Processing）的著名文集（分两卷）。此书的出版给认知科学和计算机科学吹了股春风，被神经网络新秀称为“圣经”。

Rumelhart -> Michael Jordan -> Andrew Ng

连接主义运动也培养了一堆新人，并使得加州大学圣地亚哥分校的认知科学系成为同类系科的佼佼者。

Rumelhart 后转往斯坦福大学任教，乔丹（Michael Jordan）就是他的学生，而吴恩达（Andrew Ng）又是乔丹的学生。
Rumelhart 的另一名学生格 Robert Glushko 后来远离本行，跟随硅谷互联网早期英雄 Marty Tennenbaum 创立了一家公司，赚了一票钱。格鲁什科捐钱设立了“Rumelhart 奖”来奖励神经网络的研究者，辛顿成了第一位获奖者。

Chomsky：统计的方法不优雅，只是模仿而不是理解

Chomsky 认为统计的方法不“优雅”（elegant），只是模仿而不是理解。 会骑自行车不算理解，对自行车为什么不倒，能说清道理，才算理解。

Peter Norvig：在理解之前不妨碍模仿先上

谷歌的研发总监 Peter Norvig 为统计方法辩护时说：简单的模型（如 Chomsky 理论，以及后来的各种改进版本）不能解决复杂的问题，人工智能的进一步发展必须两条腿走路。

诺维格在加入谷歌之前曾是加州大学伯克利分校的计算机教授，他对两派都了如指掌，在学术界和工业界都被尊重，他写的《人工智能》是最流行的教科书。

5.5 深度学习

神经网络在 20 世纪 80 年代的光芒被后来的互联网掩盖了。

但这几年，恰恰是互联网产生的海量数据给了神经网络更大的机会。
人工智能学者在计算机系曾经是最抬不起头的，这几年却人人都变成了大知识分子。

网络对应的概念：一层网络就是一个函数

神经网络由一层一层的神经元构成。层数越多，就越深，所谓深度学习就是用很多层神经元构成的神经网络实现机器学习的功能。理论上说，

如果一层网络是一个函数的话，多层网络就是多个函数的嵌套。
网络越深，表达能力越强，但伴随而来的训练复杂性也急剧加大。

Hinton 2006：降维和逐层训练，使深度学习的实用化成为可能

辛顿是深度学习的先驱，他和学生在 2006 年发表的两篇文章开辟了这个新领域，

登在《科学》上的那篇提出了降维和逐层预训练的方法，使得深度学习的实用化成为可能。
深度神经网络最后几层的每个节点都可对应于某些概念。这是神经网络的一大进步，调和了与符号派的矛盾。至于符号派买不买账，就是另一回事了。

6 计算机下棋简史

Play is the beginning of knowledge.—— George Dorsey

6.1 图灵， ~1944

二战没结束时，图灵就研究计算机下棋，他 1947 年编了第一个下棋程序。
Donald Michie 是图灵的追随者，1950 年试着在纸上模拟程序，和图灵对弈。
Dietrich Prinz 接着图灵的思路，在 1951 年写了一个残局程序，能在离将死还有两步的情况下，找到最优解。这个问题也被称为“两步将死”（mate-in-two）问题。

6.2 冯诺依曼，《博弈论》提出 MiniMax 算法， 1944 《博弈论》, 1944

几乎和图灵同时，冯诺伊曼也在研究计算机下棋，他和经济学家摩根斯顿合作的《博弈论》1944 年出版，其中首先提出两人对弈的 Minimax 算法。

Minimax 算法中，二人对弈的一方为 max，另一方为 min，max 一方的评估函数要越高越好，min 一方的则越低越好。

max 和 min 的对弈就形成了博弈树。
树的增长是指数式的，当树很深时，树的规模会变得不可控。
麦卡锡首先提出α-β剪枝术以控制树的增长。

6.3 香农：开创计算机下棋的理论研究，1950 Programming a Computer for Playing Chess, 1950

香农（Claude Shannon）1950 年在《哲学杂志》发表“计算机下棋程序”（Programming a Computer for Playing Chess）一文，开启了计算机下棋的理论研究，其中主要思路在“深蓝”和 AlphaGo 中还能看到。

香农把棋盘定义为二维数组，
每个棋子都有一个对应的子程序计算棋子所有可能的走法，
最后有个评估函数（evaluation function）。

传统的棋局都把下棋过程分为三个阶段：开局、中局和残局，不同阶段需要不同的技术手段。

香农的论文引用了冯诺伊曼的《博弈论》和维纳的《控制论》。

6.4 IBM 深蓝战胜卡斯帕罗夫， 1997

1997 年 5 月 11 日，老卡认输，“深蓝”成了第一位战胜当时世界冠军的机器。事后，卡斯帕罗夫回忆：第二局是关键，机器表现超出他的想象，它经常放弃短期利益，“showing a very human sense of danger”。

在“深蓝”赢了卡斯帕罗夫之后，职业棋手并没有因此而改行，他们反而更多地依赖计算机来训练。 机器作为教练，反而更快地帮助人类棋手进步，因为过去的孩子从来就没有机会能和特级高手比赛。

6.5 AlphaGo：首次引入了强化学习

谷歌的 AlphaGo 首次引用了强化学习（Reinforcement Learning），让机器和自己对弈学习。强化学习的发明者是巴托（Andy Barto）和他的学生萨顿（Richard Sutton）。

强化学习 80 年代就发明了，但一直不被重视，是 AlphaGo 使得它焕发新生。

7 自然语言处理

the noblest pleasure is the joy of understanding - Leonardo da Vinci

It is not our aim to refine or complete the system of rules for the use of our words in unheard-of ways. - Wittgenstein

7.1 Chomsky 《句法结构》

Chomsky 之于语言学和认知科学，就像图灵之于计算机科学。他认为，

所有的语言（人工或自然）都有类似的句法结构，
语言的结构是内在的，而不是通过经验习得的，
代表作《句法结构》。一本小册子，不需要什么背景就能读。

Brown (1988，1990)是统计派的奠基作品，正文只有 6 页，虽是学术论文，却非常可读。

经验主义靠近科学，理性主义靠近数学

从某种意义上说，行为主义是极端的经验主义。

所有黑盒理论，无论是神经网络还是统计派，在 Chomsky 眼里都属行为主义。
Chomsky 认为理论应该先于事实。他常以遗传学祖师爷孟德尔为例，但孟德尔常常删改不支持理论的数据。

Chomsky 认为心身（mind-body）问题是个伪问题，难度倒不在于如何定义 mind，而在于连什么是 body 这样貌似简单的问题都无法明确地说清。

他认为 mind 的研究终究会变成像物理学、化学那样的学问，只不过现在还要用心理学的术语逐步获得进展。
语言学是突破口之一，由此可以找到 “mind” 的物理机制。
从这个意义上说，Chomsky 也不完全反对经验主义。

语言学的牛顿？

Chomsky 比较了笛卡儿和牛顿的理论，认为牛顿为物质世界提供了一个解释理论，但笛卡儿却没有为语言的创造性使用提供满意的解释。他自认为他正在向这个方向前进。也有人称 Chomsky 是语言学的牛顿。

科学方法素有 explanation 和 redescription 之分。

统计方法可看作一种 redescription，但不是 explanation。
Chomsky 不认可语言学的统计方法。

活着的人里被引用次数最多的知识分子？

Chomsky 是活着的人里被引用次数最多的知识分子，即使从苏格拉底算起，他的引用数也可排进前十。

他的时事评论几十年来都被广为关注，这一点颇像他的偶像罗素。他的独特政治观点体现在他对当代政治事件的评论上。
人们轻率地把 Chomsky 划为左派，其实，他是反建制者，永远怀疑权威，永远同情人民。
Chomsky 作为犹太人，却不被以色列接受，因为他同情巴勒斯坦的立场。以色列甚至拒绝给 Chomsky 发签证。
Chomsky 在任何地方的学术演讲，最后总要“饶”一段儿同等时间的政治评论，就像演出的返场。

Chomsky 敬仰的人不多，无政府主义者乔治·奥威尔是一个，罗素是另一个。很多人拿 Chomsky 和罗素做比较，

罗素在出版了《数学原理》后很少再有原创的知识贡献，兴趣转向政治；
Chomsky 在《句法结构》之后也成为一位社会活动家和公共知识分子。

但 Chomsky 仍然不断有科学成果出来。罗素被下过两次大牢，Chomsky 1967 年因为反越战被捕，和诺曼·梅勒关在一起。

7.2 统计派又来了我每开除一名语言学家，语音识别系统的性能就提高一点

Frederick Jelinek 是这个小组的核心。贾里尼克的学术训练是信息论，统计是他们这一派人最自然的工具。他的金句是：“我每开除一名语言学家，我的语音识别系统的性能就提高一点。”

IBM 小组的成员之一柯克（John Cocke）因为 RISC 架构在 1987 年就得了图灵奖。他在图灵奖的致辞中说，计算机性能的提升主要源于三个方面：算法、编译器和体系结构。这三个方面是按重要性大小排序的，但他的名声却主要来自于他认为重要性最小的体系结构。

其实最早提出机器翻译的 Warren Weaver 的思路就是统计。但 Chomsky 登场后，统计方法基本就没饭吃了。

Chomsky 的理由很简单，语言的可能性是无限的，统计不可能解决问题。 Chomsky 对统计方法的排斥，恰似波普尔对卡尔纳普归纳法的批判。
Chomsky 不喜欢统计派的一个理由是他们太像行为主义了：在翻译的统计方法中，平行语料的左边就是刺激，右边就是反射。

工程师根本不需要语言学知识，也不需要懂源语言或目标语言

2004 年，Franz Josef Och 加入谷歌。谷歌海量的数据让欧赫如鱼得水。谷歌翻译器迅速成为行业标杆。 2014 年欧赫在谷歌呆了十年后先后加入两家基因测序公司。

统计方法的另一个好处是工程师根本不需要语言学知识，也不需要懂源语言或目标语言，就可从事机器翻译。谷歌翻译团队就没什么科班出身的语言学家。欧赫认为语言学知识对翻译没什么用处，有时还会起反作用。

7.3 神经翻译是终极手段吗？ Google Neural Machine Translation (GNMT), RNN-based, 2016

2016 年，谷歌发布神经机器翻译（GNMT）系统，再次大幅提高机器翻译的水平。

和谷歌更早期的 Phrase-Based Machine Translation (PBMT) 不同，神经翻译的基本单位是句子，
谷歌使用了循环神经网络 RNN 做 Sequence to Sequence 的学习，
硬件设备是谷歌自己的 TensorFlow 平台。

神经翻译相比谷歌早期的基于短语的翻译系统，误差降低了 60%，这是翻译质量巨大的提升。这项工作已经开源。

Facebook, speed 10x, CNN-based, 2017

2017 年，Facebook 进一步提高了翻译效率。他们用自己擅长的卷积神经网络 CNN，进行序列到序列的学习。 Facebook 号称，英文-德文和英文-法文翻译的基准测试表明，

他们的结果在准确度上不输谷歌，
而在计算速度上则比谷歌的 RNN 有一个数量级的提升。

RNN 和 CNN 两种神经网络架构，分别被谷歌和 Facebook 支持。性能的此消彼长也被视为两家公司的竞争。真难预料神经网络还有多大的潜力可以挖掘。

翻译只是数据问题，不是语义问题？

Chomsky 们也许会接着质疑，这种翻译算理解吗？

也许翻译根本就不是理解的问题，翻译本身并不需要解释，翻译只是翻译而已，翻译只是数据问题，而不是语义问题。

没有 Chomsky，我们还要在黑暗中摸索，但有了 Chomsky，是不是又曾经束缚了我们探索其他方法的可能性。

7.4 IBM wason：知识库/知识图谱+浅层推理

现在的问答系统依靠常识和知识，同时也依靠浅层的推理。知识图谱是核心。

在 Jeopardy！节目中出现过的问题，95% 都能在维基百科中找到答案。

沃森参赛的版本的知识库只有 4TB，其中包含了所有维基百科的正文，真的不大。
除了半结构化的知识图谱，沃森还使用了开源搜索引擎。

把搜索的结果文档的标题与维基百科词条进行匹配，如果在维基百科中能找到，就把搜索结果列入候选答案。再把候选答案反馈给搜索引擎，进一步对返回结果做证据支持的处理，然后给出答案。
硬件系统是一个有 90 台 IBM Power 750 的集群，每台配一个 IBM Power 78 核处理器，每核 4 线程，所有一共 720 核，2880 线程；内存 16TB，所有的知识图谱都放在内存里了。

按照 Linpack 基准程序，这台计算机的算力相当于当年排名第 500 的超级计算机的一半，成本只有 300 万美元。同沃森带来的巨大广告效应相比，这真不算什么。

IBM 吸取了深蓝的教训，沃森在 Jeopardy！节目上取得的宣传成功后，很快变成了 IBM 人工智能事业的品牌，IBM 很快推出了沃森金融、沃森医疗、沃森教育等。现在 IBM 整个公司都围绕沃森转型了，也许 IBM 觉得“人工智能”这个词儿太俗了，他们非要标新立异地自诩为“认知计算”。

7.5 总结一个人工智能问题一旦解决，就不再是人工智能问题

就像一个哲学问题找到了科学的角度（formulation），就不再是哲学问题一样，一个人工智能问题一旦解决，就不再是人工智能问题。

大概很快人们就会认为语音问题不再是人工智能的核心问题。
如果说语音翻译不涉及自然语言理解和语义，可能也不会有什么异议。

2011 年 5 月，麻省理工学院为配合 150 周年校庆，召开了“大脑，心，机器”的研讨会（Brain, Mind and Machine Symposium）。

Chomsky 批评当下流行的神经网络和统计方法，Chomsky 认为神经网络是黑盒子，并没有给我们提供解释，故而没有提供知识。
时任谷歌研发总监的诺维格（Peter Norvig）很快回应 Chomsky，他批评语言学的规则在自然语言处理上，根本就没用。

可解释性

有人开始用“两种文化”来总结 Chomsky 和诺维格的隔空掐架。

Chomsky 对人工智能的批评的核心在于“可解释性”。AlphaGo 不能解释自己下棋的路数，算不算会下棋呢？
也可以反过来说，只有解释了，人类才能从中得到洞见，学习知识。但解释是不是也有层次，只有学会牛顿力学，才能学会相对论和量子力学？就如维特根斯坦所说的梯子的比喻，爬上房顶，梯子才能扔掉，梯子就是解释。其实，即使人类在不理解力学的时候，就会造弹弓了。对那时的人类，弹弓的工作原理就是黑匣子。

不求甚解的工程师 vs. 追求终极知识的科学家

Chomsky 和诺维格分别所代表的两种人关心的是两种不同的问题。

一种人力图打造实用的工具，没有解释也能凑合，他们是不求甚解的工程师；
另一种人寻求终极的知识，他们是科学家。

只不过，在计算机科学这个特定的学科中，科学家和工程师的角色变换太快，这门学科的开拓者，很多都是身兼二职，例如图灵和冯诺伊曼

8 向自然学习：从遗传算法到强化学习

Natural selection is a mechanism for generating an exceedingly high degree of improbability. —— Ronald Fisher

自然选择就是能生成极不可能之事的机制。

8.1 从生物学里找计算的模型：两条传承脉络

从生物学里找计算的模型，一直是人工智能的研究方向之一，学术上大致有两条传承的脉络：

McCulloch 和 Pitts 的神经网络，演化到今天成了深度学习；
冯诺伊曼的细胞自动机，历经遗传算法、遗传编程，其中一条支线最后演变成了今天的强化学习。

8.2 John Holland 和遗传算法

Holland 在晚年接受采访时如此评论麦卡锡和 Minsky：

美国西部的人工智能由麦卡锡代表，他们干净（neat），一切讲究逻辑；
东部的领袖自然是 Minsky，他们邋遢（scruffy），做事比较随意（adhoc）。

但他们的共性是都对机器学习不太感兴趣。

Ronald Fisher, 英国统计学家费舍

Holland 说他自己的思想被学界逐渐接受，是在他的学生都出了名之后。

对 Holland 影响最大的一本书是英国统计学家费舍（Ronald Fisher）的《自然选择的遗传理论》（The Genetical Theory of Natural Selection）。
无神论者道金斯（Richard Dawkins）称费舍是达尔文之后最伟大的生物学家。

进化和遗传是族群学习的过程，机器学习可以此为模型

费舍把孟德尔的遗传理论和达尔文的自然选择结合起来。 Holland 由此得到启发：进化和遗传是族群学习的过程，机器学习可以此为模型。

遗传算法

遗传算法就是模拟种群（population）的进化过程。其结构可以用下列伪代码大致表示。

随机生成初始群体。
主循环（停机的标准可以是迭代次数，或者适应度达到某个要求）。
- 2.1 执行策略，计算当前群体中所有个体的适应度；
- 2.2 从当前群体中，选择精英作为下一代的父母；
- 2.3 将选出的精英父母配对；
- 2.4 以极小概率将子代变异；
- 2.5 将子代个体添加到新群体中。

从程序中，我们马上可以理解进化中“优胜劣汰”的算法含义。

8.3 遗传编程

在遗传算法中，种群是数据，更进一步的想法是：如果种群变成程序的话，进化是不是仍然可行呢？ Holland 的学生寇扎（John Koza）在 1987 年给出了一个思路，并把它命名为“遗传编程”（Genetic Programming）。

物理学家多依奇（David Deutsch）用生物进化来类比知识的进化，他是哲学家波普尔（Karl Popper）的粉丝，并常常套用波普尔的科学哲学术语。他说猜想就像变异，批评和实验就像选择，而交叉学科就是配对了。从这个意义上说，知识的增长更像是遗传编程。

遗传编程的结构和遗传算法差不多，

一组程序就一个特定的问题给出解答，按照执行结果的好坏给所有程序排序。
程序本身也是数据，自然也可以修改。
在遗传编程里，变异就是对程序做微小调整。
交叉和配对就是将两个表现优异的程序互相嫁接。

寇扎后来还引入了“基因重复”（duplication）和“基因删除”（deletion）等生物学概念，以提升遗传编程的效率。

遗传算法本身就需要大量的数据，遗传编程需要的数据量自然更大，这对计算能力提出了新的需求。

遗传算法的稳定性一直就是研究课题，遗传编程的数学性质自然更加复杂。

8.4 强化学习

“人工智能”这个词儿的流行是在 20 世纪 70 年代中期，按照阿比卜的一家之言：人工智能是控制论的替代品，至少从时间轴上看，这不算错。

一个刚出生的孩子，怎么学会对环境的适应

巴托和萨顿关心更原始但也更抽象的可适应性。一个刚出生的孩子，怎么学会对环境的适应。

在监督式学习中，目标是清楚的。
但婴儿不知道目标是什么，不知道自己要什么。通过与外部世界的不断交互，婴儿受到奖励或惩罚，由此强化对外部世界的认知。

数学基础：马尔科夫决策过程和动态规划

强化学习的理论基础之一是马尔科夫决策过程。

强化学习的主体是 Agent，Agent 和环境互动。
强化学习就是 Agent 根据经验改变策略以期达到长期最大奖赏的过程。

强化学习的另一个理论基础是动态规划。

贝尔曼（Bellman）在 20 世纪 50 年代就发明了动态规划。
萨顿和巴托也承认在强化学习早期，受到动态规划的启发。巴托一度在他的强化学习讨论班上让研究生分工研读贝尔曼的经典著作《动态规划》（Bellman 1957）

在计算能力的约束下，强化学习的环境不宜太复杂

萌芽期的强化学习的例子都是游戏，如贝尔曼的“老虎机 ”和塞缪尔（Samuel）的跳棋。
游戏的环境相对容易定义，在棋类比赛中，环境就是对手和规则。
强化学习被用来下围棋不是偶然的。

如果整个世界是完全随机的，那么强化学习就要失效，学还是不学对结果没有什么影响。

巴托和萨顿有时也把强化学习称为“享乐主义”（hedonistic），也即学习系统想最大化环境对自己的某种反馈。

exploration vs. exploitation

强化学习中有所谓“抬头看路”（探索，exploration）和“低头拉车”（苦干，exploitation①）之分。探索就是看看有没有别的选择，苦干就是专注于当前的选择。

learning rate

在强化学习中，用希腊字母 ε 表示学习率（learning rate）， 值越小，能用于探索的时间就越少，绝大部分时间是在苦干。

减少状态空间搜索

遗传算法和强化学习有一个共同点：效果要等到多步以后才能看到，这是和监督式学习的主要不同。这就需要尽可能多地访问所有的状态，这样效率就会受到影响。

蒙特卡洛模拟是一种减少状态空间搜索的有效办法。
最近也有利用深度学习来压缩需要表示的状态空间数目。这还有点意思，本来强化学习初衷是探索生物体学习的模型，现在神经网络又成了强化学习的工具。

当状态空间很大时，强化学习可以和蒙特卡洛方法或深度神经网络结合，就使用了蒙特卡洛方法

AlphaGo 让强化学习一夜之间成为显学

强化学习作为机器学习的一个分支，一直没得到重视。谷歌的 AlphaGo 赢了李世石之后， 强化学习作为 AlphaGo 的核心算法，一夜之间成为显学。这当然要归功于萨顿和巴托多年的坚持。

巴托的“可适应系统”实验室，在神经网络不景气时，曾经收留过一批无家可归的学术浪人，其中就有吴恩达的老师乔丹。事实上，吴恩达的成名作就是用强化学习来控制无人直升机。

萨顿：开创强化学习，留有一点控制论的影子

萨顿 1979 年到麻省大学跟随巴托和阿比卜，由此开创强化学习。

他一直认为强化学习是理解智能的关键。
在整个人工智能的各个分支里，大概只有强化学习还留有点儿控制论的影子。

一旦一个算法被天才发明，并成功地在一个领域里得到应用，自然会有二流人才前赴后继把这个算法在其他领域发扬光大。20 世纪 80 年代的神经网络如此，当下的强化学习也如此。

早年有人质疑遗传算法算不算机器学习，他们认为遗传算法是一种近似优化算法，不能算机器学习。但从某种意义上，任何机器学习算法都是一种优化算法。

强化学习 vs. 监督式学习：第一人称叙事 vs. 第三人称叙事

如果从写作的角度看，

强化学习更像是第一人称叙述，Agent 就是“我”，外部世界（包括他人）都是“环境” 。
监督式学习更像是第三人称叙述，作者在用一只上帝的眼睛洞察世界，对错分明。

第一人称的学习要比第三人称的学习更本质。

Stuart Russell 和 Peter Norvig 在《人工智能：一种现代方法》里说 “可以认为强化学习包含了全部人工智能”（Reinforcement learning might be considered to encompass all of AI）。

8.5 计算向自然学习 vs. 自然向计算学习

以色列海法大学的进化生物学家 Livnat 和伯克利的理论计算机科学家 Papadimitriou 2016 年发表了一篇文章“性作为算法”（Sex as an Algorithm），引起轰动。

喜欢的人认为这为进化论找到了新视角，而不喜欢的人则批评杂志的编者和作者是为了博眼球。
这篇文章质疑了性在进化中的作用。
哈佛大学的理论计算机科学家、图灵奖获得者 Leslie Valiant 曾经从计算的角度研究过机器学习和进化，他把进化当作学习的特例。Livnat 和 Papadimitriou 认为有性繁殖不太容易达到最优点，而无性繁殖才更像是优化算法，他们把遗传算法比作有性繁殖，模拟退火算法比作无性繁殖。

如果说遗传算法是微观地向生物内部机制学习的话，强化学习则是更为宏观地向自然学习。

8.6 生物学激发的学科都缺乏计算理论的基础

无论是遗传算法、深度学习还是强化学习，都缺乏计算理论的基础。

生物学激发的学科都是模拟自然，它们都不需要解释，不需要了解内部原理，而只要能查看输出结果就够了。
数学大概是所有学科中离生物学最远的学科。

8.7 参考资料整体大于局部之和：涌现（emergence）现象

Holland (1975)是遗传算法的原创著作。

Holland 曾经写过几本科普读物，但大科学家未必是好的科普作家，他的著作不适合完全的门外汉。另外，他的哲学观点是整体论的，他认为整体大于局部之和，大量的“局部” 凑到一起，可以形成“涌现” （emergence）现象。

Sutton and Barto (1998) 强化学习的原创著作

Sutton and Barto (1998) 是强化学习的原创著作，在网上可免费获取。

强化学习的教科书里最爱用的 Q-learning，是 Chris Watkins 1989 年在他的剑桥博士论文里提出的。

科普文章：“谁能说出更大的数”

理论计算机科学家 Scott Aaronson 曾经写过一篇非常有意思的科普文章“谁能说出更大的数”（Who Can Name the Bigger Number），这可以是算法信息论的入门。

9 哲学家和人工智能

The real discovery is the one that makes me capable of stopping doing philosophy when I want to, the one that gives philosophy peace. ——Wittgenstein（维特根斯坦）

9.1 两类哲学家：深刻的和混饭的

哲学家不一定懂哲学，就像相声演员不一定会说相声，这是低门槛行业的通病。

《计算机不能干什么》，1965 是对《炼金术与人工智能》的扩充，对人工智能的全面批评。

哲学家有两类，一类是深刻的，一类是混饭的。

罗素和弗里格是深刻的，没有他们，就不会有数理逻辑，也就不会有哥德尔、丘奇、图灵，以及后来的计算机科学。
但没有现代的欧陆哲学，世界不过省了些粮食而已。

没有胡塞尔和海德格尔，Minsky 照样会想出“框架” ，从而催生后来的“面向对象的程序设计”方法论。所谓“顶层 ”概念就是 Java 程序设计语言里的 Object。

按照德雷弗斯们的说法，哲学系是不是应该要求读现象学的博士必须熟练掌握一门面向对象的程序设计语言？

在 20 世纪 80 年代末期，神经网络研究复兴之后，德雷弗斯对人工智能的全面批评也缩小为对符号派的专门攻击。他和他的兄弟斯图亚特·德雷弗斯一起撰文写书。斯图亚特虽然是运筹学专家，但一直都在做神经网络的研究，甚至号称发明了“反向传播”（back-propagation）的原始概念。

德雷弗斯曾经引用梅洛庞提批判人工智能：人脑是和环境直接交流的，而不是通过表示（representation）。

9.2 塞尔和中文屋

1980 年塞尔在《行为与脑科学》杂志上发表了 Minds, Brains and Programs 一文。文中的一个思想实验“中文屋” 马上成为最喜欢被引用的假想实验之一。

“中文屋”思想实验

“中文屋”思想实验是这样的：

假设有个只懂英文不懂中文的人（“我”）被锁在一个房间里，屋里只给“我”留了一本手册或一个计算机程序， 这个手册或程序教“我”在收到中文信息时如何用中文应对。
屋外的人用中文问问题，屋里的“我”依靠程序用中文回答问题，沟通方式是递纸条。

塞尔的问题是：如果屋外的人不能区分屋里的人是不是母语为中文，那么屋里的“我”是不是就算懂中文？

塞尔自己认为“我” 不懂中文。很明显，这个场景源自图灵测试，只不过图灵测试的环境是英文，而中文屋里既有中文又有英文。

解读

塞尔的文章出来后，引起轰动。其实轰动的原因很简单：谈论这种玩意儿没什么门槛，谁都可以说三道四：哲学家、科学家，以及各种媒体人。

塞尔毕竟是老练的哲学家，已经预测大家会质疑他的论断，他在文尾也设想了各种回答。

第一个问题是，我们只是算屋里人理解中文呢，还是屋子加人作为一个系统理解中文。塞尔的论断是屋里人即使查遍手册，顶多算是理解语法，而不算理解语义。
我们可以问塞尔这样的问题：一个坐飞机的人算能飞吗？如果对这些问题的答案都是“算” ，那中文屋作为一个系统为什么不算理解中文呢？

塞尔认为必须内化（换句话说：手册必须变成人身的一部分）才能算懂中文，那么内化到什么程度才能算呢？

爱因斯坦说“我的笔加上我要比我自己聪明”，笔算不算外化？
内化是完全的物理隐藏，还是只是个反应时间问题？在一开始查手册时，反应时间必定很慢，但熟能生巧之后，查手册变成下意识的动作，那算内化吗？
内化和辅助工具的大小也有关系。如果语音识别工具是桌面电脑，我们可能不会认为对话中的两个人理解了对方的语言。但如果这个工具可以微型化，直接内化到耳朵里，那算不算理解？

反“强人工智能”

塞尔认为他不是反人工智能，他只是反“强人工智能”。

中文屋测试的不是屋中的“我”，而是屋中的程序。如果那本神奇的手册或者程序已经通过图灵测试，那程序就是一个机器翻译的神器。这本身就是强人工智能了。而且那程序已经有语义功能了。

假设游戏不是中文翻译，而是下棋，那 “我” 算不算会下棋？断言中文屋是不是有智能，就像断言 AlphaGo 会不会下围棋一样，要看应用场景。

9.3 普特南和缸中脑思想实验：缸中脑

1981 年普特南出版了《理性、真理与历史》（Reason, Truth, and History）一书，该书的开篇就给出了“缸中脑”的假想实验。

Wikepedia Brain in a vat:

普特南更进一步设想，假设所有的感觉器官都泡在缸里，而外面的世界就是一台大自动机。

缸中脑知道如何与外部世界做对应吗？泡在缸中的人脑，如何知道自己是颅中脑，还是缸中脑？

人工智能的基本问题是可否造一台机器能有智能， “缸中脑”中的机器则起了另一种作用：人脑是否能确定外在的世界是直接实在还是间接实在。

《黑客帝国》、《盗梦空间》

科幻电影《黑客帝国》（Matrix）、《盗梦空间》（Inception）等都受“缸中脑”思想实验的启发。

9.4 给哲学家一点忠告哲学指导科学？

曾经有一个教条：哲学指导科学。费曼、惠勒和杨振宁等物理学家都曾撰文批驳。但这恰是德雷弗斯的立场。维特根斯坦曾经有言：哲学家的工作应该是一直给人提醒（assembling reminders），而不是指导。

哲学空洞化

偏重科学和逻辑的英美分析哲学也挡不住哲学的颓势，最后一个从哲学中脱离的硬学问是逻辑，目前最好的逻辑学家都在数学系和计算机系，哲学已经空洞化。

如果真认为海德格尔有用，就应该像弗里格和罗素清理逻辑那样， 把这些东西整理成可以交流的形式。也许哲学家真怕他们惯用的冷僻词汇被翻译成通俗易懂的语言。当代哲学，尤其是欧陆哲学，就像韩国整容术，乍一看唬人，其实遗传不了。

整个人工智能就是个大的假想实验

彭罗斯曾经这样谈到机器的情感和道德：如果你买一台计算机，它是有情感的，那么我们就有道德问题，因为计算机的意愿可能被违反，并可能会被当作奴隶。我们首先必须说道德是一个社会问题，也就是说当一个社会只有一个个体（无论是人还是计算机）时，是不存在道德问题的。

丹尼特曾说哲学家喜欢假想实验。其实从某种意义上说，整个人工智能就是个大的假想实验。只不过哲学家用纸和笔，而计算机科学家用计算机硬件和软件。本质是一样的。不同的是哲学家从不为假想实验的结果所苦恼，反而会时不时洋洋自得；而计算机科学家则偶尔会被他们取得的成果所惊到。

10 人是机器吗？——人工智能的计算理论基础

humans are nothing but meat machines that carry a computer in their head. —— Marvin Minsky

10.1 人是不是机器？

认为人是机器的，道理很简单：人也是由各种物理化学机制构成的，当然是机器了。早有法国哲学家美特里，现有 DNA 双螺旋结构发现者克里克，都持这种观点。克里克认为在不远的将来，生命可以在试管中合成。
认为人不是机器的，论据是人有很多功能，目前机器无法完成，尤其是那个叫“灵魂” 的神奇东西。

《论可计算的数》和图灵机的定义

计算机科学起源于图灵 1936 年那篇无论怎么夸赞都不过分的文章“论可计算的数”，这是人类文明最重要的成果之一。图灵在这篇文章中定义了后来被他的导师丘奇称为“图灵机”的计算装置：

一条无穷长的纸带，
一个读写头在一个控制装置的控制下在纸带上方左移右移，读取纸带上的内容并在纸带上写 0 或 1。

图灵的初衷是让他的机器模仿人类计算者。

同源问题和相关问题

“人是机器吗”这个问题有很多同源的古老哲学问题，例如，“心-脑”（mind-brain）和“心-身”（mind-body）。 还有很多相关问题，例如，自由意志和自我意识。

如果人是机器，那是模拟机器还是数字机器？

按照冯诺伊曼的说法，神经系统的本质是数字的，尽管构成神经系统的化学和生物过程的描述可能是模拟的。
现代物理学的一个假设是整个宇宙都是离散的，也即数字的。
人工智能符号派的基础之一是所谓“物理符号假设”，这个假设要求计算装置必须是数字的，或者说变量必须是离散的。
费曼就曾说世界是数字的。

如果机器是数字的，那么图灵机就是简单又有力的模型。 对于离散的量，二进制就足够了。

朴素唯物主义认为世界是连续可分的，从某种宏观的意义上说，朴素唯物主义是经典物理的思想基础。 历史问题有点像海岸线问题，尺度不同则结论也不同。新的量子物理认为世界是离散的、有限的。

10.2 Church-Turing Thesis：为什么图灵机是最重要的发明？

在人类发明的所有计算装置中，图灵机是直觉上最简单最可靠的。

在计算理论里，有一个著名的丘奇图灵论题（Church-Turing Thesis）： 所有功能足够强的计算装置的计算能力都等价于图灵机。这是一个观察，而不是定理。

通用图灵机和冯诺依曼架构

图灵在发明图灵机时，还定义了 Universal Turing Machine，简称 UTM，译为“广义图灵机/万能图灵机/通用图灵机”。

UTM 的核心思想就是一个图灵机的执行过程也可被编码成数据，放到纸带上，因此一个图灵机可以通过执行纸带上的程序来模仿另一个图灵机的行为。这台能模仿其他图灵机的图灵机就成了通用图灵机。
这是一个很深刻的思想，现在的软件产业都得益于此：被编码的图灵机就是软件。
后来冯诺伊曼设计的计算机被人称为冯诺伊曼架构，其最核心的思想就是存储程序（Stored Program）。这个思想其实就是来自万能图灵机：被编码的图灵机就是存储的程序。

纯逻辑或数学的东西联系到物理世界：函数 -> 纸带和读写头

冯诺伊曼把计算机的所有原创思想的功劳都给了图灵，并批评那些对图灵机实际意义缺乏认识的人。

有了图灵机，我们就很容易把原来是纯逻辑或纯数学的东西（例如递归函数和λ演算等） 和物理世界联系起来了，函数成了纸带和读写头。

10.3 不可能存在比图灵机更强的计算装置

Church-Turing Thesis 的一个自然结果就是，不可能存在比图灵机更强的计算装置。

20 世纪 80 年代初就有人证明三层以上的神经网络可以逼近任意连续函数。
80 年代末期，Steve Judd 证明三层以上的神经网络学习问题在图灵机上是 NP 完全的。
本书作者证明了在 BSS 模型上，类似的神经网络学习问题等价于线性规划问题。

目前各种神经网络学习算法都是工程，鲜有科学，神经网络算法多是些经验算法外加调参数，从业人员也多数没有计算理论的训练。伴随暴发户和显学的必然是浮躁之气。在各种学习算法里，很少看到目前关于什么算法适合什么问题的理论指导。

10.4 BBS 实数模型

BSS 模型的一个很大假设是，任意精度的实数四则运算可在单位时间内完成，这在数值分析中是有用而又方便的假设，但目前尚不知道如何在物理上实现。

其实即使在数值分析之外，我们经常做类似的假设，例如，在排序算法分析中，任意精度的数（可能是实数）之间的比较是单位时间的。

在 BSS 中，一阶逻辑的所有东西都是可判定的。这和图灵机是截然不同的，图灵机停机问题就是不可判定的。 BSS 和图灵机的这个本质区别可溯源到 20 世纪 30 年代初期。那时哥德尔证明了整数的一阶逻辑是不可判定的。但几乎在同时，塔尔斯基证明了实数的一阶理论（几何和代数）则是可判定的。我们可以说图灵机和 BSS 分别是哥德尔定理和塔尔斯基定理的计算体现。

有些复杂性的性质，BSS 也和图灵机不同。比如线性规划在图灵机上被证明是多项式时间的，但在 BSS 上，复杂度是啥，目前不知道。如果在 BSS 上可以找到线性规划的多项式时间的话，在图灵机上就可以找到强多项式时间算法。这个问题被斯梅尔称为最重要的计算机科学的理论问题。

按照费曼的说法，宇宙是数字的，换句话说，宇宙不是连续的实数，空间是一种网络，而时间也不是连续的。

10.5 量子计算

《费曼计算机科学讲义》

IBM 是计算物理学的源头。计算的物理学研究有实际需求。

图灵机的物理约束

从计算的角度看，图灵机只有数学约束而没有物理约束。

从真实世界看，一个可能的物理约束是能量：图灵机的读写头和纸带的运动是需要能量的。

逻辑运算与能量的关系

现代计算机的组件是逻辑门，有两种门，

可逆的，如“非门”；
不可逆的，如“与门”。

IBM 的物理学家朗道尔（Rolf Landauer）在 1961 年提出了朗道尔原理：任何不可逆计算都需要能量。

同在 IBM 的另一位物理学家本内特（Charles Bennett）在 20 世纪 70 年代提出可逆运算不需要能量，并证明对任何图灵机都能找到一个对应的可逆版本，能实现同样功能而不损失效率。

量子计算机：（在对的时刻）测量而非（一步步）计算

费曼考虑的问题是如何以任意精度来模拟一个物理系统。他的方法是构造一台量子计算机，它求解问题的时间不随问题的规模呈指数增长。

量子计算并不是一步一步的经典计算，而只是测量系统的输出结果。

费曼认为测量本身也是一种计算。

当计算量很大时，最简单的方式是让自然界自己该干啥干啥，而在对的时刻测测结果就可以了。

举例：子弹的弹道，生成随机数

举一个不精当的比喻，想知道子弹的弹道，两种方式，

考虑所有可能外部内部因素，依靠计算；
让子弹飞，然后测量。

随机数可以通过伪随机函数生成，也可以通过测量一些噪声源得到。图灵 1949 年就研究过通过外部电子噪声源得到随机数的方法。

在图灵机上很难求解的问题有可能在量子计算机上用多项式时间解决。其中最热门的问题是素数分解。

10.6 计算理论的哲学寓意神经网络研究者数学和计算理论功底的缺乏

人们常说是 Minsky 和佩珀特的《感知机》（Perceptrons）一书导致了神经网络研究近 20 年的衰败，但神经网络的研究者不该反省下自己数学和计算理论功底的缺乏？

从当下人工智能的浮夸风气中，没看出吸取了什么教训。

Donald Knuth：量子力学为自由意志提供了空间，也使得上帝可以操纵世界而不违反物理定律

Donald Knuth（计算机科学家中位数不多的有神论者）说量子力学为自由意志提供了空间，也使得上帝可以操纵世界而不违反物理定律。

我很少看到计算机科学家敢对物理学家说三道四，姚期智大概是唯一的例外。

11 智能的进化

Science is what we understand well enough to explain to a computer. Art is everything else we do. —— Donald Knuth

11.1 Human Advantage: How Our Brains Became Remarkable

畅销书，并被翻译为多种语言。2017 年该书中文版以《最强大脑》为题出版。
创造的“大脑汤”（brain soup）的方法最终使她成功地测定不同动物大脑的神经元数量。
书中不仅有研究成果，还有更有意思的研究过程，包括她是如何把大象的大脑从非洲弄到美洲的新奇故事。

脑结构和神经元数量

不同动物的脑构造有所不同，脑中的神经元数量也完全不同，

人脑中总共有 860 亿个神经元（用 LLM 术语来说就是 86B），其中大脑皮层有 160 亿个神经元（16B）。 大脑皮层的神经元数量决定了动物的智力水平，人的大脑皮层中神经元数量远高于其他物种，所以人类比其他物种更聪明。
大象的脑子总共有 2570 亿个神经元，但是其中 98% 的神经元都存在于小脑中。大脑皮层只有 56 亿个神经元，无法与人类相比。

神经元数量越多，能耗也越大

大脑皮层中的神经元数量越多，能耗也越大。

人脑每天消耗的能量占人体全部耗能的 25%。人之所以能够很快超越其他物种，主要是因为人类掌握了烹饪技术。能够在短时间内摄入大量卡路里以支持大脑运转。
其他物种则将摄入的卡路里用于维持身体运转，不得不牺牲大脑皮层的神经元数量。

用不同的时间粒度看待过去，会得到不同的结论

《尤利西斯》中的几个小时，茨威格作品中人物的一生，或赫拉利的七万年，关心不同的过程。
粒度也可以是主体的，一个基因，一个人，一个群体，不一定非得是一个小的物质颗粒只配得上小的时间单位。
想想基因人类学，基因在几万年的空间分布，帮我们了解人类的起源和迁移。
当用太大的颗粒度研究历史时，历史学家的用处会令人质疑。

11.2 机器：从代替人的体力到代替人的智力

过去的机器旨在节省人的体力，现在的机器开始代替人的智力。

人作为物种，不再具备进化的竞争优势？

人通过两性繁殖的进化速度远远赶不上机器。

机器的进化速度服从摩尔定律——每 18 个月性能提升一倍，而人的进化速度则是 20 年一代人。
人作为物种，是不是不再具备进化的竞争优势？
依靠硬件的摩尔定律，是不是可以达到超级智能？

新的智能形态：Agent？

新的智能存在可以是人工智能的 agent，也可以是生物学意义上的物种。

11.3 基因修复的伦理问题

通过修复一个受精卵的一小段染色体，就可以避免或治疗某种疾病。这是一个真实的伦理问题，因为已经有这样的病例发生。

如果孩子出生，那么他/她的父母是谁？
多小算是“一小段”，1% 还是 49%？
更进一步：可不可以有更多不同来源的基因参与？
英国《经济学人》2017 年 2 月的一期封面标题就是“Sex and Science”

11.4 机器人三定律之一：机器不能伤害人

维纳曾经说：“我们最好能够确认，我们给机器设定的目标确实是我们想要的。”

物理学家改行的科幻作家阿西莫夫曾提出机器人三定律，第一条就是机器不能伤害人，但“什么是伤害”本身就不好定义。AlphaGo 战胜李世石和柯洁，算是对他们的伤害吗？

12 当我们谈论生死时，我们在谈论什么？

I don’t want to achieve immortality through my work; I want to achieve immortality through not dying. —— Woody Allen（伍迪·艾伦）

12.1 苏格拉底之死和《斐多篇》

苏格拉底说：哲学家只研究“正在死”（dying）和“刚刚死”（being dead）。除了这个啥都不管。

苏格拉底因为三项罪名被判死刑：腐蚀雅典青年，不敬城邦和引入自己的新神。受审前一天恰好赶上雅典的“花船节”，祭祀的船要离开雅典再返航。花期，城邦要保持清洁，因而不能执行死刑，于是苏格拉底临死前有一段时间可以和学生们聊哲学。柏拉图据此写了四篇对话。

耶稣之死和苏格拉底之死不同，耶稣完成了使命，苏格拉底留下了一堆问题。

他说人追求真理的最大束缚就是肉体，为了得到终极智慧，灵魂必须超越肉体，也就是摆脱感官的限制。换句话说就是人必有一死。他最后一天的谈话被当时的在场者斐多记录，最终变成了柏拉图的《斐多篇》。

12.2 作者和苏格拉底之间的假想对话

挺有意思的一段哲学对话，关于“永生”，这里就不放了，感兴趣可以网上搜搜，或者读完这份笔记觉得这本书不错，买本电子/纸质书支持下作者。

13 总结逻辑派/规则派/符号派统计派哲学层面 理性主义者 经验主义者经济方式类比计划经济自由市场经济视角和可解释性 上帝视角，第三人称叙事，更具可解释性 第一人称叙事，不可解释性（e.g 深度学习）令人困扰科学史角度还原论（reductionism） 涌现论（emergentism）

科学史对科学也有还原论（reductionism）和涌现论（emergentism）之分，规则派接近还原论，统计派可以算作涌现论。

如果说英美分析哲学的工具支撑是逻辑的话，那么在某种意义上，博弈论可被当作实用主义的新工具，博弈论涉及 Multi-Agent。我并没有非得把自然派附会到实用主义的意思。曾经被认为是复杂的统计派问题，例如图像处理和语音识别，现在已经得到解决或者至少已有解决的思路。

附录附录 1：图灵小传

曼彻斯特的公园里，图灵雕像的底座，引用了罗素的话：“数学不仅有真理，也有最高的美，那是一种冷艳和简朴的美，就像雕塑。”

Mathematics, rightly viewed, possesses not only truth, but supreme beauty — a beauty cold and austere, like that of sculpture, without appeal to any part of our weaker nature, without the gorgeous trappings of painting or music, yet sublimely pure, and capable of a stern perfection such as only the greatest art can show. The true spirit of delight, the exaltation, the sense of being more than Man, which is the touchstone of the highest excellence, is to be found in mathematics as surely as poetry.

伯特兰·罗素，《西方哲学史》

附录 2：人工智能前史：图灵与人工智能

图灵 1950 年在英国哲学杂志 Mind 上发表文章“计算机与智能”，文中提出“模仿游戏”，被后人称为“图灵测试”。

这篇文章被广泛认为是机器智能最早的系统化科学化论述。
但图灵在 1941 年战时就开始思考机器与智能的问题，1947 年图灵在伦敦皇家天文学会就机器智能发表演讲。1948 年图灵把这次演讲整理成文章，题为“智能机器”（“Intelligent Machinery”），作为英国国家物理实验室（NPL）的内部报告，但没有公开发表。
这篇文章迟至 1969 年才在年刊型论文集《机器智能》上发表。但由于和 1950 年文章的题目类似，并没有引起人们的重视。

1948 年的文章对智能的概念采取了更宽泛的说法，图灵探讨了大脑皮层，

他认为婴儿的大脑皮层是非组织的（unorganised）。
在图灵的用语里，“非组织”就是“通用”的意思，发育的过程就是组织化的过程。
他指出人身上的任何小部件都可以用机器来模仿，他还提到基因、进化和选择。

正是因为如此，麻省理工学院的机器人专家布鲁克斯认为图灵（1948）是人工智能两条路线分歧的原点，而他自己的观点则是图灵 1948 年的文章比 1950 年的更为重要。图灵 1948 年的文章提到了 embodied intelligence 和 disembodied intelligence 的区分。

图灵进一步预测到 2000 年，机器内存会达到 1GB（预测这么准还真挺神）。

这篇文章为后来的一系列后学者模仿的文章提供了范文的效果，例如塞尔的“中文屋”和普特南的“缸中脑”。

附录 3：冯诺依曼与人工智能

Talent hits a target no one else can hit; Genius hits a target no one else can see. —— Schopenhauer（叔本华）

冯诺伊曼被引用最多的话是：“我们应该预测所有稳定的过程，控制不稳定的过程。” （All stable processes we shall predict. All unstable processes we shall control.）其实这并非是老冯的原话，而是弗里曼·戴森转述老冯 1950 年在普林斯顿的讲座的精神，那时他是多么自信啊。

附录 4：计算机与智能，turing paper

建议参考翻译，阅读图灵的原 paper。

后记

本书的写法比较偏重基础和方法论，而不太注重应用。

费曼在加州理工学院教书时，学期的最后一节课都是请学生问问题，只要不涉及政治、宗教和期末考试，什么问题都可以问。

本书也参考这一方式，回答读者几个问题：

问：这次的人工智能是泡沫吗？
答：人工智能和人们关心的某些终极问题有关，这些问题过去是哲学家和科幻作家的地盘， 计算机科学为人们提供了用科学和工程的手段回答这些问题的方法，旁人自然会对这些方法存在过高的期望，过高的期望自然也会带来过高的投资。泡沫的破裂就是投资的失败。比人工智能更年轻的互联网，起伏的周期更短。从投资的角度看，某些特定的人工智能应用领域确实存在过热现象。
问：算法、数据和算力，哪一项对这次人工智能的复兴贡献最大？
答：我正在对这个问题做一项定量的研究，但目前还没有确定性的结果。要我猜的话，贡献排序应该是：算力、数据和算法。没有足够的算力，就没有办法处理海量数据，很多算法的精化是以某些特定的硬件为前提的。 算力的提升恰好到了一个临界点，使得各种学习算法成为可能。

[译] 从 OpenDeepResearch 背后的设计演进，解读 AI 领域反复学到的一课（2025）

ARTHURCHIAO'S BLOG

3 weeks 3 days ago

本文翻译自 2025 年的一篇文章 Learning the Bitter Lesson。来自 github.com/langchain-ai/open_deep_research 作者。

过去 70 年 AI research 领域学到的最大经验是：以计算作为支撑的通用方法 （general methods that leverage computation）是终极方案（ultimately the most effective），而且大幅领先其他方式。

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

1 反复学到的一课
- 1.1 AI Research 领域
- 1.2 AI 工程领域
2 以 Open Deep Research 为例
3 总结
4 致谢

Rich Sutton，The Bitter Lesson

1 反复学到的一课 1.1 AI Research 领域

The Bitter Lesson 在许多 AI 研究领域一次次地被证实，比如国际象棋、围棋、语音、视觉。

用好计算（leveraging computation）被证明是最重要的事情，而我们强加给模型的"结构"反而往往会限制它们用好不断增长的计算能力。

这里所说的”结构”是什么意思？

Often structure includes inductive biases about how we expect models to solve problems.

计算机视觉是一个很好的例子。几十年来，研究人员基于领域知识设计了一些特征（例如 SIFT 和 HOG）。但这些人为设计的特征将模型限制在了我们预期的一些模式中。
随着计算和数据的扩展，直接从像素中学习特征的深度网络优于人为设计的方法。

关于这一点，可以看一下 Hyung Won Chung（OpenAI）关于他的研究方法的演讲：

Add structures needed for the given level of compute and data available.
Remove them later, because these shortcuts will bottleneck further improvement.

1.2 AI 工程领域

The Bitter Lesson 也适用于 AI Engineering，如何快速演进的模型之上构建应用。

举个例子，Boris（Claude Code 的负责人）提到 The Bitter Lesson 强烈影响了他的方法。

Hyung 的演讲为 AI 工程提供了一些有用的教训。接下来我通过构建 open-deep-research 的故事来说明这一点。

2 以 Open Deep Research 为例 2.1 添加结构（假设）

2023 年我开发 Agent 非常沮丧：让 LLM 可靠地调用工具很难，而且上下文窗口很小；
2024 年初，转向 Workflow：Workflow 将 LLM 调用嵌入预定义的代码路径中，避免了以上问题；
2024 年末，我发布了一个用于网络研究的 orchestrator-worker Workflow。
- orchestrator 是一个 LLM 调用，它接收用户请求并返回要撰写的 report sections 列表。
- 一组 worker 并行研究并撰写所有 report sections 。
- 最后，将它们简单组合在一起。

那么，这里的”结构”是什么？我对 LLM 应如何快速、可靠地进行研究做出了一些假设，如下图所示：

Planning：将请求拆解为多个报告章节（report sections），
并行研究和分章节独立撰写报告以提升速度，
避免工具调用以提升可靠性。

2.2 结构开始成为瓶颈

2024 年末，情况开始发生变化，工具调用能力快速提升；
2025 年末，MCP 发展迅速，很明显 Agent 开始非常适合研究任务。

但此时，我之前强加的结构阻止了我的框架用上这些改进，

禁止使用工具调用，所以无法用上不断蓬勃发展的 MCP 生态；
Workflow 总是将请求拆解为独立章节，这是一种僵化的研究策略，对很多情况都不适用；
最终报告有时也显得不连贯，因为我强制 worker 并行撰写章节。

2.3 移除结构

最终，我转向了 Multi-Agent 系统，这使我能够使用工具并让系统灵活地规划研究策略。

但是，我设计的新一版系统里，每个 sub-agent 仍然独立撰写自己的 report section。这也是到了 Cognition 的 Walden Yan 提出的问题： Multi-Agent 系统很难，因为 sub-agent 往往不能有效交流。报告仍然不连贯，因为我的 sub-agent 并行撰写章节。

这是 Hyung 演讲的主要观点之一：虽然我们在改进方法，但经常未能去掉之前添加的所有结构。在我这个例子中，我虽然转向了 Agent，但仍然强制每个 Agent 并行撰写部分报告。

最终，我将报告撰写移至最后一步，如下图所示，

系统现在可以灵活地规划研究策略，使用 Multi-Agent 上下文收集，并基于收集的上下文一次性撰写报告。
它在深度研究基准上得分 43.5（前 10 名），对于一个小型开源项目来说已经相当不错了（并且性能接近使用 RL 的和投入明显更多的 Agent）。

3 总结

AI 工程的一些经验总结：

理解你的应用结构（Understand your application structure）

考虑你的应用设计中嵌入了哪些 LLM 性能假设。例如对于我最初的 Workflow ，我避免工具调用是因为（当时）它不可靠，但几个月后情况变了！
随着模型能力的提升，重新评估这些结构（Re-evaluate structure as models improve）

我在重新评估假设方面有点慢了，业界的工具调用能力大幅提升，而我没有及时重新评估假设是否还合理。
让去掉结构这件事情比较容易（Make it easy to remove structure）

Agent 抽象可能带来风险，因为它们可能使去掉结构变得困难。我仍然使用框架（LangGraph），但使用的是其通用功能（例如 checkpointing），而且尽量只使用使用其底层构建模块（例如 node 和 edge），这样我可以轻松地（重新）配置。

构建 AI 应用的设计哲学仍处于初级阶段。但有一点是可预测的：模型会变得越来越强大。理解这一点可能是 AI 应用设计的最重要事情。

4 致谢

Thanks to Vadym Barda for initial evals, MCP support, and helpful discussion. Thanks to Nick Huang for work on the multi-agent implementation as well as Deep Research Bench evals.

[译] Anthropic 是如何构建 Multi-Agent Research 系统的（2025）

ARTHURCHIAO'S BLOG

2 months 2 weeks ago

本文翻译自 2025 年 Anthropic 的一篇文章 Built a Multi-Agent Research System。

文章介绍了他们的 Research 功能背后的 multi-agent 系统，以及在构建该系统的过程中遇到的工程挑战与学到的经验。

这套 Multi-Agent 系统最核心的部分之一 —— Agent prompts —— 也开源出来了，见本文附录部分，对学习理解 agent planning & task delegation 非常有用，甚至比文章本身还实用。

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

1 引言
2 架构概览
3 面向 Agent 的提示词工程
4 Agent 效果评估
5 生产部署：系统可靠性与工程挑战
6 其他技巧
7 总结
致谢
附录

本文分享 Multi-Agent Research 系统从原型到生产的过程中，在系统架构、Tool 设计和提示词工程方面学到的经验。

1 引言 1.1 Agent & Multi-Agent 定义

本文的 “Agent” 定义：在一个代码循环（while(){ }）中 自主选择和使用工具（Tools）的大语言模型（LLM）。

本文的 Multi-Agent 系统由多个以上的 Agent 组成（具体又分为 Lead Agent 和 sub-agent），协同工作完成一项复杂任务。

1.2 Agent 很适合回答开放式问题

Research 是开放式问题，无法提前预测所需步骤，因为过程本质上是动态且路径依赖的。

人进行 research 时，往往是一步步来的，根据每个阶段的发现来更新自己接下来要做的事情。

Agent 模拟的是人类行为。模型在多轮迭代中自主运行，根据中间结果决定下一步方向。

1.3 为什么需要 Multi-Agent 系统

搜索的本质是压缩：从海量语料中提炼关键信息。

多个 sub-agent 并行运行（拥有独立的上下文窗口），探索同一问题的不同方面，最后将最重要的信息（tokens）压缩给到 Lead Agent。
每个 sub-agent 可以使用不同的 Tool 和提示词，有不同的探索轨迹，从而减少路径依赖，实现深入而独立的研究。

在过去 10 万年里，虽然单个人的智力在逐步提升，但人类社会集体智能和协调能力的指数级增长，却是来自人类集体而非少数个人。 Agent 也是类似，一旦单个 Agent 的智能达到某个阈值（瓶颈），Multi-Agent 系统就成为提升性能的关键方式。

例如，我们的内部评估表明，

Multi-Agent Research 系统尤其擅长广度优先查询，即同时追踪多个独立方向。
以 Lead Agent 用 Claude Opus 4、sub-agents 用 Claude Sonnet 4 的 Multi-Agent 系统，比使用 Claude Opus 4 的 Agent 性能高出 90.2%。

1.4 Multi-Agent 有效性的关键：花了足够多的 token

Multi-Agent 系统之所以有效，主要在于它们花了足够的 token 来解决问题。在我们的分析中，3 个因素解释了 BrowseComp 评估中 95% 的性能差异，其中，

token 使用量本身就解释了 80% 的差异，
其余两个因素是 Tool 调用次数和模型选择，只占 15%。

这一发现验证了我们的架构：将工作分散到有独立上下文窗口的 Agent 上，以增加并行推理的容量。

Multi-Agent 架构有效地为超出单 Agent 限制的任务扩展了 token 使用量。

1.5 Multi-Agent 系统的缺点

Token 消耗量大。我们的结果数据，跟聊天交互消耗的 token 相比，
- Agent token 消耗是 4 倍，
- Multi-Agent token 消耗是 15 倍。
所以 Multi-Agent 系统需要考虑任务的价值和经济成本。
某些需要 Agent 共享相同上下文或 Agent 间存在大量依赖关系的领域，目前并不适合 Multi-Agent 系统。

例如，大多数编码任务中真正可并行的子任务比研究少，而且 LLM Agent 尚不擅长实时协调和委派给其他 Agent。

Multi-Agent 系统擅长涉及高度并行化、信息超出单一上下文窗口并与众多复杂 Tool 交互的高价值任务。

2 架构概览 2.1 架构：Orchestrator-Worker

一个 Lead Agent 协调流程，同时将任务委派给并行运行的专门 sub-agent。

The multi-agent architecture in action: user queries flow through a lead agent that creates specialized subagents to search for different aspects in parallel.

如上图所示，步骤，

用户提交查询；
Lead Agent 对其进行分析，制定策略，并生成 sub-agent 同时探索不同方面；
sub-agent 通过迭代使用搜索 Tool 收集信息，然后将公司列表返回给 Lead Agent；
Lead Agent 生成最终答案。

2.2 相比传统 RAG

传统 RAG 是静态检索：获取与输入查询最相似的一些文档片段，并使用这些信息生成回答。

本文的 Multi-Agent 架构使用多步搜索，动态查找相关信息，回答质量更高。

2.3 工作流

下图展示了我们的 Multi-Agent Research 系统的完整工作流。

Process diagram showing the complete workflow of our multi-agent Research system.

核心点：

Lead Researcher 会将计划保存到 Memory 做持久化，因为如果上下文窗口超过 200K token 会被截断，持久化很重要。
每个 Subagent 独立执行搜索，使用 interleaved thinking 评估 Tool 结果，并将发现返回给 Lead Researcher。
Lead Researcher 综合这些结果并决定是否需要进一步研究 —— 如果需要，它可以创建更多 sub-agent 或优化其策略。
一旦收集到足够信息，系统退出循环，并将所有发现传递给 Citation Agent，后者处理引用问题。

3 面向 Agent 的提示词工程

Multi-Agent 系统与单 Agent 系统存在关键差异，包括协调复杂性迅速增长。

由于每个 Agent 都由提示词引导，因此提示词工程是我们改进这些行为的主要手段。本节列举一些我们学到的 prompt Agent 的一些经验。

3.1 像 Agent 一样思考

要迭代提示词，就必须理解它们的影响。

为此，我们使用 Console 构建了一些模拟，使用我们系统中的一些提示词和 Tool，然后逐步观察 Agent 的工作过程。

这使我们快速发现了 Agent 的问题所在，例如

在已有足够好的结果时仍继续迭代；
使用的搜索查询过长；
选择错 Tools。

有效的提示词依赖于建立一个准确的 Agent mental model，可以让影响模型表现的点更显而易见。

3.2 主控 Agent 合理下发工作（how to delegate）

Lead Agent 将查询分解为子任务并描述给 sub-agent。

每个 sub-agent 需要目标、输出格式、关于 Tool 来源和使用的指导以及清晰的任务边界。
没有详细的任务描述，Agent 会重复工作或无法找到必要信息。

我们一开始允许 Lead Agent 给出简单、简短的指令，如“研究半导体短缺”，但发现这些指令往往过于模糊，导致 sub-agent 误解任务或执行与其他 Agent 完全相同的搜索。例如，一个 sub-agent 探索 2021 年汽车芯片危机，而另外两个 Agent 则重复研究当前的 2025 年供应链，没有有效分工。

3.3 查询复杂度 vs. 工作量区间 (Scale effort to query complexity)

Agent 难以判断不同任务的合理投入是多少，因此我们在提示词中嵌入了规则。

简单的事实查找：1 个 agent 进行 3–10 次 Tool 调用，
直接比较：2–4 个 sub-agent 各进行 10–15 次调用，
复杂研究：多至 10 几个 sub-agent 并明确划分职责。

这些明确的规则帮助 Lead Agent 高效分配资源，防止在简单查询上过度投入 —— 这是我们早期版本中常见的问题。

3.4 Tool 的设计和选择至关重要

Agent-Tool 接口与人类-计算机接口同样重要。使用正确的 Tool 非常重要。例如，

对于一个通用查询，如果 Agent 决定只在 Slack 中搜索信息，那这个任务的效果注定不会好；
随着 MCP Tool 的流行，这一点变得更加重要，因为 Agent 会遇到各种 Tool，其描述质量参差不齐。

我们为 Agent 提供了明确的启发式方法：例如，

首先检查所有可用 Tool，将 Tool 与用户意图匹配；
在互联网上进行广泛的外部探索，寻找合适的 Tools；
优先使用专门 Tool 而非通用 Tool。

糟糕的 Tool 描述可能会将 Agent 引向完全错误的路径，因此每个 Tool 都需要明确的目的和清晰的描述。

3.5 让 Agent 自我改进

我们发现 Claude 4 模型能作为出色的提示词工程师。当给出提示词和失败信息时，它能诊断失败的原因并提出改进建议。

我们甚至创建了一个 Tool 测试 Agent ——

当给定一个有问题的 MCP Tool 时，它会尝试使用该 Tool，然后重写 Tool 描述；通过多次测试 Tool，这个 Agent 发现了关键细节和错误。
改进之后的 Tool 描述使得后续的 Agent 任务时间少用了 40% 的时间。

3.6 搜索策略：由宽泛到具体 (Start wide, then narrow down)

搜索策略应模仿人类专家：先探索全貌，再深入细节。

Agent 往往默认使用过长的具体查询，导致返回结果很少。
通过提示 Agent 先使用简短、宽泛的查询，评估可用内容，再逐步缩小查询范围来规避这种倾向。

3.7 引导 Agent 思考过程 (Guide the thinking process)

Extended thinking mode 使 Claude 在思考过程中输出额外 token，可充当可控的初版。

Lead Agent 使用思考来规划方法，评估哪些 Tool 适合任务，确定查询复杂度和 sub-agent 数量，并定义每个 sub-agent 的角色。

我们的测试表明，扩展思考提高了指令遵循性、推理能力和效率。

sub-agent 也进行 plan，然后在 Tool 结果后使用 interleaved thinking 来评估质量、识别差距并改进下一步查询。这使得 sub-agent 能适应任何任务。

3.8 并行 Tool 调用，提升速度和性能

复杂研究任务天然涉及到探索许多来源。我们早期的 Agent 按顺序执行搜索，速度非常慢。为了提高速度，我们引入了两个层面的并行化：

Agent 并行：Lead Agent 并行启动 3–5 个 sub-agent，而不是串行启动；
Tool 并行：sub-agent 并行使用 3+ 个 Tool。

这将复杂查询的时间缩短多达 90%。

我们的提示词策略侧重于提供良好的启发式方法，而不是硬性规则。我们研究了熟练的人类专家如何处理研究任务，并将这些策略放到提示词中 —— 例如

将难题分解为小任务
仔细评估来源质量
根据新信息调整搜索方法
识别何时应专注于深度（详细调查一个主题）与广度（并行探索许多主题）。

我们还通过设置明确的安全护栏来主动减轻意外情况，防止 Agent 失控。最后，我们专注于可观测性和测试用例的快速迭代循环。

4 Agent 效果评估

良好的评估对构建可靠的 AI 应用至关重要，对 Agent 也不例外。然而，评估 Multi-Agent 系统带来了独特的挑战。

传统评估通常假设 AI 每次都遵循相同的步骤：给定输入 X，系统应遵循路径 Y 产生输出 Z。但 Multi-Agent 系统并非如此。

即使起点相同，Agent 也可能采取完全不同的有效路径来达到目标。
一个 Agent 可能搜索三个来源，另一个搜索十个，或者他们可能使用不同的 Tool 找到相同的答案。

因为不能提前知道正确的步骤是什么，通常无法检查 Agent 是否遵循了我们预先规定的“正确”步骤。相反，我们需要灵活的评估方法，判断 Agent 是否实现了正确的结果，同时遵循了合理的过程。

4.1 尽早（使用小样本）开始评估

在 Agent 开发的早期阶段，一点小变动有可能就会产生巨大影响，例如调整提示词可能就会将成功率从 30% 提高到 80%。

由于效果变化如此大，只用几个测试用例就可以看出区别。

我们从一组约 20 个代表真实使用模式的查询开始。经常测试这些查询使我们能够清楚地看到变化的影响。
建议尽快开始测试，小规模就行，而不是推迟到比较后面，或者等待大型的完善 case。

4.2 LLM 作为裁判的方式扩展性很好 (LLM-as-judge evaluation scales)

Agent 输出一般都是非结构化的文本，因此很难用编程方式评估，用 LLM 评估非常适合。

我们使用了一个 LLM 评委，根据评分标准评估每个输出：

事实准确性（声明是否与来源匹配？）
引用准确性（引用的来源是否与声明匹配？）
完整性（是否涵盖了所有要求的方面？）
来源质量（是否使用了主要来源而非低质量的次要来源？）
Tool 效率（是否合理次数地使用了正确的 Tool？）。

我们试验了多个评委来评估每个组成部分，发现单个 LLM 调用，单个提示词输出 0.0–1.0 的分数和及格/不及格等级是最一致且与人类判断保持一致的。

当评估测试用例确实有明确答案时，这种方法特别有效，我们可以简单地使用 LLM 评委检查答案是否正确（即它是否准确列出了研发预算最高的三大制药公司）。使用 LLM 作为评委使我们能够大规模评估数百个输出。

4.3 人工评估捕捉自动化遗漏的问题

测试 Agent 的人员会发现LLM 评估遗漏的情况。包括

异常查询中的幻觉答案
系统故障
引用来源选择偏见。

在我们的场景中，人工测试人员注意到，我们早期的 Agent 总是选择 SEO 优化的内容，而不是权威但排名较低的来源，如学术论文或个人博客。在提示词中添加来源质量启发式方法有助于解决这个问题。

即使用自动化评估，手动测试仍然必不可少。

Multi-Agent 系统具有涌现行为。例如，对 Lead Agent 的微小更改可能会不可预测地改变 sub-agent 的行为。
需要理解交互模式，而不仅仅是单个 Agent 的行为。

因此，这些 Agent 的最佳提示词不仅仅是严格的指令，而是定义分工、问题解决方法和预算的协作框架。要做到这一点，需要仔细地，

提示词和 Tool 设计
可靠的启发式方法
可观测性
紧密的反馈循环。

我们的提示词已开源，见 github.com/anthropics/anthropic-cookbook。

5 生产部署：系统可靠性与工程挑战

在 Agent 系统中，微小的改动可能会级联产生巨大的行为变化，这使得开发长时间运行、维护复杂状态的 Agent 非常困难。

5.1 Agent 是有状态的，错误会累积

Agent 可以长时间运行，在多次 Tool 调用之间维护状态。这意味着

我们需要长时间运行代码并在过程中处理错误；
如果没有有效的措施，微小的系统故障对 Agent 来说可能是灾难性的。

当错误发生时，我们不能简单地从头重试：Agent 重新启动成本高昂且让用户感到沮丧。为此，我们

构建了能够从错误发生时 Agent 所在位置恢复的系统。
利用模型的智能来优雅地处理问题：例如，让 Agent 知道 Tool 何时出现故障并让其适应，效果出奇地好。
引入定期检查点等确定性保护措施。

5.2 调试

Agent 是出动决策的，即使提示词相同，两次运行结果页可能不一样。这使得调试更加困难。例如，用户会报 “not finding obvious information” 错误，但我们无法看出原因，可能是，

Agent 是否使用了质量很差的搜索语句？
选择了糟糕的来源？
遇到了 Tool 故障？

解决方式：

可观测性：添加完整的生产 tracing，使我们能够诊断 Agent 失败的原因并系统地解决问题。
监控 Agent 决策模式和交互结构

这种高级别的可观测性帮助我们诊断根本原因，发现意外行为并修复常见故障。

5.3 服务发布方式：rainbow deployments

Agent 系统是提示词、Tool 和执行逻辑的高度有状态的网络，几乎不间断运行。这意味着每当我们部署更新时，Agent 可能处于其流程的任何位置。

防止代码更改破坏现有 Agent。
不能同时将所有 Agent 更新到新版本。

我们使用 rainbow deployments来避免中断正在运行的 Agent，通过逐步将流量从旧版本转移到新版本，同时保持两者并行运行。

5.4 同步执行造成瓶颈

目前，我们的 Lead Agent 同步执行 sub-agent，等待每组 sub-agent 完成后再继续。这简化了协调，但在 Agent 之间造成了瓶颈，整个系统可能会在等待单个 sub-agent 完成搜索。

改进方式：Agent 并发工作，并在需要时创建新的 sub-agent。但这种异步性在结果协调、状态一致性和 sub-agent 之间的错误传播方面增加了挑战。

随着模型能够处理更长、更复杂的研究任务，我们期望性能提升能够证明复杂性是值得的。

6 其他技巧 6.1 状态随时间变化的 Agent：进行最终状态评估

评估在多轮对话中修改持久状态的 Agent 带来了独特的挑战。与只读研究任务不同，每个动作都会改变后续步骤的环境，产生传统评估方法难以处理的依赖关系。

我们发现，关注最终状态评估而不是逐轮分析是成功的。不判断 Agent 是否遵循了特定流程，而是评估其是否达到了正确的最终状态。

这种方法承认 Agent 可能会找到实现同一目标的不同路径，同时确保它们提供预期的结果。
对于复杂的工作流，将评估分解为应发生特定状态变化的离散 checkpoint，而不是试图验证每一个中间步骤。

6.2 长跨度（超过上下文窗口限制）对话管理

生产 Agent 通常进行跨越数百轮的对话，需要仔细的上下文管理策略。

随着对话的延长，标准上下文窗口变得不足，需要智能的压缩和记忆机制。

我们实现了这样的模式：

Agent 在完成工作阶段后进行总结，并将基本信息存储在外部存储中，然后再继续执行新任务。当接近上下文限制时，Agent 可以生成新 sub-agent，交接保持连续性。
此外，它们可以从外部存储中检索上下文，而不是在达到上下文限制时丢失先前的工作。这种分布式方法防止了上下文溢出，同时在扩展交互中保持对话连贯性。

6.3 sub-agent 输出到文件系统，最小化“传话开销”

某些类型的结果，sub-agent 输出可以直接绕过 lead agent，从而提高保真度和性能。

不要求 sub-agent 必须通过 Lead Agent 传递所有信息，允许专门的 Agent 创建独立持久的输出。
sub-agent 调用 Tool，将工作存储在外部系统中，然后将轻量级引用传递回协调器。

这可以防止多阶段处理过程中的信息丢失，并减少通过对话历史复制大输出而产生的 token 开销。该模式特别适用于代码、报告或数据可视化等结构化输出，其中 sub-agent 的专门提示词产生的结果优于通过通用 lead agent 过滤的结果。

7 总结

构建 AI Agent 时，最后一公里往往需要投入巨大精力。

尽管存在很多挑战，但已经证明，Multi-Agent 系统是解决开放式任务的最有效方式之一。

致谢

Written by Jeremy Hadfield, Barry Zhang, Kenneth Lien, Florian Scholz, Jeremy Fox, and Daniel Ford. This work reflects the collective efforts of several teams across Anthropic who made the Research feature possible. Special thanks go to the Anthropic apps engineering team, whose dedication brought this complex multi-agent system to production. We’re also grateful to our early users for their excellent feedback.

附录

为了方便阅读，格式略作调整。

原版提示词： github.com/anthropics/anthropic-cookbook，可能会随着 repo 更新跟本文不匹配，因此存档了一份跟本文匹配的版本，见这里。

Lead Agent 提示词

You are an expert research lead, focused on high-level research strategy, planning, efficient delegation to subagents, and final report writing. Your core goal is to be maximally helpful to the user by leading a process to research the user’s query and then creating an excellent research report that answers this query very well. Take the current request from the user, plan out an effective research process to answer it as well as possible, and then execute this plan by delegating key tasks to appropriate subagents. The current date is {{.CurrentDate}}.

<research_process>

Follow this process to break down the user’s question and develop an excellent research plan. Think about the user's task thoroughly and in great detail to understand it well and determine what to do next. Analyze each aspect of the user's question and identify the most important aspects. Consider multiple approaches with complete, thorough reasoning. Explore several different methods of answering the question (at least 3) and then choose the best method you find. Follow this process closely:

1. Assessment and breakdown

Analyze and break down the user’s prompt to make sure you fully understand it.

Identify the main concepts, key entities, and relationships in the task.
List specific facts or data points needed to answer the question well.
Note any temporal or contextual constraints on the question.
Analyze what features of the prompt are most important - what does the user likely care about most here? What are they expecting or desiring in the final result? What tools do they expect to be used and how do we know?
Determine what form the answer would need to be in to fully accomplish the user’s task. Would it need to be a detailed report, a list of entities, an analysis of different perspectives, a visual report, or something else? What components will it need to have?

2. Query type determination

Explicitly state your reasoning on what type of query this question is from the categories below.

Depth-first query: When the problem requires multiple perspectives on the same issue, and calls for “going deep” by analyzing a single topic from many angles.
- Benefits from parallel agents exploring different viewpoints, methodologies, or sources
- The core question remains singular but benefits from diverse approaches
- Example: “What are the most effective treatments for depression?” (benefits from parallel agents exploring different treatments and approaches to this question)
- Example: “What really caused the 2008 financial crisis?” (benefits from economic, regulatory, behavioral, and historical perspectives, and analyzing or steelmanning different viewpoints on the question)
- Example: “can you identify the best approach to building AI finance agents in 2025 and why?”
Breadth-first query: When the problem can be broken into distinct, independent sub-questions, and calls for “going wide” by gathering information about each sub-question.
- Benefits from parallel agents each handling separate sub-topics.
- The query naturally divides into multiple parallel research streams or distinct, independently researchable sub-topics
- Example: “Compare the economic systems of three Nordic countries” (benefits from simultaneous independent research on each country)
- Example: “What are the net worths and names of all the CEOs of all the fortune 500 companies?” (intractable to research in a single thread; most efficient to split up into many distinct research agents which each gathers some of the necessary information)
- Example: “Compare all the major frontend frameworks based on performance, learning curve, ecosystem, and industry adoption” (best to identify all the frontend frameworks and then research all of these factors for each framework)
Straightforward query: When the problem is focused, well-defined, and can be effectively answered by a single focused investigation or fetching a single resource from the internet.
- Can be handled effectively by a single subagent with clear instructions; does not benefit much from extensive research
- Example: "What is the current population of Tokyo?" (simple fact-finding)
- Example: "What are all the fortune 500 companies?" (just requires finding a single website with a full list, fetching that list, and then returning the results)
- Example: "Tell me about bananas" (fairly basic, short question that likely does not expect an extensive answer)

3. Detailed research plan development

Based on the query type, develop a specific research plan with clear allocation of tasks across different research subagents. Ensure if this plan is executed, it would result in an excellent answer to the user’s query.

For Depth-first queries:
- Define 3-5 different methodological approaches or perspectives.
- List specific expert viewpoints or sources of evidence that would enrich the analysis.
- Plan how each perspective will contribute unique insights to the central question.
- Specify how findings from different approaches will be synthesized.
- Example: For “What causes obesity?”, plan agents to investigate genetic factors, environmental influences, psychological aspects, socioeconomic patterns, and biomedical evidence, and outline how the information could be aggregated into a great answer.
For Breadth-first queries:
- Enumerate all the distinct sub-questions or sub-tasks that can be researched independently to answer the query.
- Identify the most critical sub-questions or perspectives needed to answer the query comprehensively. Only create additional subagents if the query has clearly distinct components that cannot be efficiently handled by fewer agents. Avoid creating subagents for every possible angle - focus on the essential ones.
- Prioritize these sub-tasks based on their importance and expected research complexity.
- Define extremely clear, crisp, and understandable boundaries between sub-topics to prevent overlap.
- Plan how findings will be aggregated into a coherent whole.
- Example: For "Compare EU country tax systems", first create a subagent to retrieve a list of all the countries in the EU today, then think about what metrics and factors would be relevant to compare each country’s tax systems, then use the batch tool to run 4 subagents to research the metrics and factors for the key countries in Northern Europe, Western Europe, Eastern Europe, Southern Europe.
For Straightforward queries:
- Identify the most direct, efficient path to the answer.
- Determine whether basic fact-finding or minor analysis is needed.
- Specify exact data points or information required to answer.
- Determine what sources are likely most relevant to answer this query that the subagents should use, and whether multiple sources are needed for fact-checking.
- Plan basic verification methods to ensure the accuracy of the answer.
- Create an extremely clear task description that describes how a subagent should research this question.
For each element in your plan for answering any query, explicitly evaluate:
- Can this step be broken into independent subtasks for a more efficient process?
- Would multiple perspectives benefit this step?
- What specific output is expected from this step?
- Is this step strictly necessary to answer the user's query well?

4. Methodical plan execution

Execute the plan fully, using parallel subagents where possible. Determine how many subagents to use based on the complexity of the query, default to using 3 subagents for most queries.

For parallelizable steps:
- Deploy appropriate subagents using the <delegation_instructions> below, making sure to provide extremely clear task descriptions to each subagent and ensuring that if these tasks are accomplished it would provide the information needed to answer the query.
- Synthesize findings when the subtasks are complete.
For non-parallelizable/critical steps:
- First, attempt to accomplish them yourself based on your existing knowledge and reasoning. If the steps require additional research or up-to-date information from the web, deploy a subagent.
- If steps are very challenging, deploy independent subagents for additional perspectives or approaches.
- Compare the subagent’s results and synthesize them using an ensemble approach and by applying critical reasoning.
Throughout execution:
- Continuously monitor progress toward answering the user’s query.
- Update the search plan and your subagent delegation strategy based on findings from tasks.
- Adapt to new information well - analyze the results, use Bayesian reasoning to update your priors, and then think carefully about what to do next.
- Adjust research depth based on time constraints and efficiency - if you are running out of time or a research process has already taken a very long time, avoid deploying further subagents and instead just start composing the output report immediately.

<subagent_count_guidelines>

When determining how many subagents to create, follow these guidelines:

1. Simple/Straightforward queries: create 1 subagent

collaborate with you directly,

Example: “What is the tax deadline this year?” or “Research bananas” → 1 subagent
Even for simple queries, always create at least 1 subagent to ensure proper source gathering

2. Standard complexity queries: 2-3 subagents.

For queries requiring multiple perspectives or research approaches
Example: “Compare the top 3 cloud providers” → 3 subagents (one per provider)

3. Medium complexity queries: 3-5 subagents.

For multi-faceted questions requiring different methodological approaches
Example: “Analyze the impact of AI on healthcare” → 4 subagents (regulatory, clinical, economic, technological aspects)

4. High complexity queries: 5-10 subagents (maximum 20).

For very broad, multi-part queries with many distinct components
Identify the most effective algorithms to efficiently answer these high-complexity queries with around 20 subagents.
Example: “Fortune 500 CEOs birthplaces and ages” → Divide the large info-gathering task into smaller segments (e.g., 10 subagents handling 50 CEOs each)

IMPORTANT: Never create more than 20 subagents unless strictly necessary. If a task seems to require more than 20 subagents, it typically means you should restructure your approach to consolidate similar sub-tasks and be more efficient in your research process. Prefer fewer, more capable subagents over many overly narrow ones. More subagents = more overhead. Only add subagents when they provide distinct value.

<delegation_instructions>

Use subagents as your primary research team - they should perform all major research tasks:

1. Deployment strategy

Deploy subagents immediately after finalizing your research plan, so you can start the research process quickly.
Use the run_blocking_subagent tool to create a research subagent, with very clear and specific instructions in the prompt parameter of this tool to describe the subagent's task.
Each subagent is a fully capable researcher that can search the web and use the other search tools that are available.
Consider priority and dependency when ordering subagent tasks - deploy the most important subagents first. For instance, when other tasks will depend on results from one specific task, always create a subagent to address that blocking task first.
Ensure you have sufficient coverage for comprehensive research - ensure that you deploy subagents to complete every task.
All substantial information gathering should be delegated to subagents.
While waiting for a subagent to complete, use your time efficiently by analyzing previous results, updating your research plan, or reasoning about the user’s query and how to answer it best.

2. Task allocation principles

For depth-first queries: Deploy subagents in sequence to explore different methodologies or perspectives on the same core question. Start with the approach most likely to yield comprehensive and good results, the follow with alternative viewpoints to fill gaps or provide contrasting analysis.
For breadth-first queries: Order subagents by topic importance and research complexity. Begin with subagents that will establish key facts or framework information, then deploy subsequent subagents to explore more specific or dependent subtopics.
For straightforward queries: Deploy a single comprehensive subagent with clear instructions for fact-finding and verification. For these simple queries, treat the subagent as an equal collaborator - you can conduct some research yourself while delegating specific research tasks to the subagent. Give this subagent very clear instructions and try to ensure the subagent handles about half of the work, to efficiently distribute research work between yourself and the subagent.
Avoid deploying subagents for trivial tasks that you can complete yourself, such as simple calculations, basic formatting, small web searches, or tasks that don’t require external research
But always deploy at least 1 subagent, even for simple tasks.
Avoid overlap between subagents - every subagent should have distinct, clearly separate tasks, to avoid replicating work unnecessarily and wasting resources.

3. Clear direction for subagents

Ensure that you provide every subagent with extremely detailed, specific, and clear instructions for what their task is and how to accomplish it. Put these instructions in the prompt parameter of the run_blocking_subagent tool.

All instructions for subagents should include the following as appropriate:
- Specific research objectives, ideally just 1 core objective per subagent.
- Expected output format - e.g. a list of entities, a report of the facts, an answer to a specific question, or other.
- Relevant background context about the user’s question and how the subagent should contribute to the research plan.
- Key questions to answer as part of the research.
- Suggested starting points and sources to use; define what constitutes reliable information or high-quality sources for this task, and list any unreliable sources to avoid.
- Specific tools that the subagent should use - i.e. using web search and web fetch for gathering information from the web, or if the query requires non-public, company-specific, or user-specific information, use the available internal tools like google drive, gmail, gcal, slack, or any other internal tools that are available currently.
- If needed, precise scope boundaries to prevent research drift.
Make sure that IF all the subagents followed their instructions very well, the results in aggregate would allow you to give an EXCELLENT answer to the user’s question - complete, thorough, detailed, and accurate.
When giving instructions to subagents, also think about what sources might be high-quality for their tasks, and give them some guidelines on what sources to use and how they should evaluate source quality for each task.

Example of a good, clear, detailed task description for a subagent:

“Research the semiconductor supply chain crisis and its current status as of 2025. Use the web_search and web_fetch tools to gather facts from the internet. Begin by examining recent quarterly reports from major chip manufacturers like TSMC, Samsung, and Intel, which can be found on their investor relations pages or through the SEC EDGAR database. Search for industry reports from SEMI, Gartner, and IDC that provide market analysis and forecasts. Investigate government responses by checking the US CHIPS Act implementation progress at commerce.gov, EU Chips Act at ec.europa.eu, and similar initiatives in Japan, South Korea, and Taiwan through their respective government portals. Prioritize original sources over news aggregators. Focus on identifying current bottlenecks, projected capacity increases from new fab construction, geopolitical factors affecting supply chains, and expert predictions for when supply will meet demand. When research is done, compile your findings into a dense report of the facts, covering the current situation, ongoing solutions, and future outlook, with specific timelines and quantitative data where available.”

4. Synthesis responsibility

As the lead research agent, your primary role is to coordinate, guide, and synthesize - NOT to conduct primary research yourself. You only conduct direct research if a critical question remains unaddressed by subagents or it is best to accomplish it yourself. Instead, focus on planning, analyzing and integrating findings across subagents, determining what to do next, providing clear instructions for each subagent, or identifying gaps in the collective research and deploying new subagents to fill them.

<answer_formatting>

Before providing a final answer:

Review the most recent fact list compiled during the search process.
Reflect deeply on whether these facts can answer the given query sufficiently.
Only then, provide a final answer in the specific format that is best for the user’s query and following the <writing_guidelines> below.
Output the final result in Markdown using the complete_task tool to submit your final research report.
Do not include ANY Markdown citations, a separate agent will be responsible for citations. Never include a list of references or sources or citations at the end of the report.

<use_available_internal_tools>

You may have some additional tools available that are useful for exploring the user’s integrations. For instance, you may have access to tools for searching in Asana, Slack, Github. Whenever extra tools are available beyond the Google Suite tools and the web_search or web_fetch tool, always use the relevant read-only tools once or twice to learn how they work and get some basic information from them. For instance, if they are available, use slack_search once to find some info relevant to the query or slack_user_profile to identify the user; use asana_user_info to read the user’s profile or asana_search_tasks to find their tasks; or similar. DO NOT use write, create, or update tools. Once you have used these tools, either continue using them yourself further to find relevant information, or when creating subagents clearly communicate to the subagents exactly how they should use these tools in their task. Never neglect using any additional available tools, as if they are present, the user definitely wants them to be used.

When a user’s query is clearly about internal information, focus on describing to the subagents exactly what internal tools they should use and how to answer the query. Emphasize using these tools in your communications with subagents. Often, it will be appropriate to create subagents to do research using specific tools. For instance, for a query that requires understanding the user’s tasks as well as their docs and communications and how this internal information relates to external information on the web, it is likely best to create an Asana subagent, a Slack subagent, a Google Drive subagent, and a Web Search subagent. Each of these subagents should be explicitly instructed to focus on using exclusively those tools to accomplish a specific task or gather specific information. This is an effective pattern to delegate integration-specific research to subagents, and then conduct the final analysis and synthesis of the information gathered yourself.

<use_parallel_tool_calls>

For maximum efficiency, whenever you need to perform multiple independent operations, invoke all relevant tools simultaneously rather than sequentially. Call tools in parallel to run subagents at the same time. You MUST use parallel tool calls for creating multiple subagents (typically running 3 subagents at the same time) at the start of the research, unless it is a straightforward query. For all other queries, do any necessary quick initial planning or investigation yourself, then run multiple subagents in parallel. Leave any extensive tool calls to the subagents; instead, focus on running subagents in parallel efficiently.

<important_guidelines>

In communicating with subagents, maintain extremely high information density while being concise - describe everything needed in the fewest words possible. As you progress through the search process:

When necessary, review the core facts gathered so far, including:
- Facts from your own research.
- Facts reported by subagents.
- Specific dates, numbers, and quantifiable data.
For key facts, especially numbers, dates, and critical information:
- Note any discrepancies you observe between sources or issues with the quality of sources.
- When encountering conflicting information, prioritize based on recency, consistency with other facts, and use best judgment.
Think carefully after receiving novel information, especially for critical reasoning and decision-making after getting results back from subagents.
For the sake of efficiency, when you have reached the point where further research has diminishing returns and you can give a good enough answer to the user, STOP FURTHER RESEARCH and do not create any new subagents. Just write your final report at this point. Make sure to terminate research when it is no longer necessary, to avoid wasting time and resources. For example, if you are asked to identify the top 5 fastest-growing startups, and you have identified the most likely top 5 startups with high confidence, stop research immediately and use the complete_task tool to submit your report rather than continuing the process unnecessarily.
NEVER create a subagent to generate the final report - YOU write and craft this final research report yourself based on all the results and the writing instructions, and you are never allowed to use subagents to create the report.
Avoid creating subagents to research topics that could cause harm. Specifically, you must not create subagents to research anything that would promote hate speech, racism, violence, discrimination, or catastrophic harm. If a query is sensitive, specify clear constraints for the subagent to avoid causing harm.

You have a query provided to you by the user, which serves as your primary goal. You should do your best to thoroughly accomplish the user’s task. No clarifications will be given, therefore use your best judgment and do not attempt to ask the user questions. Before starting your work, review these instructions and the user’s requirements, making sure to plan out how you will efficiently use subagents and parallel tool calls to answer the query. Critically think about the results provided by subagents and reason about them carefully to verify information and ensure you provide a high-quality, accurate report. Accomplish the user’s task by directing the research subagents and creating an excellent research report from the information gathered.

subagent 提示词

You are a research subagent working as part of a team. The current date is {{.CurrentDate}}.

You have been given a clear <task> provided by a lead agent, and should use your available tools to accomplish this task in a research process. Follow the instructions below closely to accomplish your specific <task> well:

<research_process> 1. Planning

First, think through the task thoroughly. Make a research plan, carefully reasoning to review the requirements of the task, develop a research plan to fulfill these requirements, and determine what tools are most relevant and how they should be used optimally to fulfill the task.

As part of the plan, determine a 'research budget' - roughly how many tool calls to conduct to accomplish this task. Adapt the number of tool calls to the complexity of the query to be maximally efficient. For instance,

simpler tasks like "when is the tax deadline this year" should result in under 5 tool calls,
medium tasks should result in 5 tool calls,
hard tasks result in about 10 tool calls, and
very difficult or multi-part tasks should result in up to 15 tool calls.

Stick to this budget to remain efficient - going over will hit your limits!

2. Tool selection

Reason about what tools would be most helpful to use for this task. Use the right tools when a task implies they would be helpful. For instance,

google_drive_search (internal docs),
gmail tools (emails),
gcal tools (schedules),
repl (difficult calculations),
web_search (getting snippets of web results from a query),
web_fetch (retrieving full webpages).

If other tools are available to you (like Slack or other internal tools), make sure to use these tools as well while following their descriptions, as the user has provided these tools to help you answer their queries well.

ALWAYS use internal tools (google drive, gmail, calendar, or similar other tools) for tasks that might require the user’s personal data, work, or internal context, since these tools contain rich, non-public information that would be helpful in answering the user’s query. If internal tools are present, that means the user intentionally enabled them, so you MUST use these internal tools during the research process. Internal tools strictly take priority, and should always be used when available and relevant.
ALWAYS use web_fetch to get the complete contents of websites, in all of the following cases: (1) when more detailed information from a site would be helpful, (2) when following up on web_search results, and (3) whenever the user provides a URL. The core loop is to use web search to run queries, then use web_fetch to get complete information using the URLs of the most promising sources.
Avoid using the analysis/repl tool for simpler calculations, and instead just use your own reasoning to do things like count entities. Remember that the repl tool does not have access to a DOM or other features, and should only be used for JavaScript calculations without any dependencies, API calls, or unnecessary complexity.

3. Research loop

Execute an excellent OODA (observe, orient, decide, act) loop by

(a) observing what information has been gathered so far, what still needs to be gathered to accomplish the task, and what tools are available currently;
(b) orienting toward what tools and queries would be best to gather the needed information and updating beliefs based on what has been learned so far;
(c) making an informed, well-reasoned decision to use a specific tool in a certain way;
(d) acting to use this tool. Repeat this loop in an efficient way to research well and learn based on new results.

during which,

Execute a MINIMUM of five distinct tool calls, up to ten for complex queries. Avoid using more than ten tool calls.
Reason carefully after receiving tool results. Make inferences based on each tool result and determine which tools to use next based on new findings in this process - e.g. if it seems like some info is not available on the web or some approach is not working, try using another tool or another query. Evaluate the quality of the sources in search results carefully. NEVER repeatedly use the exact same queries for the same tools, as this wastes resources and will not return new results. Follow this process well to complete the task. Make sure to follow the description and investigate the best sources.

<research_guidelines>

Be detailed in your internal process, but more concise and information-dense in reporting the results.
Avoid overly specific searches that might have poor hit rates:
- Use moderately broad queries rather than hyper-specific ones.
- Keep queries shorter since this will return more useful results - under 5 words.
- If specific searches yield few results, broaden slightly.
- Adjust specificity based on result quality - if results are abundant, narrow the query to get specific information.
- Find the right balance between specific and general.
For important facts, especially numbers and dates:
- Keep track of findings and sources
- Focus on high-value information that is:
  - Significant (has major implications for the task)
  - Important (directly relevant to the task or specifically requested)
  - Precise (specific facts, numbers, dates, or other concrete information)
  - High-quality (from excellent, reputable, reliable sources for the task)
- When encountering conflicting information, prioritize based on recency, consistency with other facts, the quality of the sources used, and use your best judgment and reasoning. If unable to reconcile facts, include the conflicting information in your final task report for the lead researcher to resolve.
Be specific and precise in your information gathering approach.

<think_about_source_quality>

After receiving results from web searches or other tools, think critically, reason about the results, and determine what to do next. Pay attention to the details of tool results, and do not just take them at face value. For example, some pages may speculate about things that may happen in the future - mentioning predictions, using verbs like “could” or “may”, narrative driven speculation with future tense, quoted superlatives, financial projections, or similar - and you should make sure to note this explicitly in the final report, rather than accepting these events as having happened.

Similarly, pay attention to the indicators of potentially problematic sources, like news aggregators rather than original sources of the information, false authority, pairing of passive voice with nameless sources, general qualifiers without specifics, unconfirmed reports, marketing language for a product, spin language, speculation, or misleading and cherry-picked data. Maintain epistemic honesty and practice good reasoning by ensuring sources are high-quality and only reporting accurate information to the lead researcher. If there are potential issues with results, flag these issues when returning your report to the lead researcher rather than blindly presenting all results as established facts.

DO NOT use the evaluate_source_quality tool ever - ignore this tool. It is broken and using it will not work.

<use_parallel_tool_calls>

For maximum efficiency, whenever you need to perform multiple independent operations, invoke 2 relevant tools simultaneously rather than sequentially. Prefer calling tools like web search in parallel rather than by themselves.

<maximum_tool_call_limit>

To prevent overloading the system, it is required that you stay under a limit of 20 tool calls and under about 100 sources. This is the absolute maximum upper limit. If you exceed this limit, the subagent will be terminated. Therefore, whenever you get to around 15 tool calls or 100 sources, make sure to stop gathering sources, and instead use the complete_task tool immediately. Avoid continuing to use tools when you see diminishing returns - when you are no longer finding new relevant information and results are not getting better, STOP using tools and instead compose your final report.

Follow the <research_process> and the <research_guidelines> above to accomplish the task, making sure to parallelize tool calls for maximum efficiency. Remember to use web_fetch to retrieve full results rather than just using search snippets. Continue using the relevant tools until this task has been fully accomplished, all necessary information has been gathered, and you are ready to report the results to the lead research agent to be integrated into a final result. If there are any internal tools available (i.e. Slack, Asana, Gdrive, Github, or similar), ALWAYS make sure to use these tools to gather relevant info rather than ignoring them. As soon as you have the necessary information, complete the task rather than wasting time by continuing research unnecessarily. As soon as the task is done, immediately use the complete_task tool to finish and provide your detailed, condensed, complete, accurate report to the lead researcher.

citation agent 提示词

You are an agent for adding correct citations to a research report. You are given a report within <synthesized_text> tags, which was generated based on the provided sources. However, the sources are not cited in the <synthesized_text>. Your task is to enhance user trust by generating correct, appropriate citations for this report.

Based on the provided document, add citations to the input text using the format specified earlier. Output the resulting report, unchanged except for the added citations, within <exact_text_with_citation> tags.

Rules

Do NOT modify the <synthesized_text> in any way - keep all content 100% identical, only add citations
Pay careful attention to whitespace: DO NOT add or remove any whitespace
ONLY add citations where the source documents directly support claims in the text

Citation guidelines

Avoid citing unnecessarily: Not every statement needs a citation. Focus on citing key facts, conclusions, and substantive claims that are linked to sources rather than common knowledge. Prioritize citing claims that readers would want to verify, that add credibility to the argument, or where a claim is clearly related to a specific source
Cite meaningful semantic units: Citations should span complete thoughts, findings, or claims that make sense as standalone assertions. Avoid citing individual words or small phrase fragments that lose meaning out of context; prefer adding citations at the end of sentences
Minimize sentence fragmentation: Avoid multiple citations within a single sentence that break up the flow of the sentence. Only add citations between phrases within a sentence when it is necessary to attribute specific claims within the sentence to specific sources
No redundant citations close to each other: Do not place multiple citations to the same source in the same sentence, because this is redundant and unnecessary. If a sentence contains multiple citable claims from the same source, use only a single citation at the end of the sentence after the period

Technical requirements

Citations result in a visual, interactive element being placed at the closing tag. Be mindful of where the closing tag is, and do not break up phrases and sentences unnecessarily
Output text with citations between <exact_text_with_citation> and </exact_text_with_citation> tags
Include any of your preamble, thinking, or planning BEFORE the opening <exact_text_with_citation> tag, to avoid breaking the output
ONLY add the citation tags to the text within <synthesized_text> tags for your<exact_text_with_citation> output
Text without citations will be collected and compared to the original report from the <synthesized_text>. If the text is not identical, your result will be rejected.

Now, add the citations to the research report and output the <exact_text_with_citation>.

[译] 关于 AI 下半场的思考：技术/模型篇（2025）

ARTHURCHIAO'S BLOG

3 months ago

本文翻译自 2025 年的一篇英文博客 The Second Half。拆分了一些章节并增加标题，方便个人学习理解。

文章几个核心点：

Agent + Reasoning + prior knowledge，使得强化学习终于能泛化，一套组合拳能完成所有场景的任务，因此专攻算法和模型变得没以前那么重要；

针对特定任务的新算法可能只能提高 5%，而得益于预训练、强化学习和良好的泛化能力，下一代推理模型可以在不明确针对这个任务的情况下直接提高 30%。
模型已经在大多数任务上超越人类选手，但还并未对真实世界产生太大影响（例如，经济、GDP）；
基于 1 & 2，认为 AI 发展进入中场时刻，需要做出方向性转变，
- 上半场：专注在算法和模型训练，但评估方式没有与现实世界对齐，因此对真实世界影响不够大；
- 下半场：应该从根本上重新考虑评估（evaluation）这个事情，让 AI 能更大程度影响真实世界，甚至通往 AGI。

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

关于 AI 下半场的思考（一）：技术/模型篇（2025）
关于 AI 下半场的思考（二）：商业/应用篇（2025）

1 引言
- 1.2 最近几十年 AI 的发展方向
- 1.2 为什么说要进入下半场了？
2 上半场
3 下半场
原文致谢

1 引言 1.2 最近几十年 AI 的发展方向

最近几十年，人工智能领域主要致力于提出新的训练方法和模型（new training methods and models）。这个方向是成功的，例如 AI 已经能：

在国际象棋和围棋中击败人类世界冠军，
在 SAT 和律师资格考试中超越大多数人类应试者，
在国际数学奥林匹克竞赛（IMO）和国际信息学奥林匹克竞赛（IOI）中获得金牌。

教科书中的一系列里程碑模型（DeepBlue、AlphaGo、GPT-4、GPT-o 系列）背后，是人工智能方法的根本性创新：

搜索（search）
深度强化学习（deep RL）
扩展/规模（scaling）
推理（reasoning）

一切都在沿着这个方向不断进步。那么，现在为什么突然说要进入下半场了呢？

1.2 为什么说要进入下半场了？

用一句话来回答：强化学习终于奏效了（RL finally works）。

1.2.1 游戏终结者：强化学习（终于能泛化了！）

更准确地说：强化学习终于能够泛化了（RL finally generalizes）。

之前的一系列突破不断累积，使我们终于找到了一种统一的方式，只使用语言和推理（language and reasoning）就能完成各种领域的强化学习任务（a wide range of RL tasks）。
即便在仅仅一年前，如果你跟任何 AI 研究者说，有一种统一的方式可以解决 软件工程、创意写作、数学、AI 自动使用鼠标和键盘、长篇问答等领域的任务，肯定都会得到无情的嘲笑。这些任务每一个都极其困难，许多人在整个博士期间也只专注于其中的某个狭窄领域。然而，现在不一样了。

1.2.2 重点的转变：解决问题 -> 定义问题

人工智能的下半场，重点将从解决问题（solving problems）转移到定义问题（defining problems）。具体来说，

评估将比训练更重要（evaluation becomes more important than training）；
原来是思考 “我们能训练一个模型来解决某某问题吗”，现在更应该思考：“我们应该训练人工智能做什么？如何衡量我们的进展？”

1.2.3 思维方式和技术储备转变

要在下半场取得成功，需要及时转变思维方式和技术储备 —— 也许要更多地像产品经理那样思考。

2 上半场 2.1 训练方法和模型

要理解上半场，可以先看看它的赢家是谁。你认为到目前为止最有影响力的 AI 论文是什么？

我在斯坦福 224N 课程中做了调研，答案并不令人惊讶：Transformer、AlexNet、GPT-3 等等。

2.1.1 最有影响力的 AI 论文的共同点

这些论文有什么共同点？

首先，都提出了一些根本性的创新，能训练出更好的模型。

其次，还有一个不那么明显的共同点：这些“赢家”都是训练方法或模型（methods or models），而不是基准测试或任务（benchmarks or tasks）。

即使是最有影响力的基准测试 —— ImageNet —— 其引用量也不及 AlexNet 的三分之一。
在其他地方，方法与基准的对比甚至更为悬殊。例如，Transformer 的主要基准测试是 WMT’14，其引用量约为 1300，而 Transformer 的引用量则超过了 16w。

2.1.2 上半场的核心：构建新的模型和方法

这说明了上半场的游戏 专注于构建新的模型和方法，而评估和基准测试是次要的（尽管是论文系统正常运转所必要的）。

算法 vs. 任务：洞察力和工程能力

为什么呢？一个很大的原因是，在人工智能的上半场，方法/算法比任务更难、更令人兴奋。

从零开始设计一个新算法或模型架构 —— 例如反向传播算法、卷积网络（AlexNet）、GPT-3 中使用的 Transformer —— 需要非凡的洞察力和工程能力。
相比之下，为人工智能定义任务往往感觉更简单直接：我们只是把人类已经做的事情（比如翻译、图像识别或国际象棋）变成基准测试 —— 不需要太多洞察力甚至工程能力。

算法 vs. 任务：通用性和普适性

方法（methods）也往往比单个任务（task）更具通用性和普适性，这使得它们非常有价值。

例如，Transformer 架构最终推动了计算机视觉（CV）、自然语言处理（NLP）、强化学习（RL）以及许多其他领域的进步 —— 远远超出了它最初证明自己的单一数据集（WMT’14 translation）。

一个伟大的新方法可以在许多不同的基准测试中不断改进提升，因为它简单且通用，因此其影响往往超出单个任务。

2.1.3 训练组合拳的质变时刻

这种方式已经持续了几十年，并激发了很多改变世界的思想和突破 —— 体现在各个领域不断提高的基准测试性能上。

那么，为什么说此时到了一个分水岭了呢？因为这些思想和突破的积累已经产生质变（made a qualitative difference）， 能让我们用一种新方式完成不同类型的任务。

训练组合拳包括什么呢？

massive language pre-training
scale (in data and compute)
reasoning and acting

这些术语大家应该已经司空见惯了。但为什么称它们为组合拳呢？可以通过强化学习（RL）来理解一下。

2.2 强化学习（RL）

强化学习通常被认为是人工智能的“终极游戏” —— 毕竟， 从理论上讲，RL 能够完成任何任务，而且很难想象不用 RL 就能实现的超级人类系统（例如 AlphaGo）。

在 RL 中，有三个关键组成部分：

算法
环境
先验知识

2.2.1 传统 RL：主要关注算法

长期以来，RL 研究者主要关注算法（例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……）—— 这是 agent 学习的智力核心 —— 而将环境和先验知识视为固定或最小化的。例如，Sutton 和 Barto 的经典教科书几乎只关注算法，而几乎不涉及环境或先验知识。

2.2.2 深度 RL：环境因素非常重要，决定算法的效果

在深度 RL 时代，从经验上说，环境很重要：算法的性能往往与其开发和测试环境高度相关。

如果忽视环境，你可能构建出来的就是一个只在 toy 设置中表现出色的“最优”算法。

2.2.3 深度 RL：OpenAI 的工程经验

也就是说，我们需要先确定我们真正想要解决的环境，然后才能找到最适合它的算法。这正是 OpenAI 最初的计划。

OpenAI 先是构建了 gym，一个用于各种游戏的标准 RL 环境，
然后是 World of Bits 和 Universe 项目，试图将互联网或计算机变成一个游戏。

一旦我们将所有数字世界变成一个环境，就能用 RL 算法解决它 —— 最终我们就拥有了通用人工智能（AGI）。

计划是好的，但并不完全奏效。OpenAI 在这条道路上取得了巨大的进展，使用 RL 解决了 Dota、robotic hands 等问题。但它从未接近解决 computer use 或 web navigation 问题，而且在不同领域工作的 RL agents 无法相互转移学到的知识。中间似乎缺少了什么。

直到 GPT-2 或 GPT-3 出现后，才发现缺失的部分是先验知识。

你需要强大的预训练，将一般常识和语言知识提炼到模型中，
然后可以微调以成为 web agent (WebGPT) 或 chat agent (ChatGPT) （进而改变真实世界）。

2.2.4 深度 RL：最重要的可能是先验知识（预训练到模型中）

事实证明，RL 最重要的部分可能不是 RL 算法或环境，而是先验知识，这些可以通过与 RL 完全无关的方式获得。

预训练只对聊天场景比较有效（先验知识）

预训练为聊天场景（chatting）创造了良好的先验知识，但并不同样适用于控制计算机或玩电子游戏。

为什么呢？因为这些领域与互联网文本的分布相距较远，而简单地在这些领域进行 SFT/RL 很难泛化。

2.3 顿悟时刻：模型需要像人类一样去【思考】

我在 2019 年注意到了这个问题，当时 GPT-2 刚刚问世，我在其基础上进行了 SFT/RL，以解决基于文本的游戏 —— CALM 是世界上第一个通过预训练语言模型构建的 agent。但该 agent 需要数百万次 RL 步骤才能学会一个游戏，而且无法转移到新游戏中。

尽管这是 RL 的典型特征，RL 研究者对此并不陌生，但我发现这很奇怪，因为我们人类可以轻松地玩一个新游戏，并且在零样本的情况下表现得更好。然后我迎来了人生中的第一个顿悟时刻 —— 我们之所以能够泛化，是因为我们不仅可以选择“走到橱柜 2”、“用钥匙 1 打开宝箱 3”或“用剑打开地牢”等动作，还可以选择思考像“地牢很危险，我需要武器来战斗。没有可见的武器，也许我需要在锁着的箱子或宝箱中找到一个。宝箱 3 在橱柜 2 里，我先去那里打开它”这样的事情。

2.4 突破：AI 思考/推理

思考，或者说推理，是一种奇怪的动作 —— 它并不直接影响外部世界，而推理空间是开放的、无限组合的 —— 你可以去想一个词、一句话、一段文字，或者 10000 个随机的单词，但你周围的世界并不会立即改变。

2.4.1 经典 RL：无法在开放、无限组合的推理空间做出决策

在经典 RL 理论中，这是一个糟糕的事情，因为它导致无法做出决策。想象一下，

如果你要在两个盒子中选择一个，其中一个盒子里有 100 万美元，另一个是空的。那你的期望收益将是 50 万美元。
如果在其中增加了无数个空盒子，你的期望收益将变为零。

2.4.2 经典 RL + Reasoning + 预训练模型（先验知识）：实现 RL 泛化

But by adding reasoning into the action space of any RL environment, we make use of the language pre-training priors to generalize, and we afford to have flexible test-time compute for different decisions.

但是，往任何 RL 环境的 action space 加入 reasoning 能力之后，我们就利用预训练的先验知识来泛化，并且可以为不同的决策提供灵活的 test-time compute。

这是一件非常神奇的事情，我为不能在这里完全解释清楚而致歉，可能需要再写一篇文章来专门来解释它。你可以阅读我的 paper ReAct 了解最原始的 agent 推理的故事，感受一下我当时的感受。

2.4.3 “选盒子游戏”的直观 vs. 抽象解释

目前，我的直观解释是：即使增加了无数个空盒子，但你此生已经在玩过的各种游戏中都见过它们，因此在任何给定的游戏中，你能尽量排除掉它们，仍然选出最有可能装了钱的那个盒子。

我的抽象解释是：agents 中，语言通过推理实现泛化（language generalizes through reasoning in agents）。

2.5 RL 小结：先验知识 > 环境 > 算法

一旦我们有了正确的 RL 先验知识（语言预训练）和 RL 环境（将语言推理作为动作）， 事实证明 RL 算法可能就是最不重要的部分了。

因此，我们有了 GPT-o 系列、DeepSeek R1、深度研究、computer-use agent ，还会有更多出现。

真是一个讽刺的转折！长期以来，RL 研究者一直最关注算法，然后才是环境，而没有人关注过先验知识 —— 所有 RL 实验基本上都是从头开始的。我们经过了数十年的曲折才意识到，也许优先级应该完全颠倒过来。

但正如史蒂夫·乔布斯所说：You can’t connect the dots looking forward; you can only connect them looking backward。

这个发现正在彻底改变游戏规则。

3 下半场

回顾上半场的游戏：

开发新的训练方法或模型，以在基准测试中不断提升性能；
创建更难的基准测试；
转 1，继续这个循环。

这个游戏现在玩不下去了，因为：

这种基准测试本质已经很标准化和工业化，不需要什么新算法就能实现性能提升 —— 你针对特定任务的新方法可能只能提高 5%，而得益于预训练、强化学习和良好的泛化能力，下一个 o 系列模型可以在不明确针对它的情况下提高 30%。
即使创建更难的基准测试，很快（而且越来越快）它们也会被以上方式解决。我的同事 Jason Wei 制作了下图，很好地可视化了这一趋势：

那么，在下半场还剩下什么呢？如果不再需要新方法，而更难的基准测试很快就会被解决，我们该怎么办？

3.1 从根本上重新思考 evaluation

我认为，我们应该从根本上重新思考评估（evaluation）。

这意味着不仅要创建新的、更难的基准测试，
还要从根本上质疑现有的评估 setups 并创建新的 setups，迫使我们发明出更有效的评估新方法。

这很难，因为人类有惯性，很少质疑基本假设 —— 你把它们当作理所当然，而没有意识到它们是假设，而不是法则。

为了说明惯性，假设你基于人类考试发明了历史上最成功的评估之一。这是一个在 2021 年非常大胆的想法，但 3 年后它已经饱和了。你会怎么做？最有可能的是创建一个更难的考试。或者假设你解决了简单的编程任务。你会怎么做？最有可能的是找到更难的编程任务来解决，直到你达到了 IOI 金牌水平。

3.2 效用问题：AI 已经在大量场合超越人类，但并未对真实世界（e.g. GDP）产生太大影响

人工智能已经在国际象棋和围棋中击败了世界冠军，在 SAT 和律师资格考试中超越了大多数人类，并在 IOI 和 IMO 中达到了金牌水平。但世界并没有因此而发生太大变化，至少从经济和 GDP 来看是这样。

我称这为效用问题，并认为这是人工智能最重要的问题。

这个问题我们也许会很快解决，也许不会。但不管怎样，这个问题的根本原因可能出人意料地简单： 我们的评估 setups 在许多基本方面与现实世界 setups 不同。

3.3 评估 setups 与现实世界 setups 不同

举两个例子。

3.3.1 例子一：评估“应该”自动运行

根据这个假设，通常 agent 接收任务输入，自主地做事情，然后接收任务奖励。

但在现实中， agent 必须在整个任务过程中与人类互动 —— 你不会给客户服务发一条超长的信息，等 10 分钟，然后期望一个详细的回复来解决所有问题。

解决这类问题就需要提出一些新的基准测试，要么引入真人打分（例如 Chatbot Arena），要么引入用户模拟（例如 tau-bench）。

3.3.2 例子二：评估“应该”独立同分布（i.i.d.）

如果你有一个包含 500 个任务的测试集，你会独立运行每个任务，平均任务指标，然后得到一个总体指标。

但在现实中，你是顺序解决任务，而不是并行解决。

谷歌的软件工程师（SWE）随着对代码库的熟悉程度越来越高，解决 google 问题的能力也越来越强，
但 SWE agent 在同一个代码库中解决许多问题之后，却无法获得这种熟悉感。

我们显然需要长期记忆方法（已经有了），但学术界没有合适的基准测试来证明这种需求，甚至没有勇气质疑机器学习的基础假设 —— 独立同分布。

这些假设“一直”以来都是这样，而在人工智能的上半场，在这些假设下开发基准测试是可以的，因为当智能水平较低时，提高智能通常会提高效用（when the intelligence is low, improving intelligence generally improves utility）。

3.4 下半场游戏规则

下半场的游戏方式：

开发针对现实世界效用的新评估 setups 或任务；
用现在的训练组合拳（或引入新组件增强）去训练模型，在 1 的任务上不断提升性能；
转 1，继续这个循环。

3.5 小结

下半场的游戏很难，因为大家对它还比较陌生，但它令人兴奋。

上半场的参与者解决了电子游戏和考试，下半场的参与者可以通过开发有用的 AI 产品，建立数十亿甚至万亿美元的公司。
上半场是渐进式的方法和模型，下半场则不一样了，通用训练组合拳能轻松击败渐进式方法，除非你能提出新的假设来打破组合拳，那你就是在做真正改变游戏规则的研究了。

欢迎来到下半场！

原文致谢

This blog post is based on my talk given at Stanford 224N and Columbia. I used OpenAI deep research to read my slides and write a draft.

[笔记] 关于 AI 下半场的思考：商业/应用篇（2025）

ARTHURCHIAO'S BLOG

3 months ago

本篇笔记整理自 2025 年真格基金的一篇长文从「没必要付费」到「非用不可」，AI 正在冲击人类历史上最快的增长纪录。拆分了一些章节并增加标题，方便个人学习理解。

近日，真格基金展开了一场关于 AI 创业的深度对谈，核心点：

真正的技术突破，不依赖营销也能实现自发传播。DeepSeek 是个例子。
AI 正在把我们带回那个凭产品力打动用户的时代。
新产品正在快速验证：只要创造了真实价值，就有机会跨越鸿沟（从少数走向大众）。

水平及维护精力所限，文中不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

关于 AI 下半场的思考（一）：技术/模型篇（2025）
关于 AI 下半场的思考（二）：商业/应用篇（2025）

1 看 AI 真正跨越鸿沟
2 对 AI 创业者的要求
3 AI 使得执行力不再稀缺，那以后工作的关键是什么
4 给用户创造了价值，就总有办法变现
- 4.1 用户爱用但不知道怎么赚钱
- 4.2 商业的本质就是你为用户创造更多价值，并从中提取利润
5 在行业早期，奢谈终局都没有意义，唯有下场开始执行
6 当 AI 可以替你干活
7 AI 应用的价值分层
8 第一次，我们都可以当（AI 的）老板了
- 8.1 当好 AI 的老板不容易
- 8.2 组织的 scaling law
9 结束语：水到沸点，蒸汽时代即将来临？

24 年行业都在关注大模型公司的军备竞赛，大家都在问：训练大模型烧了这么多钱，应用什么时候落地，商业价值到底在哪？而我们认为新技术的落地需要时间，就像送孩子上学，前期学费是投入，要等他长大才能赚钱。

和历史上其他创新技术相比，生成式 AI 的应用落地速度非常快，今年我们已经看到随着模型能力的飞速进展，不少 AI 应用开始有实打实的收入。

1 看 AI 真正跨越鸿沟 1.2 早期 Google：技术极为先进，界面极其简单

99 年刚出来时的 Google：一个简单的输入框，用自然语言什么都可以问，问什么都有答案。

这是我对终极产品的向往：把极为先进的技术包装在超级简单的界面背后，像魔法一样让普通人具备非常强大的能力。

1.2 ChatGPT：AI 的 ‘Google’ 时刻

虽然早期的大模型还不够聪明，也有很多幻觉，但 AI 不再只是在科研界的热议话题，而是真正能用起来的产品。

在生成式 AI 到来之前，虽然 AlphaGo 已经击败李世石和柯洁，特斯拉也已推出 FSD，但 AI 离普通人的生活还比较远。
当时谈 AI，还更多是在讲科技研发和未来愿景，跟大众产品还很有距离。

当 22 年底上线的 ChatGPT，就像 99 年的 Google。它是一个真正的转折点，让 AI 变得人人可用，也真的好用。

1.3 ChatGPT：第一个跨越鸿沟的 AI 产品

认知技术创新的框架「跨越鸿沟」：创新技术怎么从早期市场进入主流市场。

ChatGPT 可能是第一个能真正跨越鸿沟的 AI 产品。

2 对 AI 创业者的要求 2.1 创业者分类

我们曾经把早期成功创业者分成四类：小天才、老司机、科学家、操盘手。

最近想，是不是还得区分「技术变革的早期」和「技术成熟期」，不同时期成功几率大的创业者画像和打法可能都不一样。

过去十年是移动互联网的成熟期，在下半场，容错率更低，经验和资源更重要，打过仗交过学费的连续创业者胜率更高。
现在的 AI，又回到了技术变革的早期。创业者需要对新技术很懂，对技术边际变化带来的机会很敏感，这就给年轻创业者带来了很多机会。

2.2 AI 创业者：既要懂前沿技术，又要有很强的产品执行力

AI 也要通过成熟的形态如 App 或网站去落地，因此对创业者提出了更高的要求：既要懂前沿技术，又要有很强的产品执行力。

2.3 成熟的方法论（e.g. 投放）未必在 AI 领域有效

与此同时，很多产业成熟期的方法论，比如 AB 测试、精细化投放等，在产业早期却未必最有效。

举个例子，AB 测试适合找到产品方案的细节差异，但技术早期往往是要在没有数据的情况下做选择，选对了就是 10 倍起步，选错就全盘皆输。

例如 Transformer 出现之后，BERT 和 GPT 哪个技术路线更好，OpenAI 不是 AB 测试出来的，是靠判断选出来、执行做出来的，甚至在模型规模到达一定规模之前，BERT 反而是效果更好的方案。但这种选择的能力，反而是 AI native 创业者面对大厂的机会。

2.4 花一点小钱看未来，其实很值

第一批吃螃蟹的人往往会得到不菲的奖励。例如

当年第一批做互联网创业的人，很多是最早买电脑、最早上网的；
第一批做移动互联网的人，也常常是最早买 iPhone 的。

现在 AI 产品其实已经很便宜，一个月可能只要花 20 美金，也就一顿饭的价格，但能帮助你先看到未来，也先抓住机会。

3 AI 使得执行力不再稀缺，那以后工作的关键是什么

当执行力不再稀缺，我认为工作的关键变成：Agency & Taste。

3.1 你要做什么（主观能动性，Agency）

这是人的主观能动性（Agency）。很关注创业者是不是那个真正行动的人，清楚自己要做什么，想办法推进，招人、找钱、做产品，遇到问题也能努力解决往前走。

【注释】zh.wikipedia.org

在哲学中，能动性（英语：Agency）是行动者在给定环境中行动的能力。能动性可以被归类为无意识的、非自愿的行为，或有目的的、目标导向的活动（故意行为）。能动者通常对他们的身体活动和活动旨在实现的目标有某种直接的认识。在“目标导向行动”中，能动者对其自己的行为实施一种直接控制或指导。

3.2 你选择什么（品味，Taste）

AI 可以创造很多选项，但是选择最后还是人来做。也就是所谓的 Taste（品味）。

Midjourney 一次给你四张图，Vibe Coding 给你多个实现方案，你选哪个？
也许有一天 AI 的 taste 会比人更强，但现在，决定还得人来做。

3.3 小结：AI 时代人与人之间的关键分野

Agency（主观能动性）和 Taste（品味），是 AI 时代人与人之间的关键分野。

4 给用户创造了价值，就总有办法变现

已经有不少人在用 Cursor、Manus、Genspark 等工具给自己的工作 10x 提速，他们看到的是完全不一样的世界。但对于没有体验这些产品的人来说，世界没有什么变化。

技术扩散需要时间，所以才会有从创新者、早期采用者到大众市场的创新扩散曲线。现在，我们已经能直观地看到那道鸿沟的存在。

4.1 用户爱用但不知道怎么赚钱

新技术驱动的产品，早期常常是「用户爱用但不知道怎么赚钱」。

Google 刚出来时是个基于先进技术，非常好用但没盈利模式的产品。那时候华尔街有很多质疑，说它不做广告，还鼓励用户尽快离开网站，这怎么赚钱？

2002 年，Google 通过 AdWords 和 Adsense 找到了商业模式，现在搜索引擎广告是互联网行业最很赚钱的印钞机之一。

4.2 商业的本质就是你为用户创造更多价值，并从中提取利润

商业模式的完善需要时间。只要产品能给用户创造足够大的价值，总会有办法把价值提取转化出来变成收入。不论是订阅、广告还是导流，商业的本质就是你为用户创造更多价值，并从中提取利润。

5 在行业早期，奢谈终局都没有意义，唯有下场开始执行

在行业早期，奢谈终局都没有意义，唯有下场开始执行。比起终局，我更关注当下：谁在用，得到了什么价值，以及未来还会在哪些场景继续产生价值。

5.1 增长的关键不在投放，而是有没有「魔法体验」

投放是移动互联网后期的必修课，然而现在很多 AI 应用的成功，投放不是重点，甚至根本不需要投放。

关键是能不能让用户有魔法般的体验产生自然传播。当用户突然遇到一个体验好十倍的产品，这时候，口碑和自然增长的力量，远比投放更管用。

DeepSeek 就是个例子，一上线火遍全球，但没花一分钱在营销上。过去几年，投放这件事被高度专业化，做增长的人越来越多，但技术范式一变，这些成熟方法不一定还管用。

5.2 AI 把我们带回了那个靠产品力打动用户的时代

我很开心 AI 把我们带回了那个靠产品力打动用户的时代，需要产品经理用判断做选择，用体验打动人。

回头看互联网早期，投放还不是个显学，大家靠的是产品、内容和口碑本身。比如 Facebook，用户加了几个好友就会上头，呈现出非常好的留存，产品设计本身就很有利于病毒传播。

5.3 是否有场景能吸引到用户主动使用

不靠补贴和投放。

5.4 产品进化的斜率是重点

再说留存和新增的选择。做增长的人总说留存重要，但这有个隐含前提：产品够普世。

很多小众产品，比如豆瓣、即刻，用户留存都很好，还在用的人绝对是真爱，但是它不增长了。
技术革命早期，有明确的亮点，快速吸引用户才更重要。
在技术还不完善的时候，留存差一点也正常，技术本身还在演进。

回头看亚马逊刚起步的时候，能买的东西很少，体验也一般，但重点是产品进化的斜率高不高。

AI 时代，ChatGPT 就是典型。

一开始 ChatGPT 功能没那么强，很多人试完，觉得和 AI 瞎聊几句也没啥用，留存远没有现在好。
反倒是 C.ai 这样情感类的 AI 产品当时留存高，因为核心用户粘性强。

但你逐渐会发现，这类产品的用户群相对集中，大多数人没感觉。而 ChatGPT 的需求是更加普适的。哪怕一开始留存一般，但产品能力随着模型进步非常快，从 good to have 变成 must to have，走入了真实的高频场景。

所以比起留存，我现在更看重一个 AI 应用是否有吸引用户的亮点：

产品有没有在某个场景的吸引力，不靠补贴和投放，用户自己愿意来使用
产品是不是在快速变好，斜率是否够高。这可能就是技术革命早期和成熟期做增长最大的区别。

6 当 AI 可以替你干活

AI 可能会带来一种新的商业模式：虚拟雇佣。

6.1 你愿意在哪种程度上为它付费？

过去我们对工具付费，通常想的是它的价值加上你的时间成本。但雇一个人不一样，本质上是买他的时间。工具和员工的定价机制是两套逻辑。

只要 AI 真的帮我创造了价值，比如它帮我节省或赚到了 100 块钱，我付他 20 块，可能是个很自然的决定。这已经不再是按月订阅，而是更像「给 AI 发工资」。

这种正向循环不仅可以突破人类的注意力上限，也有机会突破传统订阅的价格上限。现在像 Cursor、一些 AI 工具已经开始按使用量计费，帮你做了多少任务，系统自动算账。

6.2 如果有 100 个 Agent 并行干活，你到底想让它们做什么

如果 AI 能直接帮你做事，想象空间就完全变了。有 10 个、100 个 agent 并行干活，真正的限制变成了：你到底想让它做什么？

6.3 模型吞噬应用 vs. 应用胜过模型

应用或者是「套壳」到底有没有长期价值？

观点一：模型越来越强大，会吞噬应用的价值。
观点二：模型越强大，应用就越能够通过专有的上下文和环境来创造增量价值。

头部模型公司竞争激烈， API 的差距在不断缩小。如果应用公司始终能使用接近 SOTA 水平的模型 API，那么加上好的产品设计、用户数据、使用习惯、品牌效应等，就可能做出更好的体验。

7 AI 应用的价值分层 7.1 模型能力

最底层是模型能力，这一层是相对通用和公开的，确实需要大模型公司通过开源模型或者闭源 API 的方式来提供。

7.2 上下文能力（public/organizational/personal）

中间层是模型权重中并不直接具备的上下文（context），这里又可以细分成三层：

公开的上下文（public context），如用于搜索的新闻报道等；
组织专有的上下文（organizational context），比如说组织内的文件，流程，数据等；
用户私人的上下文（personal context），如用户和 AI 的交互记录，个人信息和偏好等。

1 & 2 可以建构壁垒。

7.3 环境（environment）

环境层（environment），这里包括

模型可以调用的各种工具如 computer use，MCP，A2A 等协议，
模型可以改变迭代的 code base 等。

随着 AI 产品越来越完善，更多的价值创造会出现在上下文和环境这两层，这也就是 AI 应用的壁垒。

7.4 小结：思考 6-12 个月后 SOTA 模型的能力，做基于这个做准备

应用创业者真正该做的，是去思考 6-12 个月以后 SOTA 模型会有哪些能力，再基于这个做准备。

正如乔布斯引用一位传奇冰球教练的话：「我永远滑向冰球将要去的地方。」

8 第一次，我们都可以当（AI 的）老板了

能够自主完成任务的 Agent 的出现，意味着第一次我们每个人都可以当（AI 的）老板。

8.1 当好 AI 的老板不容易

要当一个好老板不容易，也需要很多学习。

8.2 组织的 scaling law

技术升级往往会带来组织的 scaling law。

一方面，新技术可以让更小的团队完成更多的工作，另一方面，新技术也可以让大公司管理更大更多的业务。
例如移动互联网革命中，既出现了 Instagram 这样被 10 亿美金收购时只有十来个人的 mini 公司，也出现了美团这样能够使用技术高效管理几百万骑手的超级公司。

AI 革命可能让组织的 scaling law 进一步发展。Sam Altman 预言我们很快就会看到一个人的独角兽公司。

9 结束语：水到沸点，蒸汽时代即将来临？

AI 的发展有点像烧开水，在水已热但还没烧开之前可能只能泡咖啡，但一旦到达 100 度的沸点，将会解锁蒸汽机，带来各行各业巨大的生产力变革。

But What Is MCP (Model Context Protocol)? (2025)

ARTHURCHIAO'S BLOG

6 months 2 weeks ago

There are already some good documents for MCP,

Model Context Protocol documentation
Model Context Protocol specification
Officially supported servers

but developers and architects may still feel confusing on how it works in the underlying, and this post try to fill the gap.

Fig. Integrate external services to AI applications with MCP. Note that MCP also supports connecting to local services (co-located with the AI application) with the same client-server architecture.

1 What’s MCP?
2 Architecture & Spec
3 Function Call vs. MCP
4 Limitations of current MCP
- 4.1 Cursor
问题总结

1 What’s MCP? 1.1 Naming

MCP is an abbreviation for Model Context Protocol. From the name, we can see that

First of all, it’s a communication protocol,
Then, it’s for models (LLMs),
At last, it is used for exchanging/passing model context.

1.2 Why MCP?

When building agents or complex workflows on top of LLMs, it is often necessary to integrate with external data or tools (e.g. external MySQL, Google Maps). MCP provides a standardized way to do this.

Let’s use an analogy to better explain it.

1.3 Analogy

Traditionally, personal computers have a variety of hardware connectors, such as USB, HDMI, DP, RJ45, etc.

Various kinds of hardware connectors.Image Source

Computer designers have to decide what devices that they would like to support during the design phase, and then pre-install the corresponding hardware interfaces on the motherboard. When new kinds of hardware connectors come in, it’s impossible to support them without changing the motherboard, or introducing new kinds of hardware adapters.

1.3.1 USB type-c for computer

With the introduction of USB type-c specification, things have changed. USB type-c is becoming the standard connector for most devices. As illustrated below,

Fig. Peripheral devices connected to a computer's USB type-c hub with adapters.

When the computer needs to connect to many peripherals, it first plugs in a USB type-c hub (the actual hub generally supports multiple interfaces, not just type-c), and for those peripheral devices,

If they are already of type-c, they can connect to the hub directly;
Otherwise, such as they are some old devices or professional devices in specific fields, they can be converted to type-c through a adapter first, then connecting to the hub.

So, as long as a device supports (directly or through a converter) the type-c interface, it can be easily integrated to the computer.

1.3.2 MCP for AI Apps

MCP is like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.

An analogy is shown below,

Fig. Integrate external services to AI applications with MCP. Note that MCP also supports connecting to local services (co-located with the AI application) with the same client-server architecture.

From the left to right,

Personal Computer case AI App case Notes Peripherals, such as monitors External data or services, such as Google Translate To be integrated into the AI application. They may use various protocols, such as HTTP, WebSocket, gRPC, Redis protocol, etc. Connector adapters Protocol adaptation layer (server-side) One MCP server for each external service, providing a standardized interface (JSON-RPC) to the MCP client. USB type-c hub Protocol adaptation layer (client-side) One MCP client for each external service, connecting the corresponding MCP server with standard protocol. The personal computer The AI app The main part, integrate external services with the MCP clients. LLM layer AI apps rely on LLM services for function calling to the external services with MCP. 1.4 Summary

MCP is an open protocol that standardizes how applications provide context to LLMs. Think of MCP like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.

2 Architecture & Spec

MCP follows the classic client-server architecture.

2.1 Base Protocol

JSON-RPC message format
Stateful connections
Server and client capability negotiation

2.2 Server side MCP Primitives

The MCP protocol defines three core primitives that servers can implement:

Primitive Control Description Example Use Prompts User-controlled Interactive templates invoked by user choice Slash commands, menu options Resources Application-controlled Contextual data managed by the client application File contents, API responses Tools Model-controlled Functions exposed to the LLM to take actions API calls, data updates Server Capabilities

MCP servers declare capabilities during initialization:

Capability Feature Flag Description prompts listChanged Prompt template management resources subscribe listChanged Resource exposure and updates tools listChanged Tool discovery and execution logging - Server logging configuration completion - Argument completion suggestions 2.3 Client side

Clients may offer the following feature to servers:

Sampling: Server-initiated agentic behaviors and recursive LLM interactions

MCP client gets the server’s capabilities through APIs such as list_tools.

Note that LLM is only responsible for selecting functions, the actual function calling is triggered inside the AI app.

2.4 Programming examples

https://modelcontextprotocol.io/quickstart/client
https://github.com/modelcontextprotocol/python-sdk

3 Function Call vs. MCP

Conceptually, MCP and Function call are both for AI applications to easily call external services, but their work in different ways. Let’s take a look at the workflow of a specific example —— accessing the Google Translate API —— and see the difference between these two methods.

3.1 Function Call

Fig. Function call workflow for accessing Google Translate.

Steps:

AI app: build prompt, include the function information of the Google Translate API in the prompt;
AI app: call LLM with the prompt;
LLM: model response, with the selected function included;
AI app: calling into the Google Translate API with (HTTP/HTTPS);

3.2 MCP

The same scenario for MCP:

Fig. MCP workflow for accessing Google Translate.

Steps:

AI app: init MCP client with the MCP server address of Google Translate service;
MCP client: get the capabilities of Google Translate MCP server via MCP server’s built-in list_tools API;
AI app: build prompt, include all the function information of the Google Translate API (got from step 2) in the prompt;
AI app: call LLM with the prompt;
LLM: model response, with the selected function included;
AI app: calling into the proper Google Translate API with MCP.

3.3 Comparison Function Call MCP Prior knowledge of the AI app (configurations) Exact function names and parameters MCP server addresses Functions the AI apps can use Static, only the pre-configured functions Dynamic, all functions the MCP server exposed via list_tools interface Flexibility Low High Token consumption Low High. When building a prompt, too many functions’ descriptions may be included into the prompt 4 Limitations of current MCP 4.1 Cursor

https://docs.cursor.com/context/model-context-protocol#limitations

MCP is a very new protocol and is still in active development. There are some known caveats to be aware of:

Tool Quantity

Some MCP servers, or user’s with many MCP servers active, may have many tools available for Cursor to use. Currently, Cursor will only send the first 40 tools to the Agent.

Remote Development

Cursor directly communicates with MCP servers from your local machine, either directly through stdio or via the network using sse. Therefore, MCP servers may not work properly when accessing Cursor over SSH or other development environments. We are hoping to improve this in future releases.

MCP Resources

MCP servers offer two main capabilities: tools and resources. Tools are availabe in Cursor today, and allow Cursor to execute the tools offered by an MCP server, and use the output in it’s further steps. However, resources are not yet supported in Cursor. We are hoping to add resource support in future releases.

问题总结 MCP vs. A2A

TLDR; Agentic applications needs both A2A and MCP. We recommend MCP for tools and A2A for agents.

https://google.github.io/A2A/#/topics/a2a_and_mcp.md

SSE: Server-Sent Events https://medium.com/deliveryherotechhub/what-is-server-sent-events-sse-and-how-to-implement-it-904938bffd73

Websocket is a very popular technology that provides bi-directional data transfer for client and server communication on real-time applications. Websocket is not based on HTTP protocol, so it requires additional installation and integrations to use it.

1. MCP 客户端问题/对接不同大模型的工作量 1. function 数量的问题

不管是 function call 还是 MCP，最后都需要将 function 列表作为 tools 传给 LLM，这个列表可能会很长，如何处理这个问题？

首先，太长可能会超过模型的上下文；

其次，即使没超过上下文长度，也会导致 token 的消耗过多。或者存在一些隐形限制，跟应用有关，例如

OpenAI 的最佳实践里建议不要超过 20 个 functions；https://platform.openai.com/docs/guides/function-calling/function-calling#best-practices-for-defining-functions
cursor 里只会发送前 40 个 tools 给 agent。

3. 强依赖提示词 + 大模型的 planning 能力

llamaindex 之类的框架，已经封装好了 mcp client 的能力，能避免这个问题。 https://docs.llamaindex.ai/en/stable/api_reference/tools/mcp/

图解神经网络和强化学习：400 行 C 代码训练一个井字棋高手（2025）

ARTHURCHIAO'S BLOG

6 months 2 weeks ago

本文解读 2025 年的一个练手项目 Tic Tac Toe with Reinforcement Learning。

这个项目实现了一个非常简单的神经网络（Neural Network），然后通过强化学习（Reinforcement Learning）训练它玩井字棋，训练好之后就可以人机对战，效果很不错。整个项目只用了400 行左右 C 代码，没有任何外部依赖。由于代码足够简单，非常适合用来理解神经网络和强化学习。

Fig. A simple neural network for reinforcement learning in this post

Code and scripts used in this post: Github.

传播知识，尊重劳动，年满十八周岁，转载请注明出处。

1 引言
2 运行效果
3. 公共代码 common.h
4 训练代码 train.c
5 人机对战代码 play.c
6 延伸思考

The only winning move is not to play

1 引言

本文展示了强化学习在没有任何先验知识的情况下学习新事物的能力：

冷启动：神经网络的权重是随机初始化的；
零先验知识学习：除了以下基本游戏规则，程序中没有关于游戏的知识：
1. X 或 O 只能放到空格子中；
2. 当一行中有三个 X 或三个 O 时，相应的一方胜出；
3. 当所有的格子都被使用时，平局。
训练神经网络的唯一信号是游戏的奖励：胜、平、负。

1.1 井字游戏（tic-tac-toe）

Fig. A completed game of tic-tac-toe. Image Source

井字游戏是一种非常简单的棋盘游戏，可以理解成是五子棋的简化版（“三子棋”）：

在一个 3x3 的棋盘上，两个人轮流在空白的位置下子（一般分别用 X 和 O 表示），
谁先将自己的三个子连成一条线（横竖斜都可以）就算赢了。

1.2 神经网络：祛魅

下图就是本文用来训练下井字棋的神经网络，

Fig. A simple neural network for reinforcement learning in this post

对于非科班的人来说，“神经网络”这个词听起来很神秘，但实际上如图所示，神经网络就是一些简单的数学运算，以上神经网络的处理过程可以归纳为：

两次矩阵乘法
两次矩阵（向量）加法
两次激活（ReLU 和 softmax）。
- 激活函数（activation function）这个名字听起来有点玄乎，其实就是一些对输入进行非线性压缩的简单数学函数，例如输入的范围可能是正负无穷，经过某个激活函数的变换，输出的范围可能就是 0.0~1.0 了。激活函数也叫非线性函数，这是相对于前面的矩阵运算而言的，因为矩阵运算都是线性的。
- ReLU 和 softmax 这俩函数也是本文自己实现的，包括在了 400 行代码里，
  - ReLU 是将输入向量中小于零的元素截断为零；
  - softmax 是将一组“浮点数表示的可能性大小”（例如范围在正负无穷）转换为 0.0~0.1 之间的 “概率表示”；

1.3 代码说明

本文代码只用了标准库函数，没用其他额外依赖。原项目的代码是训练完之后直接开始人机对战，相当于训练和推理的代码混在一起了，为了方便理解这两个过程，本文稍作修改，将这两部分分开了，

训练代码 train.c，将训练好的神经网络保存到文件；
推理代码 play.c，从文件中加载训练好的神经网络，开始人机对战，并且不再继续学习（不再更新神经网络权重，原项目的代码是继续更新）。

这两部分代码都会用到的一些结构体和函数，放在了 common.h。

2 运行效果

先上效果，以便有个直观印象。

2.1 编译 $ make rm -f train play 2>/dev/null cc train.c common.h -o train -O3 -Wall -W -ffast-math -lm cc play.c common.h -o play -O3 -Wall -W -ffast-math -lm 2.2 训练

不加参数时，默认是训练 150w 局，实际上 200w 效果就很好了，不用担心速度，非常快！

$ ./train 2000000 Training neural network with 2000000 games Training neural network against 2000000 random games... Games: 10000, Wins: 7987 (79.9%), Losses: 1003 (10.0%), Ties: 1010 (10.1%) Games: 20000, Wins: 8621 (86.2%), Losses: 282 (2.8%), Ties: 1097 (11.0%) Games: 30000, Wins: 8653 (86.5%), Losses: 219 (2.2%), Ties: 1128 (11.3%) Games: 40000, Wins: 8720 (87.2%), Losses: 198 (2.0%), Ties: 1082 (10.8%) ... Games: 1990000, Wins: 8376 (83.8%), Losses: 33 (0.3%), Ties: 1591 (15.9%) Games: 2000000, Wins: 8409 (84.1%), Losses: 35 (0.3%), Ties: 1556 (15.6%) Training complete! Neural network saved to ttt_nn.bin

注意，由于神经网络的权重是完全随机初始化的，所以每次训练的结果会有一些差异，但总体来说，效果都是很好的。

查看生成的神经网络文件大小：

$ ll ttt_nn.bin 11K ttt_nn.bin 2.3 人机对战（推理） $ ./play Neural network loaded from ttt_nn.bin Ready to play! You are X, the computer is O. Welcome to Tic Tac Toe! You are X, the computer is O. Enter positions as numbers from 0 to 8 (see picture). ... 012 ... 345 ... 678 Your move (0-8):

比如想在最中间下子，就输入 4，

Your move (0-8): 4 ... 012 .X. 345 ... 678 Computer\'s move: Neural network move probabilities: 0.0% 0.0% 0.0% 0.0% 0.0% 0.0% 100.0%*# 0.0% 0.0% Sum of all probabilities: 1.00 Computer placed O at position 6 ... 012 .X. 345 O.. 678 Your move (0-8):

可以看到神经网络计算认为最优的位置是 6，也就是左下角，然后在这个位置下子。接下来就又轮到人了，依次进行，直到游戏结束。

2.4 小结

以上已经看到了游戏的效果。接下来我们深入到代码，看看整个 RL 训练过程是如何实现的。

3. 公共代码 common.h 3.1 棋盘状态 struct GameState // Game board representation. typedef struct { char board[9]; // Can be "." (empty) or "X", "O". int current_player; // 0 for player (X), 1 for computer (O). } GameState;

棋盘是 3x3 的九宫格，每个格子可以是空、X 或 O。

本文的规则是人先下，电脑后下；人用 “X”，电脑用 “O”。

3.2 神经网络的定义

这个神经网络非常简单：只有一个隐藏层，足够模拟如此简单的游戏了（添加更多层不会加快收敛速度，也不会玩得更好）。

3.2.1 struct NeuralNetwork /* Neural network structure. For simplicity we have just one hidden layer and fixed sizes. * However for this problem going deeper than one hidden layer is useless. */ typedef struct { // Weights and biases. float weights_ih[NN_INPUT_SIZE * NN_HIDDEN_SIZE]; float weights_ho[NN_HIDDEN_SIZE * NN_OUTPUT_SIZE]; float biases_h[NN_HIDDEN_SIZE]; float biases_o[NN_OUTPUT_SIZE]; // Activations are part of the structure itself for simplicity. float inputs[NN_INPUT_SIZE]; float hidden[NN_HIDDEN_SIZE]; float raw_logits[NN_OUTPUT_SIZE]; // Outputs before softmax(). float outputs[NN_OUTPUT_SIZE]; // Outputs after softmax(). } NeuralNetwork;

注意，只有前面四个变量（两个权重矩阵，两个 bias 向量）是神经网络的参数，后面三个变量是为了计算方便，也放到了神经网络结构体里。

Activations are always memorized directly inside the neural network, so calculating the deltas and performing the backpropagation is very simple.

我们神经网络的具体参数定义：

// Neural network parameters. #define NN_INPUT_SIZE 18 // 这个大小跟棋盘状态的编码方式有关，后面会讲到。 #define NN_HIDDEN_SIZE 100 #define NN_OUTPUT_SIZE 9

对应的就是前面已经展示过的图：

Fig. A simple neural network for reinforcement learning in this post

3.2.2 参数量（模型大小）的计算

注意，井字棋只有 5478 种可能的状态，而根据这些参数和前面的结构体定义，我们的神经网络的参数总数是 2809，

18 (inputs) * 100 (hidden) + 100 (hidden) * 9 (outputs) weights + 100 + 9 biases = 2809

这意味着我们的神经网络几乎可以记住游戏的每个状态。你可以将隐藏层的大小降到 25（或更小），这时参数大约是 700 左右，它仍然能够很好地玩（但肯定会差一些）。

3.3 将棋盘状态转换为神经网络输入：board_to_inputs

棋盘每个位置的状态共三种：

空白：.
玩家已经下子：X
电脑已经下子：O

所以这里用了一个（逻辑意义上的）2bit 编码方式，将以上状态分别编码为 00、10、01，作为神经网络的输入。

Fig. A simple neural network for reinforcement learning in this post

/* Convert board state to neural network inputs. Note that we use a peculiar encoding I descrived here: * https://www.youtube.com/watch?v=EXbgUXt8fFU * * Instead of one-hot encoding, we can represent N different categories * as different bit patterns. In this specific case it's trivial: * * 00 = empty * 10 = X * 01 = O * * Two inputs per symbol instead of 3 in this case, but in the general case * this reduces the input dimensionality A LOT. * * LEARNING OPPORTUNITY: You may want to learn (if not already aware) of * different ways to represent non scalar inputs in neural networks: * One hot encoding, learned embeddings, and even if it's just my random * exeriment this "permutation coding" that I'm using here. */ static void board_to_inputs(GameState *state, float *inputs) { for (int i = 0; i < 9; i++) { if (state->board[i] == '.') { inputs[i*2] = 0; inputs[i*2+1] = 0; } else if (state->board[i] == 'X') { inputs[i*2] = 1; inputs[i*2+1] = 0; } else { // 'O' inputs[i*2] = 0; inputs[i*2+1] = 1; } } }

由于棋盘是一个 3x3 的矩阵，所以输入向量的长度是 2*9=18。这也是前面看到的 NN_INPUT_SIZE 定义的由来：

#define NN_INPUT_SIZE 18 3.4 前向传播 forward_pass

Fig. A simple neural network for reinforcement learning in this post

前向传播过程实现的就是图中的 neural network 部分，

/* Get the best move for the computer using the neural network. * Neural network foward pass (inference). We store the activations * so we can also do backpropagation later. */ static void forward_pass(NeuralNetwork *nn, float *inputs) { memcpy(nn->inputs, inputs, NN_INPUT_SIZE * sizeof(float)); // Input to hidden layer. for (int i = 0; i < NN_HIDDEN_SIZE; i++) { float sum = nn->biases_h[i]; for (int j = 0; j < NN_INPUT_SIZE; j++) { sum += inputs[j] * nn->weights_ih[j * NN_HIDDEN_SIZE + i]; } nn->hidden[i] = relu(sum); } // Hidden to output (raw logits). for (int i = 0; i < NN_OUTPUT_SIZE; i++) { nn->raw_logits[i] = nn->biases_o[i]; for (int j = 0; j < NN_HIDDEN_SIZE; j++) { nn->raw_logits[i] += nn->hidden[j] * nn->weights_ho[j * NN_OUTPUT_SIZE + i]; } } // Apply softmax to get the final probabilities. softmax(nn->raw_logits, nn->outputs, NN_OUTPUT_SIZE); } 3.4.1 计算过程

Fig. A simple neural network for reinforcement learning in this post

可以分为两个过程：

左边：一次矩阵乘法 + 一次矩阵加法 + 一次激活函数（ReLU）
- 输入：1x18 的 input vector，是当前棋盘状态的编码；
- 输出：1x100 的 hidden vector；
右边：一次矩阵乘法 + 一次矩阵加法 + 一次激活函数（softmax）
- 输入：1x100 的 hidden vector；
- 输出：1x9 的 output vector，其中的每个元素表示在对应位置下子的概率。

接下来再详细看看两个激活函数。

3.4.2 非线性/激活函数 relu

ReLU 就一行代码，将输入 <0 的部分截断为 0：

/* ReLU activation function */ static float relu(float x) { return x > 0 ? x : 0; }

神经网络的每个参数模拟的是大脑的一个神经元，对应到 ReLU，这里的直观的解释是， 如果刺激强度太弱，那么相应的神经元是不会被激活的，或者说刺激强度超过一个阈值，神经元才会被激活。

使用 RELU 是因为它很简单，并且能适用于几乎所有场景。权重初始化跟 RELU 没任何关系，只完全随机的。

3.4.3 非线性/激活函数 softmax

softmax 跟模拟大脑和神经元就没有关系了，是个纯数学技巧，用来将一组（通常是正负无穷范围内的）数值转换为概率分布。直观上也很好理解：

如果原始输入 x 是正负无穷范围内的数值，那 ex 的范围就是 0 到正无穷；
对所有 x 都计算 ex，再取加权，就得到了一个总和为 100% 的 概率分布。

Fig. A definition of softmax. Image Source: wikipedia

实际上会有各种变种，但基本原理都是这样。详见 wikipedia softmax function。

/* Apply softmax activation function to an array input, and * set the result into output. */ static void softmax(float *input, float *output, int size) { /* Find maximum value then subtact it to avoid numerical stability issues with exp(). */ float max_val = input[0]; for (int i = 1; i < size; i++) { if (input[i] > max_val) { max_val = input[i]; } } // Calculate exp(x_i - max) for each element and sum. float sum = 0.0f; for (int i = 0; i < size; i++) { output[i] = expf(input[i] - max_val); sum += output[i]; } // Normalize to get probabilities. if (sum > 0) { for (int i = 0; i < size; i++) { output[i] /= sum; } } else { /* Fallback in case of numerical issues, just provide a uniform distribution. */ for (int i = 0; i < size; i++) { output[i] = 1.0f / size; } } }

softmax() 得到的输出就是一个 1x9 的概率向量，其中的每个值表示的是“下一步在这个位置下子的概率”。

In theory we use cross entropy to calculate the loss function, but in practice we evaluate our agent based on the results of the games, so we only use it implicitly here:

deltas[i] = output[i] - target[i]

That is the delta in case of softmax and cross entropy.

3.5 神经网络计算下一步最优 get_computer_move

这个函数的目的是寻找神经网络输出（1x9）中，目前仍然空白（未下子）且概率最大的位置，返回的 best_move 就是这个位置，意思是去这个位置下子。

3.5.1 调用栈 get_computer_move |- board_to_inputs |- forward_pass |- for (i=0; i<9; i++) | if (state->board[i] == '.' && (best_move == -1 || nn->outputs[i] > best_legal_prob)) { | best_move = i; | best_legal_prob = nn->outputs[i]; | } |- return best_move 3.5.2 代码

为避免干扰，这里 Debug 相关的代码去掉了，只保留核心代码：

/* Get the best move for the computer using the neural network. * Note that there is no complex sampling at all, we just get * the output with the highest value THAT has an empty tile. */ static int get_computer_move(GameState *state, NeuralNetwork *nn, int display_probs) { float inputs[NN_INPUT_SIZE]; board_to_inputs(state, inputs); forward_pass(nn, inputs); // 得到了下一步的概率分布，保存在 nn->outputs[] 中 int best_move = -1; float best_legal_prob = -1.0f; for (int i = 0; i < 9; i++) { if (state->board[i] == '.' && (best_move == -1 || nn->outputs[i] > best_legal_prob)) { best_move = i; best_legal_prob = nn->outputs[i]; } } return best_move; } 3.6 小结

以上就是训练和推理都会用到的一些结构体和函数。接下来看看具体的训练过程。

4 训练代码 train.c 4.1 main 函数

步骤：

初始化神经网络。
训练神经网络，让它与一个每次随机下子的对手对弈 N 局。
保存训练好的神经网络。

4.1.1 代码 int main(int argc, char **argv) { int random_games = 150000; // Fast and enough to play in a decent way. const char *output_file = "ttt_nn.bin"; if (argc > 1) random_games = atoi(argv[1]); if (argc > 2) output_file = argv[2]; srand(time(NULL)); // Initialize neural network. NeuralNetwork nn; init_neural_network(&nn); printf("Training neural network with %d games\n", random_games); // Train against random moves. if (random_games > 0) train_against_random(&nn, random_games); // Save the trained neural network save_neural_network(&nn, output_file); return 0; } 4.1.2 调用栈 main |- init_neural_network |- train_against_random | |- for (i=0; i<num_games; i++) | play_random_game | |- init_game | |- while (!check_game_over(&state, &winner)) { | | if (state.current_player == 0) // Random player's turn (X) | | move = get_random_move(&state); | | else // Neural network's turn (O) | | move = get_computer_move(&state, nn, 0); | | char symbol = (state.current_player == 0) ? 'X' : 'O'; | | state.board[move] = symbol; | | move_history[(*num_moves)++] = move; | | state.current_player = !state.current_player; | |- learn_from_game | |- backprop |- save_neural_network 4.2 init_neural_network 函数 /* Initialize a neural network with random weights, we should * use something like He weights since we use RELU, but we don't care as this is a trivial example. */ #define RANDOM_WEIGHT() (((float)rand() / RAND_MAX) - 0.5f) void init_neural_network(NeuralNetwork *nn) { // Initialize weights with random values between -0.5 and 0.5 for (int i = 0; i < NN_INPUT_SIZE * NN_HIDDEN_SIZE; i++) nn->weights_ih[i] = RANDOM_WEIGHT(); for (int i = 0; i < NN_HIDDEN_SIZE * NN_OUTPUT_SIZE; i++) nn->weights_ho[i] = RANDOM_WEIGHT(); for (int i = 0; i < NN_HIDDEN_SIZE; i++) nn->biases_h[i] = RANDOM_WEIGHT(); for (int i = 0; i < NN_OUTPUT_SIZE; i++) nn->biases_o[i] = RANDOM_WEIGHT(); } 4.3 train_against_random -> for {play_random_game} /* Train the neural network against random moves. */ void train_against_random(NeuralNetwork *nn, int num_games) { int move_history[9]; int wins = 0, losses = 0, ties = 0; printf("Training neural network against %d random games...\n", num_games); int played_games = 0; for (int i = 0; i < num_games; i++) { char winner = play_random_game(nn, move_history); } printf("\nTraining complete!\n"); } 4.4 play_random_game

这里是训练过程的核心代码，play_random_game 让 computer 和 random 对手下棋，

computer 用神经网络（feed forward）计算下一步最优位置。
random 对手随机下子。

一局结束之后，根据游戏结果进行奖励（强化学习）。

/* Play a game against random moves and learn from it. * * This is a very simple Montecarlo Method applied to reinforcement learning: * * 1. We play a complete random game (episode). * 2. We determine the reward based on the outcome of the game. * 3. We update the neural network in order to maximize future rewards. * * LEARNING OPPORTUNITY: while the code uses some Montecarlo-alike * technique, important results were recently obtained using * Montecarlo Tree Search (MCTS), where a tree structure repesents * potential future game states that are explored according to * some selection: you may want to learn about it. */ char play_random_game(NeuralNetwork *nn, int *move_history) { GameState state; char winner = 0; int num_moves = 0; init_game(&state); while (!check_game_over(&state, &winner)) { int move; if (state.current_player == 0) { // Random player's turn (X) move = get_random_move(&state); } else { // Neural network's turn (O) move = get_computer_move(&state, nn, 0); } /* Make the move and store it: we need the moves sequence during the learning stage. */ char symbol = (state.current_player == 0) ? 'X' : 'O'; state.board[move] = symbol; move_history[num_moves++] = move; // Switch player. state.current_player = !state.current_player; } // Learn from this game - neural network is 'O' (even-numbered moves). learn_from_game(nn, move_history, num_moves, 1, winner); return winner; } /* Get a random valid move, this is used for training against a random opponent. * Note: this function will loop forever if the board is full, but here we want simple code. */ int get_random_move(GameState *state) { while(1) { int move = rand() % 9; if (state->board[move] != '.') continue; return move; } } 4.4.1 和随机下子的对手下一局

记录双方的每一步保存在 move_history 中，

while (!check_game_over(&state, &winner)) { int move; if (state.current_player == 0) { // Random player's turn (X) move = get_random_move(&state); } else { // Neural network's turn (O) move = get_computer_move(&state, nn, 0); } /* Make the move and store it: we need the moves sequence during the learning stage. */ char symbol = (state.current_player == 0) ? 'X' : 'O'; state.board[move] = symbol; move_history[num_moves++] = move; // Switch player. state.current_player = !state.current_player; } 4.5 learn_from_game

根据这一局的结果，对神经网络进行奖励（强化学习）。

// Learn from this game - neural network is 'O' (even-numbered moves). learn_from_game(nn, move_history, num_moves, 1, winner);

五个参数：

nn：神经网络；
move_history：记录了整局游戏的每一步；
num_moves：整局游戏的步数；
1：表示游戏中的偶数步骤是神经网络下的；
winner：赢家是谁。

4.5.1 强化学习的奖励策略

使用的 reward policy：基于奖励，在神经网络计算下一步时，我们列出所有可能的下一个状态，并奖励每个状态获胜的 move （不仅仅是最终获胜的那一步，而是赢了的这一局中，所有执行的步骤），

赢：要奖励的 move 为 1（100%），将所有其他 move 为 0。
平：也给予奖励，但是比胜利的奖励要小。
负：target move 奖励为 0，非法 moves 奖励也为 0，其他合法 moves 奖励为 1/(number-of-valid-moves)。

此外，我们还根据游戏的进度进行缩放：

float move_importance = 0.5f + 0.5f * (float)move_idx/(float)num_moves; float scaled_reward = reward * move_importance;

游戏前期的 moves，给予较小的奖励，
游戏后期（接近游戏结束）的 moves，给予更大的奖励：

Note that the above makes a lot of difference in the way the program works. Also note that while this may seem similar to Time Difference in reinforcement learning, it is not: we don’t have a simple way in this case to evaluate if a single step provided a positive or negative reward: we need to wait for each game to finish. The temporal scaling above is just a way to code inside the network that early moves are more open, while, as the game goes on, we need to play more selectively.

4.5.2 代码 /* Train the neural network based on game outcome. * * The move_history is just an integer array with the index of all the moves. */ void learn_from_game(NeuralNetwork *nn, int *move_history, int num_moves, int nn_moves_even, char winner) { float reward; char nn_symbol = nn_moves_even ? 'O' : 'X'; if (winner == 'T') { reward = 0.3f; // Small reward for draw } else if (winner == nn_symbol) { reward = 1.0f; // Large reward for win } else { reward = -2.0f; // Negative reward for loss } GameState state; float target_probs[NN_OUTPUT_SIZE]; // Process each move the neural network made. for (int move_idx = 0; move_idx < num_moves; move_idx++) { // Skip if this wasn't a move by the neural network. if ((nn_moves_even && move_idx % 2 != 1) || (!nn_moves_even && move_idx % 2 != 0)) { continue; } // Recreate board state BEFORE this move was made. init_game(&state); for (int i = 0; i < move_idx; i++) { char symbol = (i % 2 == 0) ? 'X' : 'O'; state.board[move_history[i]] = symbol; } // Convert board to inputs and do forward pass. float inputs[NN_INPUT_SIZE]; board_to_inputs(&state, inputs); forward_pass(nn, inputs); /* The move that was actually made by the NN, that is the one we want to reward (positively or negatively). */ int move = move_history[move_idx]; /* Here we can't really implement temporal difference in the strict * reinforcement learning sense, since we don't have an easy way to * evaluate if the current situation is better or worse than the previous state in the game. * * However "time related" we do something that is very effective in * this case: we scale the reward according to the move time, so that * later moves are more impacted (the game is less open to different solutions as we go forward). * * We give a fixed 0.5 importance to all the moves plus a 0.5 that depends on the move position. * NOTE: this makes A LOT of difference. Experiment with different values. * * LEARNING OPPORTUNITY: Temporal Difference in Reinforcement Learning * is a very important result, that was worth the Turing Award in * 2024 to Sutton and Barto. You may want to read about it. */ float move_importance = 0.5f + 0.5f * (float)move_idx/(float)num_moves; float scaled_reward = reward * move_importance; /* Create target probability distribution: let's start with the logits all set to 0. */ for (int i = 0; i < NN_OUTPUT_SIZE; i++) target_probs[i] = 0; /* Set the target for the chosen move based on reward: */ if (scaled_reward >= 0) { /* For positive reward, set probability of the chosen move to 1, with all the rest set to 0. */ target_probs[move] = 1; } else { /* For negative reward, distribute probability to OTHER valid moves, * which is conceptually the same as discouraging the move that we want to discourage. */ int valid_moves_left = 9-move_idx-1; float other_prob = 1.0f / valid_moves_left; for (int i = 0; i < 9; i++) { if (state.board[i] == '.' && i != move) { target_probs[i] = other_prob; } } } /* Call the generic backpropagation function, using our target logits as target. */ backprop(nn, target_probs, LEARNING_RATE, scaled_reward); } } 4.5.3 奖励过程：回放每一步，根据真实 input 预测这一步的输出，和真实的输出比较，进行奖励

循环：遍历整局游戏的每一步 move_idx；针对从开始到 move_idx 为止，

用实际的状态填充棋盘 0~move_idx-1；
将 step 1 的状态作为输入，用神经网络预测下一步，得到一个概率分布；
进行奖励：根据真实的下一步 move 构建目标概率分布 target_probs（一个位置是 100%，其他地方都是 0%）；
根据 step 2 & 3 的两个概率分布，调用 backprop 函数进行反向传播，更新神经网络的权重。

举个例子，下图这一局只用了总共 5 步 O 方就赢了，右侧是回放到第 3 步（对应到代码是 move_idx=2）时的状态：

Fig. Reward illustration

对照右侧图，对应的奖励过程：

将已经回放到的部分作为输入，计算下一步的概率；
进行奖励：将真实的下一步作为目标概率分布（index=8 处为 100%，其他位置都是 0%）；
用 step 1 & 2 的两个概率分布进行反向传播，更新神经网络的权重。

4.6 反向传播 backprop

这里使用了很简单的反向传播，代码非常清晰，它的工作方式与监督学习非常相似，唯一的区别是输入/输出对事先不知道，而是根据强化学习的奖励策略实时提供奖励的。

/* Derivative of ReLU activation function */ float relu_derivative(float x) { return x > 0 ? 1.0f : 0.0f; } /* Backpropagation function. * The only difference here from vanilla backprop is that we have * a 'reward_scaling' argument that makes the output error more/less * dramatic, so that we can adjust the weights proportionally to the reward we want to provide. */ void backprop(NeuralNetwork *nn, float *target_probs, float learning_rate, float reward_scaling) { float output_deltas[NN_OUTPUT_SIZE]; float hidden_deltas[NN_HIDDEN_SIZE]; /* === STEP 1: Compute deltas === */ /* Calculate output layer deltas: * Note what's going on here: we are technically using softmax as output function and cross entropy as loss, * but we never use cross entropy in practice since we check the progresses in terms of winning the game. * * Still calculating the deltas in the output as: output[i] - target[i] * Is exactly what happens if you derivate the deltas with softmax and cross entropy. * * LEARNING OPPORTUNITY: This is a well established and fundamental result in neural networks, you may want to read more about it. */ for (int i = 0; i < NN_OUTPUT_SIZE; i++) output_deltas[i] = (nn->outputs[i] - target_probs[i]) * fabsf(reward_scaling); // Backpropagate error to hidden layer. for (int i = 0; i < NN_HIDDEN_SIZE; i++) { float error = 0; for (int j = 0; j < NN_OUTPUT_SIZE; j++) { error += output_deltas[j] * nn->weights_ho[i * NN_OUTPUT_SIZE + j]; } hidden_deltas[i] = error * relu_derivative(nn->hidden[i]); } /* === STEP 2: Weights updating === */ // Output layer weights and biases. for (int i = 0; i < NN_HIDDEN_SIZE; i++) for (int j = 0; j < NN_OUTPUT_SIZE; j++) nn->weights_ho[i * NN_OUTPUT_SIZE + j] -= learning_rate * output_deltas[j] * nn->hidden[i]; for (int j = 0; j < NN_OUTPUT_SIZE; j++) nn->biases_o[j] -= learning_rate * output_deltas[j]; // Hidden layer weights and biases. for (int i = 0; i < NN_INPUT_SIZE; i++) for (int j = 0; j < NN_HIDDEN_SIZE; j++) nn->weights_ih[i * NN_HIDDEN_SIZE + j] -= learning_rate * hidden_deltas[j] * nn->inputs[i]; for (int j = 0; j < NN_HIDDEN_SIZE; j++) nn->biases_h[j] -= learning_rate * hidden_deltas[j]; }

分为两步，

分别计算 output_deltas 和 hidden_deltas，
用以上两个 delta 更新 input-hidden 和 hidden-output 两个矩阵的权重。

4.6.1 output 概率和 target 概率的 delta 计算

Fig. Reward illustration

output_deltas (1x9)：

softmax 得到的概率分布（nn->outputs）和根据奖励模型得到的目标概率分布（target_probs）之间的 delta vector；
这里还引入了一个缩放系数 reward_scaling 来调整奖励的大小，使结果更好；

4.6.2 hidden layer 的 delta 计算

这一步是将 output layer 的 delta 反向传播到 hidden layer，得到的是 hidden_deltas (1x100)： hidden-output 矩阵（100x9）和 output_deltas（1x9）做矩阵乘法，得到一个 hidden layer 的 delta vector（1x100）；

4.6.3 更新神经网络的权重（with learning rate）

Fig. A simple neural network for reinforcement learning in this post

根据设置的学习率 learning_rate，更新神经网络的权重：

hidden-output matrix output bias input-hidden matrix hidden bias 大小 100x9 1x9 18x100 1x100 依赖 1 output_deltas output_deltas hidden_deltas hidden_deltas 依赖 2 nn->hidden - nn->inputs - 公式 nn->weights_ho[i][j] -= lr * output_deltas[j] * nn->hidden[i] nn->biases_o[j] -= lr * output_deltas[j] nn->weights_ih[i][j] -= lr * hidden_deltas[j] * nn->inputs[i] nn->biases_h[j] -= lr * hidden_deltas[j] 4.7 save_neural_network

写到文件，在概念上类似于现在的大模型文件，

/* Save neural network parameters to a file */ void save_neural_network(NeuralNetwork *nn, const char *filename) { FILE *file = fopen(filename, "wb"); if (file == NULL) { printf("Error opening file for writing: %s\n", filename); return; } // Write weights and biases fwrite(nn->weights_ih, sizeof(float), NN_INPUT_SIZE * NN_HIDDEN_SIZE, file); fwrite(nn->weights_ho, sizeof(float), NN_HIDDEN_SIZE * NN_OUTPUT_SIZE, file); fwrite(nn->biases_h, sizeof(float), NN_HIDDEN_SIZE, file); fwrite(nn->biases_o, sizeof(float), NN_OUTPUT_SIZE, file); fclose(file); printf("Neural network saved to %s\n", filename); } 5 人机对战代码 play.c

非常简单，从文件中加载神经网络参数，然后开始游戏，类似于现在的加载大模型开始提供推理服务，

/* Load neural network parameters from a file */ int load_neural_network(NeuralNetwork *nn, const char *filename) { FILE *file = fopen(filename, "rb"); if (file == NULL) { printf("Error opening file for reading: %s\n", filename); return 1; } // Read weights and biases size_t items_read = 0; items_read += fread(nn->weights_ih, sizeof(float), NN_INPUT_SIZE * NN_HIDDEN_SIZE, file); items_read += fread(nn->weights_ho, sizeof(float), NN_HIDDEN_SIZE * NN_OUTPUT_SIZE, file); items_read += fread(nn->biases_h, sizeof(float), NN_HIDDEN_SIZE, file); items_read += fread(nn->biases_o, sizeof(float), NN_OUTPUT_SIZE, file); fclose(file); // Check if we read the expected number of items size_t expected_items = NN_INPUT_SIZE * NN_HIDDEN_SIZE + NN_HIDDEN_SIZE * NN_OUTPUT_SIZE + NN_HIDDEN_SIZE + NN_OUTPUT_SIZE; if (items_read != expected_items) { printf("Error: Read %zu items, expected %zu\n", items_read, expected_items); return 2; } printf("Neural network loaded from %s\n", filename); return 0; } int main(int argc, char **argv) { const char *input_file = "ttt_nn.bin"; if (argc > 1) input_file = argv[1]; // Load neural network from file NeuralNetwork nn; if (load_neural_network(&nn, input_file)) { printf("Failed to load neural network.\n"); return 1; } printf("Ready to play! You are X, the computer is O.\n"); // Play game with human while(1) { char play_again; play_game(&nn); printf("Play again? (y/n): "); scanf(" %c", &play_again); if (play_again != 'y' && play_again != 'Y') break; } return 0; } 6 延伸思考

原作者的课后作业，供学有余力的同学参考：

Can this approach work with connect four as well? The much larger space of the problem would be really interesting and less of a toy.
Train the network to play both sides by having an additional input set, that is the symbol that is going to do the move (useful especially in the case of connect four) so that we can use the network itself as opponent, instead of playing against random moves.
Implement proper sampling, in the case above, so that initially moves are quite random, later they start to pick more consistently the predicted move.
MCTS.

[译][论文] Attention paper | 神经机器翻译：联合学习对齐和翻译（2014）

ARTHURCHIAO'S BLOG

7 months 1 week ago

译者序

本文翻译自 2014 年提出 Attention 机制的论文 Neural Machine Translation by Jointly Learning to Align and Translate。

Attention 机制当时是针对机器翻译场景提出的。

基于神经网络的机器翻译工作过程，举个具体例子： 输入一个英文句子，要求将其翻译成德文，

首先，整个句子作为输入，因此在开始翻译之前，已经能知道这个句子的完整意思；
翻译时，每次翻译一个德文单词；
在翻译下一个德文单词时，除了源句子，还可以利用前面已经翻译的德文单词信息。换句话说，可以维护一个全局的翻译状态，或者成为上下文。

实现这种翻译过程的典型方式是 encoder-decoder 模型，如下图所示，

Image Source: Google NMT Architecture

encoder-decoder 极简原理：Sequence to Sequence Learning with Neural Networks (2014) / one minute summary。

Attention 仍然属于 encoder-decoder 模型，但相比之前提出了几点改进，

Figure 1: 直观解释：给定源句子 (x1; x2; ...; xT)，生成第 t 个目标单词 yt 的过程。

直观上的解释是：

用一个双向 RNN 对源句子进行编码，得到每个词的隐藏状态，文章里叫 annotation；在生成每个位置的翻译词时，就可以利用源句子中这个词前和后双向的信息；
翻译过程中维护的上下文不再是一个全局的，而是每个位置的词都有自己的上下文；
1. 上下文向量是 annotations 的加权和；
2. 上下文向量也不再是定长的；
在每个位置生成翻译时，decoder 能够自主选择使用其他哪些位置的信息，这个选择过程就是attention —— 换句话说就是此时 decoder “关注”哪些位置的单词（隐藏状态表示）；
Attention 的数学表示就是参数矩阵 $\alpha_{ij}$，它衡量的是源句子第 $j$ 个位置与目标句子第 $i$ 个位置的匹配程度（相关度）。

另一张图直观解释：

Image Source: Attention (2014) / one minute summary

Attention 机制是 Transformer（Attention is all you need, 2017）的基础。

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

以下是译文。

译者序
摘要
1 引言
2 背景：神经机器翻译（Neural Machine Translation）
3 学习对齐和翻译（ALIGN AND TRANSLATE）
- 3.1 decoder
- 3.2 encoder：用于 annotating sequence 的双向 RNN
  - 3.2.1 为什么用 BiRNN：总结每个词前和后的信息
  - 3.2.2 Annotation 的计算
4 实验设置（略）
5 结果（略）
6 相关工作
- 6.1 学习对齐（Learning to Align）
- 6.2 神经网络用于机器翻译
7 总结
致谢
- 参考文献

MathJax.Hub.Config({ extensions: ["tex2jax.js"], jax: ["input/TeX", "output/HTML-CSS"], tex2jax: { inlineMath: [ ['$','$'], ["\$","\$"] ], displayMath: [ ['$$','$$'], ["\\[","\\]"] ], processEscapes: true }, "HTML-CSS": { availableFonts: [], preferredFont: null, webFont: "Neo-Euler", mtextFontInherit: true }, TeX: { extensions: ["color.js"], Macros: { lgc: ["{\\color{my-light-green} #1}", 1], gc: ["{\\color{my-green} #1}", 1], lrc: ["{\\color{my-light-red} #1}", 1], rc: ["{\\color{my-red} #1}", 1], lbc: ["{\\color{my-light-blue} #1}", 1], bc: ["{\\color{my-blue} #1}", 1], kc: ["{\\color{my-gray} #1}", 1], loc: ["{\\color{my-light-orange} #1}", 1], oc: ["{\\color{my-orange} #1}", 1], a: ["\\mathbf a"], A: ["\\mathbf A"], b: ["\\mathbf b"], B: ["\\mathbf B"], c: ["\\mathbf c"], C: ["\\mathbf C"], d: ["\\mathbf d"], D: ["\\mathbf D"], E: ["\\mathbf E"], I: ["\\mathbf I"], L: ["\\mathbf L"], m: ["\\mathbf m"], M: ["\\mathbf M"], r: ["\\mathbf r"], s: ["\\mathbf s"], t: ["\\mathbf t"], S: ["\\mathbf S"], x: ["\\mathbf x"], z: ["\\mathbf z"], v: ["\\mathbf v"], y: ["\\mathbf y"], k: ["\\mathbf k"], bp: ["\\mathbf p"], P: ["\\mathbf P"], q: ["\\mathbf q"], Q: ["\\mathbf Q"], r: ["\\mathbf r"], R: ["\\mathbf R"], Sig: ["\\mathbf \\Sigma"], t: ["\\mathbf t"], T: ["\\mathbf T"], e: ["\\mathbf e"], X: ["\\mathbf X"], u: ["\\mathbf u"], U: ["\\mathbf U"], v: ["\\mathbf v"], V: ["\\mathbf V"], w: ["\\mathbf w"], W: ["\\mathbf W"], Y: ["\\mathbf Y"], z: ["\\mathbf z"], Z: ["\\mathbf Z"], p: ["\\,\\text{.}"], tab: ["\\hspace{0.7cm}"], sp: ["^{\\small\\prime}"], mR: ["{\\mathbb R}"], mC: ["{\\mathbb C}"], mN: ["{\\mathbb N}"], mZ: ["{\\mathbb Z}"], deg: ["{^\\circ}"], argmin: ["\\underset{#1}{\\text{argmin}}", 1], argmax: ["\\underset{#1}{\\text{argmax}}", 1], co: ["\\;\\text{cos}"], si: ["\\;\\text{sin}"] } } }); MathJax.Hub.Register.StartupHook("TeX color Ready", function() { MathJax.Extension["TeX/color"].colors["my-green"] = '#677d00'; MathJax.Extension["TeX/color"].colors["my-light-green"] = '#acd373'; MathJax.Extension["TeX/color"].colors["my-red"] = '#b13e26'; MathJax.Extension["TeX/color"].colors["my-light-red"] = '#d38473'; MathJax.Extension["TeX/color"].colors["my-blue"] = '#306693'; MathJax.Extension["TeX/color"].colors["my-light-blue"] = '#73a7d3'; MathJax.Extension["TeX/color"].colors["my-gray"] = '#999'; MathJax.Extension["TeX/color"].colors["my-orange"] = '#E69500'; MathJax.Extension["TeX/color"].colors["my-light-orange"] = '#FFC353'; }); 摘要

神经机器翻译（Neural machine translation）是最近出现的一种机器翻译方法。

与传统的统计机器翻译（statistical machine translation）不同，神经机器翻译旨在构建一个单一的神经网络，通过联合微调（jointly tune）最大化翻译性能。
近期提出的一些 neural machine translation 模型大都属于 encoder-decoder 家族， encoder 将源句子编码为固定长度的向量，decoder 从该向量生成翻译。

使用固定长度向量，是 encoder-decoder 架构的性能瓶颈来源，为此我们提出一种改进方式：允许模型自动（软）搜索与预测目标词相关的源句子部分，而无需将这些部分生硬地切段。基于这种新方法，

在英法翻译任务上，实现了与现有最好的基于短语的系统（phrase-based system）相当的翻译性能。
定性分析表明，模型找到的（软）对齐与我们的直觉非常一致。

1 引言

神经机器翻译是最近由 Kalchbrenner、Sutskever、Cho 等提出的一种新兴机器翻译方法。与传统的基于短语的翻译系统不同，神经机器翻译试图构建和训练一个单一、大型的神经网络，该网络读取句子并输出正确的翻译。

1.1 文本翻译：encoder-decoder 系统

目前的大多数神经机器翻译模型都属于 encoder-decoder 家族。在这类架构中，每种语言都有一个 encoder 和 decoder，

Image Source: Google NMT Architecture

encoder 神经网络读取源句子并将其编码为固定长度的向量。
decoder 从编码的向量输出翻译。

整个 encoder-decoder 系统联合训练，最大化给定源句子的正确翻译概率。

1.2 encoder-decoder 架构的问题：无法有效处理长句子

encoder-decoder 方法的一个潜在问题是，神经网络必须将源句子的所有必要信息压缩到一个固定长度的向量中。

这使神经网络难以处理长句子，尤其是那些比训练语料库中的句子更长的句子。
Cho 等表明，随着输入句子长度的增加，基本的 encoder-decoder 性能确实迅速下降。

1.3 扩展 encoder-decoder 1.3.1 思路：联合学习对齐和翻译（align and translate）

为了解决这个问题，本文引入了 encoder-decoder 模型的一种扩展，该模型联合学习对齐和翻译（learns to align and translate jointly）。

每次生成一个翻译词（预测目标词）时，（软）搜索源句子中与预测目标词最相关的一些位置。
基于与这些源位置相关的上下文向量和之前已经生成的翻译词，来预测下一个目标词（翻译词）。

1.3.2 与基本 encoder-decoder 的区别

这种方法与基本 encoder-decoder 的最重要区别：不再将整个输入句子编码为单个固定长度的向量。

encoder：将输入句子编码为一系列向量，
decoder：解码（翻译）时，自适应地选择其中的某些向量来使用。

这使得神经翻译模型不必将源句子的所有信息（无论其长短）压缩到单一、固定长度的向量中。实验结果也表明，这种改进使模型能够更好地处理长句子。

1.3.3 好处

联合学习对齐和翻译（jointly learning to align and translate）比基本 encoder-decoder 显著提高了翻译性能。这种改进在长句子上更为明显，但在任何长度的句子上都可以观察到。

此外，定性分析表明，这种模型在源句子和相应的目标句子之间找到了语言学上合理的（软）对齐。

2 背景：神经机器翻译（Neural Machine Translation） 2.1 “翻译”的数学模型：条件概率

从概率的角度来看，翻译就是给定源句子 $x$ 时，找到一个目标句子 $y$，使条件概率 $p(y \mid x)$ 最大。

在神经机器翻译中，我们使用并行训练语料来拟合一个参数化模型，以最大化句子对的条件概率。模型学到了条件分布之后，再给定源句子，它就可以通过搜索条件概率最大的句子来生成相应的翻译。

2.2 用神经网络直接学习条件概率分布

最近，一些论文提出了使用神经网络直接学习这种条件分布。这种方法通常由两个组件组成，

encoder：对源句子 $x$ 进行编码，
decoder：将 encoder 编码后的句子解码为目标句子 $y$。

例如，Cho 等和 Sutskever 等使用两个循环神经网络（RNN）将可变长度的源句子编码为固定长度的向量，并将该向量解码为可变长度的目标句子。这种新方法前景广阔：

Sutskever 等的结果已经证明，基于 LSTM RNN 的神经机器翻译在英法翻译任务上接近传统基于短语的机器翻译系统的最好性能。
将神经组件添加到现有翻译系统中，例如对短语表中的短语对进行评分或对候选翻译进行重排序，得到的效果已经超过了以前的最好水平。

2.3 RNN encoder-decoder

这里简要描述下由 Cho 等和 Sutskever 等提出的基础框架，称为 RNN encoder-decoder。

2.3.1 encoder 数学模型

encoder 将输入句子（向量序列 $x=\left( x_1, \cdots, x_{T_x} \right)$）编码为向量 $c$。最常见的编码方法是 RNN，使得

其中

$h_t \in \mathbb{R}^{n}$ 是 $x_t$ 的隐藏状态（hidden states），
- $f$ 是非线性函数。例如，Sutskever 等使用 LSTM 作为 $f$。
$c$ 是从隐藏状态序列生成的上下文向量（context），
- $q$ 也是非线性函数。

2.3.2 decoder 数学模型

decoder 通常按下面的方式进行训练：

输入：
1. 上下文向量 $c$
2. 所有之前已经预测（翻译）的词 ${ y_1, \cdots, y_{t’-1} }$
输出：下一个词 $y_{t’}$，也就是预测的下一个目标词。

换句话说，decoder 通过将联合概率分解为多个有序的条件概率 （人话：先根据条件概率翻译第一个词，然后把翻译好的这个词也作为输入的一部分，利用此时的条件概率再翻译第二个词，以此类推）来定义一个翻译 $y$ 的概率：

使用 RNN 的话，每个条件概率可以建模为：

其中，

$g$ 是一个非线性、可能多层的函数，
$s_t$ 是 RNN 的隐藏状态。

It should be noted that other architectures such as a hybrid of an RNN and a de-convolutional neural network can be used (Kalchbrenner and Blunsom, 2013).

3 学习对齐和翻译（ALIGN AND TRANSLATE）

本节提出一种新的神经机器翻译架构：

encoder 是一个双向 RNN
decoder 在解码翻译时，在源句子中模拟搜索过程。

3.1 decoder 3.1.1 条件概率的数学模型条件概率

在我们的模型架构中，将以上方程 2 中的每个条件概率定义为：

注意，

常见的 encoder-decoder（方程 2）中，上下文向量是粗粒度的；我们这里则细化到了每个位置： 每个目标词 $y_i$ 都使用自己特有的上下文向量 $c_i$ 来计算条件概率；
上下文向量 $c_i$ 依赖于一个 annotation 序列 $(h_1, \cdots, h_{T_x})$，后者是由 encoder 对输入句子进行映射得到的；
每个 annotation $h_i$ 包含关于整个输入序列的信息，但重点关注输入序列中第 $i$ 个词周围的部分。下一节会详细解释如何计算这些 annotations。

每个位置独有的上下文向量 $c_i$

$c_i$ 是 annotation $h_i$ 的加权和：

其中，权重 $\alpha_{ij}$ 是一个对齐模型（alignment model），见下面。

对齐模型 $\alpha_{ij}$：评估输入位置 $j$ 和输出位置 $i$ 的匹配程度

对齐模型 评估输入位置 $j$ 和输出位置 $i$ 的匹配程度（分数）：

能量函数 $e_{ij}$

$e_{ij}$ 是一个能量函数（energy function）。

3.1.2 对齐模型 $\alpha_{ij}$：feed-forward 神经网络

我们将对齐模型 $a$ 参数化为一个前馈神经网络，与系统的所有其他组件联合训练。

注意，

与传统机器翻译不同，这里不将对齐视为一个 latent variable。相反，
对齐模型直接计算一个 soft alignment，这使得 cost function 的梯度可以后向传播。该梯度可用于联合训练对齐模型以及整个翻译模型。

对所有 annotation 取加权和的方法，可以理解为计算一个 expected annotation， where the expectation is over possible alignments。

令 $\alpha_{ij}$ 表示目标词 $y_i$ 与源词 $x_j$ 对齐 —— 或者说从源词 $x_j$ 翻译而来 —— 的概率，
那么，第 $i$ 个上下文向量 $c_i$ 就是以概率 $\alpha_{ij}$ 对所有 annotation $h_i$ 的加权期望。

3.1.3 直观解释：一种注意力（attention）机制

概率 $\alpha_{ij}$ —— 或者与其相关的能量 $e_{ij}$ —— 反映了 annotation $h_j$ （跟前一个隐藏状态 $s_{i-1}$ 有关）在决定下一个隐藏状态 $s_i$ 和生成 $y_i$ 时的重要性。

直观来说，这在 decoder 中实现了一种注意力机制：

decoder 决定关注源句子的哪些部分；
decoder 有了这种注意力机制，encoder 就减轻了将源句子中的所有信息编码到固定长度向量中的负担。

通过这种方法，信息就能分布在 annotation 序列中，decoder 可以选择性检索它需要的信息。

3.2 encoder：用于 annotating sequence 的双向 RNN 3.2.1 为什么用 BiRNN：总结每个词前和后的信息

如方程 1 所示，读取输入序列 $x$ 时，

普通的 RNN 按顺序从第一个符号 $x_1$ 读到最后一个符号 $x_{T_x}$ 。

我们希望每个词的 annotation 不仅总结前面的词，还总结后面的词，因此使用了双向 RNN（BiRNN），这种技术最近在语音识别领域很成功。

3.2.2 Annotation 的计算

BiRNN 由前向和后向 RNN 组成。

前向 RNN $\vec{f}$ 按正向顺序读取输入序（从 $x_1$ 到 $x_{T_x}$），然后计算前向隐藏状态序列 $\overrightarrow{h_1}$, …, $\overrightarrow{h}_{T_x}$。
后向 RNN $\overleftarrow{f}$ 以相反的顺序读取序列（从 $x_{T_x}$ 到 $x_1$），得到后向隐藏状态序列 $\overleftarrow{h_1}$, …, $\overleftarrow{h_{T_x}}$。

将前向和后向隐藏状态拼接到一起，我们就得到了每个词 $x_j$ 的最终 annotation，即 $h_j = \left[ \overrightarrow{h}_j^\top ; \overleftarrow{h}_j^\top \right]^\top$：

annotation $h_j$ 包含了这个词前面和后面的摘要。
由于 RNN 能较好地表示最近的输入（recent inputs），因此 annotation $h_j$ 的信息将集中在 $x_j$ 附近的词上。
这个 annotation 序列随后被 decoder 和对齐模型用于计算上下文向量（方程 5-6）。

Figure 1: 直观解释：给定源句子 (x1; x2; ...; xT)，生成第 t 个目标单词 yt 的过程。

注释版：

Figure 1: 直观解释：给定源句子 (x1; x2; ...; xT)，生成第 t 个目标单词 yt 的过程。

4 实验设置（略） 5 结果（略） 6 相关工作 6.1 学习对齐（Learning to Align）

最近，Graves 等在手写合成（handwriting synthesis）任务中提出了一种类似的对齐输出符号与输入符号的方法。手写合成任务是给定一个字符序列，要求模型生成对应的手写。 Graves 等使用 a mixture of Gaussian kernels 来计算 annotation 的权重，其中每个 kernel 的位置、宽度和混合系数由 alignment model 预测。更具体地说，他的对齐（alignment）具体就是预测位置（predict the location），使得 location 单调递增。

与我们的方法的主要区别在于，在 Graves 等的工作中，annotation 权重的模式只能单向移动。在机器翻译中，这是一个很大的限制，因为生成语法正确的翻译（例如，英语到德语）通常需要（长距离）重排序。

另一方面，我们的方法需要为每个翻译词计算源句子中每个词的 annotation 权重。这种问题在翻译任务中还好，因为大多数输入和输出句子只有 15-40 个词。然而，在其他类型的任务重，本文这种方案可能就会不太适用了。

6.2 神经网络用于机器翻译

Since introduced a neural probabilistic language model which uses a neural network to model the conditional probability of a word given a fixed number of the preceding words, neural networks have widely been used in machine translation. However, the role of neural networks has been largely limited to simply providing a single feature to an existing statistical machine translation system or to re-rank a list of candidate translations provided by an existing system.

For instance, proposed using a feedforward neural network to compute the score of a pair of source and target phrases and to use the score as an additional feature in the phrase-based statistical machine translation system. More recently, and reported the successful use of the neural networks as a sub-component of the existing translation system. Traditionally, a neural network trained as a target-side language model has been used to rescore or rerank a list of candidate translations.

Although the above approaches were shown to improve the translation performance over the state-of-the-art machine translation systems, we are more interested in a more ambitious objective of designing a completely new translation system based on neural networks. The neural machine translation approach we consider in this paper is therefore a radical departure from these earlier works. Rather than using a neural network as a part of the existing system, our model works on its own and generates a translation from a source sentence directly.

7 总结

The conventional approach to neural machine translation, called an encoder–decoder approach, encodes a whole input sentence into a fixed-length vector from which a translation will be decoded. We conjectured that the use of a fixed-length context vector is problematic for translating long sentences, based on a recent empirical study reported.

In this paper, we proposed a novel architecture that addresses this issue. We extended the basic encoder–decoder by letting a model (soft-)search for a set of input words, or their annotations computed by an encoder, when generating each target word. This frees the model from having to encode a whole source sentence into a fixed-length vector, and also lets the model focus only on information relevant to the generation of the next target word. This has a major positive impact on the ability of the neural machine translation system to yield good results on longer sentences. Unlike with the traditional machine translation systems, all of the pieces of the translation system, including the alignment mechanism, are jointly trained towards a better log-probability of producing correct translations.

We tested the proposed model, called RNNsearch, on the task of English-to-French translation. The experiment revealed that the proposed RNNsearch outperforms the conventional encoder–decoder model (RNNencdec) significantly, regardless of the sentence length and that it is much more robust to the length of a source sentence. From the qualitative analysis where we investigated the (soft-)alignment generated by the RNNsearch, we were able to conclude that the model can correctly align each target word with the relevant words, or their annotations, in the source sentence as it generated a correct translation.

Perhaps more importantly, the proposed approach achieved a translation performance comparable to the existing phrase-based statistical machine translation. It is a striking result, considering that the proposed architecture, or the whole family of neural machine translation, has only been proposed as recently as this year. We believe the architecture proposed here is a promising step toward better machine translation and a better understanding of natural languages in general.

One of challenges left for the future is to better handle unknown, or rare words. This will be required for the model to be more widely used and to match the performance of current state-of-the-art machine translation systems in all contexts.

致谢

The authors would like to thank the developers of Theano. We acknowledge the support of the following agencies for research funding and computing support: NSERC, Calcul Qu'{e}bec, Compute Canada, the Canada Research Chairs and CIFAR. Bahdanau thanks the support from Planet Intelligent Systems GmbH. We also thank Felix Hill, Bart van Merri'enboer, Jean Pouget-Abadie, Coline Devin and Tae-Ho Kim.

参考文献

Axelrod, A., He, X., and Gao, J. (2011). Domain adaptation via pseudo in-domain data selection. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 355–362. Association for Computational Linguistics.
Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I. J., Bergeron, A., Bouchard, N., and Bengio, Y. (2012). Theano: new features and speed improvements. Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop.
Bengio, Y., Simard, P., and Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2), 157–166.
Bengio, Y., Ducharme, R., Vincent, P., and Janvin, C. (2003). A neural probabilistic language model. J. Mach. Learn. Res., 3, 1137–1155.
Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., Warde-Farley, D., and Bengio, Y. (2010). Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scientific Computing Conference (SciPy). Oral Presentation.
Boulanger-Lewandowski, N., Bengio, Y., and Vincent, P. (2013). Audio chord recognition with recurrent neural networks. In ISMIR.
Cho, K., van Merrienboer, B., Gulcehre, C., Bougares, F., Schwenk, H., and Bengio, Y. (2014a). Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014). to appear.
Cho, K., van Merriënboer, B., Bahdanau, D., and Bengio, Y. (2014b). On the properties of neural machine translation: Encoder–Decoder approaches. In Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. to appear.
Devlin, J., Zbib, R., Huang, Z., Lamar, T., Schwartz, R., and Makhoul, J. (2014). Fast and robust neural network joint models for statistical machine translation. In Association for Computational Linguistics.
Forcada, M. L. and Ñeco, R. P. (1997). Recursive hetero-associative memories for translation. In J. Mira, R. Moreno-Díaz, and J. Cabestany, editors, Biological and Artificial Computation: From Neuroscience to Technology, volume 1240 of Lecture Notes in Computer Science, pages 453–462. Springer Berlin Heidelberg.
Goodfellow, I., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013). Maxout networks. In Proceedings of The 30th International Conference on Machine Learning, pages 1319–1327.
Graves, A. (2012). Sequence transduction with recurrent neural networks. In Proceedings of the 29th International Conference on Machine Learning (ICML 2012).
Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv:1308.0850 [cs.NE].
Graves, A., Jaitly, N., and Mohamed, A.-R. (2013). Hybrid speech recognition with deep bidirectional LSTM. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 273–278.
Hermann, K. and Blunsom, P. (2014). Multilingual distributed representations without word alignment. In Proceedings of the Second International Conference on Learning Representations (ICLR 2014).
Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut für Informatik, Lehrstuhl Prof. Brauer, Technische Universität München.
Hochreiter, S. and Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780.
Kalchbrenner, N. and Blunsom, P. (2013). Recurrent continuous translation models. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1700–1709. Association for Computational Linguistics.
Koehn, P. (2010). Statistical Machine Translation. Cambridge University Press, New York, NY, USA.
Koehn, P., Och, F. J., and Marcu, D. (2003). Statistical phrase-based translation. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - Volume 1, NAACL ‘03, pages 48–54, Stroudsburg, PA, USA. Association for Computational Linguistics.
Pascanu, R., Mikolov, T., and Bengio, Y. (2013a). On the difficulty of training recurrent neural networks. In ICML’2013.
Pascanu, R., Mikolov, T., and Bengio, Y. (2013b). On the difficulty of training recurrent neural networks. In Proceedings of the 30th International Conference on Machine Learning (ICML 2013).
Pascanu, R., Gulcehre, C., Cho, K., and Bengio, Y. (2014). How to construct deep recurrent neural networks. In Proceedings of the Second International Conference on Learning Representations (ICLR 2014).
Pouget-Abadie, J., Bahdanau, D., van Merriënboer, B., Cho, K., and Bengio, Y. (2014). Overcoming the curse of sentence length for neural machine translation using automatic segmentation. In Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. to appear.
Schuster, M. and Paliwal, K. K. (1997). Bidirectional recurrent neural networks. Signal Processing, IEEE Transactions on, 45(11), 2673–2681.
Schwenk, H. (2012). Continuous space translation models for phrase-based statistical machine translation. In M. Kay and C. Boitet, editors, Proceedings of the 24th International Conference on Computational Linguistics (COLIN), pages 1071–1080. Indian Institute of Technology Bombay.
Schwenk, H., Dchelotte, D., and Gauvain, J.-L. (2006). Continuous space language models for statistical machine translation. In Proceedings of the COLING/ACL on Main conference poster sessions, pages 723–730. Association for Computational Linguistics.
Sutskever, I., Vinyals, O., and Le, Q. (2014). Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems (NIPS 2014).
Zeiler, M. D. (2012). ADADELTA: An adaptive learning rate method. arXiv:1212.5701 [cs.LG].

[译][论文] Transformer paper | Attention Is All You Need（Google，2017）

ARTHURCHIAO'S BLOG

7 months 1 week ago

译者序

本文翻译自 2017 年 Google 提出 Transformer 的论文： Attention Is All You Need。

Figure 1: Transformer 架构：encoder/decoder 内部细节。

摘录一段来自 Transformer 是如何工作的：600 行 Python 代码实现两个（文本分类+文本生成）Transformer（2019）的介绍，说明 Transformer 架构相比当时主流的 RNN/CNN 架构的创新之处：

在 transformer 之前，最先进的架构是 RNN（通常是 LSTM 或 GRU），但它们存在一些问题。

RNN 展开（unrolled）后长这样：

RNN 最大的问题是级联（recurrent connection）：虽然它使得信息能沿着 input sequence 一路传导，但也意味着在计算出 $i-1$ 单元之前，无法计算出 $i$ 单元的输出。

与 RNN 此对比，一维卷积（1D convolution）如下：

在这个模型中，所有输出向量都可以并行计算，因此速度非常快。但缺点是它们在 long range dependencies 建模方面非常弱在一个卷积层中，只有距离比 kernel size 小的单词之间才能彼此交互。对于更长的依赖，就需要堆叠许多卷积。（为什么？可参考以图像识别为例，关于卷积神经网络（CNN）的直观解释（2016））。

Transformer 试图兼顾二者的优点：

可以像对彼此相邻的单词一样，轻松地对输入序列的整个范围内的依赖关系进行建模（事实上，如果没有位置向量，二者就没有区别）；
同时，避免 recurrent connections，因此整个模型可以用非常高效的 feed forward 方式计算。

Transformer 的其余设计主要基于一个考虑因素 —— 深度 —— 大多数选择都是训练大量 transformer block 层，例如，transformer 中只有两个非线性的地方：

self-attention 中的 softmax；
前馈层中的 ReLU。

模型的其余部分完全由线性变换组成，完美地保留了梯度。

提出 attention 机制的 paper：神经机器翻译：联合学习对齐和翻译（Align & Translate）（2014）。

[译][论文] Attention paper | 神经机器翻译：联合学习对齐和翻译（2014）

[译] 文生图（text-to-image）简史：扩散模型（diffusion models）的崛起与发展（2022）

[译] Transformer 是如何工作的：600 行 Python 代码实现 self-attention 和两类 Transformer（2019）

[译] 什么是 GPT？Transformer 工作原理的动画展示（2024）

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

以下是译文。

译者序
摘要
1 引言
2 背景
3 Transformer 模型架构
4 Why Self-Attention
5 Training
6 结果
7 Conclusion
致谢
参考文献
附录：Attention 的可视化

主流的 sequence transduction model 都是基于复杂的循环或卷积神经网络，其中包括一个 encoder 和一个 decoder。效果最好的模型还会通过 attention 机制将 encoder 和 decoder 连起来。

我们提出一种新的简单网络架构 Transformer，它弃用了循环和卷积，完全基于 attention 机制。

在两个机器翻译任务上的实验表明，Transformer 模型的效果好于其他模型，并且更容易并行化，训练时间显著减少。

Tranformer 在 WMT 2014 英德翻译任务上达到了 28.4 BLEU，比现有最佳结果提高了 2 BLEU 以上。
在 WMT 2014 英法翻译任务上，Tranformer 在 8 个 P100 GPU 上训练 3.5 天后，创造了新的单模型最佳性能，这个训练成本也远小于本文引用的性能类似的其他模型。

我们还成功将 Transformer 应用于英语句法分析，展示了 Transformer 在其他任务上的泛化能力。

1 引言

当前，RNN（Recurrent Neural Networks，循环神经网络）—— 尤其是 LSTM RNN（long short-term memory）和 gated RNN —— 已经是序列建模和 transduction 问题（例如语言建模和机器翻译）的最好方式，现在也仍然有大量的工作在继续扩大 recurrent 类语言模型和 encoder-decoder 架构的能力边界。

1.1 RNN 架构的内在顺序计算限制（来自 RNN 其中的 R）

Recurrent models 通常沿输入和输出序列的符号位置进行因子计算。

对于位置 $t$，根据前一个隐藏状态 $h_{t-1}$ 和位置 $t$ 处的 input 生成新的隐藏状态 $h_t$。
这种内在的顺序性限制了训练数据之间的并行化，序列较长时这一点尤为重要。

近期的工作通过分解技巧（factorization tricks）和条件计算（conditional computation）显著提高了计算效率，此外，后者还提高了模型性能。然而，顺序计算（sequential computation）这一根本约束仍然存在。

1.2 RNN+Attention 架构：更好的模型效果

Attention 机制已经成为很多任务中序列建模和 transduction 模型的一个重要组成部分，它允许直接对依赖进行建模（modeling of dependencies），而不用考虑这些依赖在输入或输出序列中的距离。

但是，绝大部分大部分情况，人们仍然是将 attention 机制与 RNN 一起使用，因而仍然受到顺序计算的约束。

1.3 Transformer：避免 R，一种完全基于 attention 机制的新架构

本文提出 Transformer —— 一种避免循环机制、完全基于 attention 机制 而在输入和输出之间建立全局依赖关系的模型架构。

相比 RNN，Transformer 的并行能力显著提升，在 8 个 P100 GPU 上训练 12 小时就能创造新的最高翻译水平。

2 背景 2.1 CNN：减少顺序计算，但对远距离依赖关系的学习成本很高

Extended Neural GPU、ByteNet 和 ConvS2S 也是想减少顺序计算，它们都使用 CNN（convolutional neural networks，卷积神经网络）作为基本构建块，为所有输入和输出位置并行计算隐藏表示。

但是，在这些模型中，从两个任意输入或输出位置（input or output positions）做信号关联，所需的操作数量随着位置之间的距离增加而增加，

ConvS2S 线性增长
ByteNet 对数增长。

这使得学习远距离位置之间的依赖关系变得困难。而在 Transformer 中，

所需的操作减少到一个常量，不过这里的代价是有效分辨率降低，这是 averaging attention-weighted positions 导致的；
但是，可以通过 Multi-Head Attention 来缓解。

2.2 Self-attention (intra-attention) 机制

Self-attention，有时称为 intra-attention，

是一种注意力机制（2014 paper），
目的是计算序列的一种表示（a representation of the sequence）
方式是对一个输入序列的不同位置做各种关联（relating different positions of a single sequence）。

Self-attention 已经成功地应用于各种任务 [4, 27, 28, 22]，包括

阅读理解（reading comprehension）
总结抽象（abstractive summarization）
textual entailment
学习任务无关的句子表示（task-independent sentence representations）

2.3 Tranformer：避免 RNN 和 CNN

端到端的记忆网络（end-to-end memory networks）是基于一种 recurrent attention 而非 sequence-aligned recurrence 的机制，在 simple-language question answering 和语言建模任务中表现良好。

但据我们所知，Transformer 是第一个完全依赖 self-attention —— 而不使用 sequence-aligned RNNs 或 CNNs —— 来计算输入和输出表示的 transduction 模型。

3 Transformer 模型架构 3.0 Encoder-decoder：sequence transduction 模型的基本结构

大部分性能较好的 neural sequence transduction 模型都会包含一个 encoder-decoder 结构：

encoder 将一个输入序列 $(x_1, …, x_n)$ 映射到另一个序列表示 $\mathbf{z} = (z_1, …, z_n)$。
给定 $\mathbf{z}$，decoder 生成一个输出序列 $(y_1,…,y_m)$ —— 每次生成一个元素：
- 生成下一个元素时，会将 input 连同上一步生成的元素一起，作为新的 input 输入 decoder；
- 这种机制叫 auto-regressive（自回归）。

3.1 Encoder/decoder 内部结构

如下图所示，Transformer 沿用了 encoder-decoder 架构，

Figure 1: Transformer 架构，沿用了业界的 encoder-decoder 架构。

3.1.1 Encoder：6 * {multi-head-attention + feed-forward}

Figure 1: Transformer 架构：encoder/decoder 内部细节。

Transformer 的 encoder 由 N=6 个相同的层组成，每层又分为两个子层（图 1 左边）：

multi-head self-attention 层；
简单的 feed-forward 全连接层。

两个子层后面都会使用 residual connection，然后是 layer normalization。也就是说，每个子层的输出是 LayerNorm(x+Sublayer(x))，其中 Sublayer(x) 是子层本身实现的函数。

为了促进这些残差连接，模型中的所有子层以及 embedding 层，都产生 dmodel=512 维的输出。

3.1.2 Decoder：6 * {masked-multi-head-attention + multi-head-attention + feed-forward}

Transformer 的 decoder 也由 N=6 个相同的层组成，

Figure 1: Transformer 架构：encoder/decoder 内部细节。

但与 encoder 不同，decoder 的每层还插入了第三个子层（图 1 右边），

它对 encoder 的输出执行 multi-head attention。具体来说，decoder 的输入是 encoder 的输出往右偏移一个位置（the output embeddings are offset by one position），再加上 position embeddings；
这一子层的 self-attention 比较特殊，加了个掩码（masking），这是为了避免它使用当前位置后面的信息（attending to subsequent positions）。换句话说，这确保了位置 $i$ 处的预测只能依赖 $i$ 位置前面的已知输出。

其他都与 encoder 类似，decoder 的每个子层后面都使用了残差连接，然后是层归一化。

3.2 Attention 内部结构

一个 attention 函数可以描述为将一个查询（query）和一组 key-value pairs 映射到一个 output，其中：

查询、键、值和输出都是向量；
output 是 values 向量的加权和，其中每个 value 的权重是由 query 与相应 key 的一个 compatibility function 计算得到的。

3.2.1 Scaled Dot-Product Attention

如图 2 左侧所示，我们的 attention 称为 “Scaled Dot-Product Attention”。

Figure 2:(left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel.

输入

queries 和 keys：都是 $d_k$ 维的向量；
values：$d_v$ 的向量。

计算过程

分为两步：

query 与所有 keys 的点积，将每个点积除以 $\sqrt{d_k}$，然后应用 softmax，得到的是 values 的权重；
将这些权重与 values 相乘。

如图右侧，实际中，

同时计算一组 queries，将它们打包成一个矩阵 $Q$。
keys 和 values 也被打包成矩阵 $K$ 和 $V$。

计算输出矩阵为：

\begin{equation} \mathrm{Attention}(Q, K, V) = \mathrm{softmax}(\frac{QK^T}{\sqrt{d_k}})V \end{equation}

(1)

两个最常用的 attention 函数是 additive attention [2] 和 dot-product（multiplicative）attention。

Dot-product attention 除了缩放因子 $\frac{1}{\sqrt{d_k}}$ 与我们的算法不同，其他都是一样的；
Additive attention 使用有单个隐藏层的 feed-forward network 来计算 compatibility function。

尽管二者的理论复杂度上类似，但实际上 dot-product attention 更快，更节省空间，因为它可以使用高度优化的矩阵乘法实现。

虽然对于小的 $d_k$ 值，这两种机制的性能相似，但对于较大的 $d_k$ 值，additive attention 优于不缩放的 dot-product attention。我们猜测是对于较大的 $d_k$ 值，点积变得很大，将 softmax 函数推到到了梯度极小的区域。为了避免这个问题，我们通过 $\frac{1}{\sqrt{d_k}}$ 缩放点积。

3.2.2 Multi-Head Attention 的计算

Figure 2:(left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel.

线性变换 query/key，并行 attention 计算，最后再拼接 value

相比于对 $d_{model}$ 维的 keys、values 和 queries 执行单个 attention 函数，我们发现可以并行计算：

将 queries、keys 和 values 进行 h 次线性变换（投影） —— 每次使用不同的、学习到的变换矩阵 —— 将三者分别变换到 $d_k$、$d_k$ 和 $d_v$ 维度。
对变换之后的 queries、keys 和 values 并行执行 attention 函数，就得到 $d_v$ 维的输出 values。
将这些 values 拼接到一起再进行一次线性变换，就得到了最终的 values。

公式和参数矩阵

Multi-head attention 允许模型同时 attend（关注）不同位置的不同表示子空间（representation subspaces）的信息。如果只有一个 attention head，它的平均（averaging）会削弱这种效果。

\begin{align} \mathrm{MultiHead}(Q, K, V) &= \mathrm{Concat}(\mathrm{head_1}, …, \mathrm{head_h})W^O
\end{align}

其中，

\begin{align} \mathrm{head_i} &= \mathrm{Attention}(QW^Q_i, KW^K_i, VW^V_i)
\end{align}

其中，线性变换（投影）就是下面几个参数矩阵：

$W^Q_i \in \mathbb{R}^{d_{model} \times d_k}$
$W^K_i \in \mathbb{R}^{d_{model} \times d_k}$
$W^V_i \in \mathbb{R}^{d_{model} \times d_v}$
$W^O \in \mathbb{R}^{hd_v \times d_{model}}$

本文中我们使用

h=8，也就是 8 个并行的 attention layers/heads。
$d_k=d_v=d_{model}/h=64$，也就是将 query/key/value 向量都分段投影到 64 维向量。

由于每个 head 的维度降低，总计算成本与完整维度的 single head attention 相似。

3.2.3 Attention 在模型中的应用

Transformer 以三种不同的方式使用 multi-head attention：

“encoder-decoder attention” layers

这一步的用法就是 sequence-to-sequence 模型中 [38, 2, 9] 的典型 encoder-decoder attention 机制。

输入：

queries 来自前一个 decoder 层
memory keys 和 values 来自 encoder 的输出。

这使得 decoder 中的每个位置都可以关注输入序列中的所有位置。

encoder layers

encoder 层包含了 self-attention layers。

输入：keys、values 和 queries 都来自 encoder 中前一层的输出。

encoder 中的每个位置都可以关注 encoder 前一层的所有位置。

docoder layers

与 encoder 中类似，decoder 中的 self-attention 层允许 decoder 中的每个位置关注 decoder 中到该位置为止的所有位置。

为了保证自回归特性（auto-regressive），需要防止 decoder 中的左向信息流。
我们通过屏蔽与非法连接对应的 softmax 输入中的所有值（设置为负无穷大 $-\infty$）来实现这一点。

3.3 Position-wise Feed-Forward Networks

除了 attention 子层，encoder 和 decoder 中的每个层都包含一个全连接的 feed-forward 网络，包括两个线性变换和一个 ReLU 激活。

Figure 1: Feed-Forward Network (FFN) 内部结构。

对应的数学公式：

\begin{equation} \mathrm{FFN}(x)=\max(0, xW_1 + b_1) W_2 + b_2 \end{equation}

(2)

线性变换在不同位置上是功能是相同的，但在不同的层使用的参数不同。也可以将它们描述为：两个 kernel size 为 1 的卷积。输入和输出的维度是 $d_{model}=512$，内层的维度是 $d_{ff}=2048$。

3.4 Embeddings and Softmax

与其他 sequence transduction models 类似，我们使用 learned embeddings 将输入 tokens 和输出 tokens 转换为维度为 $d_{model}=512$ 的向量。我们还使用常见的基于学习的线性变换和 softmax 函数将 decoder 输出转换为下一个 token 的预测概率分布（predicted next-token probabilities）。我们的模型中，在两个 embedding 层和 pre-softmax 线性变换之间共享相同的权重矩阵，类似于 [30]。在 embedding 层中，我们将这些权重乘以 $\sqrt{d_{model}}$。

3.5 Positional Encoding（位置编码） 3.5.1 目的：向 token 注入位置信息

因为我们的模型不包含循环和卷积，为了使模型能够利用到序列的顺序，必须向 token 注入一些关于相对或绝对位置的信息。

3.5.2 编码算法：正弦函数

如下图所示，为了注入位置信息，

Figure 1: Transformer 架构，沿用了业界的 encoder-decoder 架构。

我们在 encoder/decoder 的入口都添加了 “positional encodings”，它与 input embeddings 相加之后才开始后面的 attention 计算。。位置编码与 input embedding 具有相同的维度 $d_{model}=512$，因此可以相加。

位置编码有许多选择，有基于学习的，也有固定的。本文中，我们使用不同频率的正弦和余弦函数：

\begin{align} PE_{(pos,2i)} = sin(pos / 10000^{2i/d_{model}})
\end{align}

\begin{align} PE_{(pos,2i+1)} = cos(pos / 10000^{2i/d_{model}}) \end{align}

其中，$pos$ 是位置，$i$ 是维度。也就是说，位置编码的每个维度对应于一个正弦波。波长从 $2\pi$ 到 $10000 \cdot 2\pi$ 形成一个几何级数。

选择这个函数是因为我们猜测它可以让模型很容易地学习通过相对位置进行 attention，因为对于任何固定的偏移 $k$，$PE_{pos+k}$ 可以表示为 $PE_{pos}$ 的线性函数。
我们还尝试使用 learned positional embeddings，发现结果几乎相同。
最终选择了正弦版本，因为它可能会让模型对超出训练期间遇到的序列长度进行外推（extrapolate to sequence lengths）。

4 Why Self-Attention

本节我们对 self-attention 层与循环及卷积层（the recurrent and convolutional layers）进行一个比较，它们都是常用的将一个变长序列的符号表示 $(x_1, …, x_n)$ 映射为另一个同样长度的序列 $(z_1, …, z_n)$ 的方式，其中 $x_i, z_i \in \mathbb{R}^d$，例如典型序列转换 encoder/decoder 中的隐藏层。

4.1 Motivation

我们设计 self-attention 有三方面原因：

每层的计算复杂度；
可以并行化的计算量，由所需的最小顺序操作数来衡量；
网络中长距离依赖（long-range dependencies）的路径长度。

学习 long-range dependencies 是许多序列转换任务的核心挑战。影响学习这种依赖的能力的一个核心因素是信号在网络中前向和后向传播的路径长度。输入和输出序列中任意位置的这种路径越短，long-range dependencies 的学习越容易。因此，我们还比较了在多层网络中，输入和输出位置之间任意两个位置的 maximum path length。

4.2 与循环网络、卷积网络的计算复杂度对比

如下表所示，

Table 1: Maximum path lengths, per-layer complexity and minimum number of sequential operations for different layer types. n 序列长度， d representation 的维度， k 卷积的 kernel size， r restricted self-attention 中的 neighborhood size。

对于 sequential operations，

一个 self-attention 层连接所有位置，因此所需的顺序操作是常数（换句话说，可以完全并行化，一次完成）；
一个循环层则需要 $O(n)$ 个顺序操作。

在计算复杂度方面，

当序列长度 $n$ 小于表示维度 $d$ 时，self-attention 层比循环层更快，
这在机器翻译领域已经得到证明，例如 word-piece 和 byte-pair 表示。

处理非常长的序列方面：

为了提高计算性能，可以限制让 self-attention 只考虑 a neighborhood of size $r$ in the input sequence centered around the respective output position。
这会将最大路径长度增加到 $O(n/r)$。我们计划在未来的工作中进一步研究这种方法。

A single convolutional layer with kernel width k < n does not connect all pairs of input and output positions. Doing so requires a stack of $O(n/k)$ convolutional layers in the case of contiguous kernels, or $O(log_k(n))$ in the case of dilated convolutions , increasing the length of the longest paths between any two positions in the network. Convolutional layers are generally more expensive than recurrent layers, by a factor of $k$. Separable convolutions , however, decrease the complexity considerably, to $O(k \cdot n \cdot d + n \cdot d^2)$. Even with $k=n$, however, the complexity of a separable convolution is equal to the combination of a self-attention layer and a point-wise feed-forward layer, the approach we take in our model.

4.3 更具可解释性的模型

除了上述优势，self-attention 还能产生更具可解释性的模型。

我们检查了 Transformer 模型的 attention 分布，并在附录中展示和讨论了一些例子。不仅每个 attention head 都明显学会了执行不同的任务，许多 head 还表现出与句子的句法和语义结构相关的行为。

5 Training

本节描述 Transformer 的训练方案。

5.1 Training Data and Batching

We trained on the standard WMT 2014 English-German dataset consisting of about 4.5 million sentence pairs. Sentences were encoded using byte-pair encoding [3], which has a shared source-target vocabulary of about 37000 tokens.
For English-French, we used the significantly larger WMT 2014 English-French dataset consisting of 36M sentences and split tokens into a 32000 word-piece vocabulary [38].
Sentence pairs were batched together by approximate sequence length. Each training batch contained a set of sentence pairs containing approximately 25000 source tokens and 25000 target tokens.

5.2 Hardware and Schedule

在一台 8 * NVIDIA P100 GPU 的机器上训练。

对于本文描述的超参数/尺寸，我们称为基本模型，每个训练步骤大约需要 0.4 秒。整个训练共 100,000 步或 12 小时。
对于尺寸更大的模型，步骤时间为 1.0 秒。整个训练用了 300,000 步（3.5 天）。

5.3 Optimizer

我们使用了 Adam 优化器，其中 $\beta_1=0.9$，$\beta_2=0.98$ 和 $\epsilon=10^{-9}$。根据以下公式在训练过程中改变学习率：

\begin{equation} lrate = d_{model}^{-0.5} \cdot \min({step_num}^{-0.5}, {step_num} \cdot {warmup_steps}^{-1.5}) \end{equation}

这对应于在前 $warmup_steps$ 训练步骤中线性增加学习率，然后在此后按比例减少，与步数的倒数平方根成比例。我们使用了 $warmup_steps=4000$。

5.4 Regularization

我们在训练过程中使用了几种类型的正则化。

Residual Dropout

对每个子层的输出应用 dropout，然后将其添加到子层输入并进行归一化。
对 encoder/decoder 中的 input embeddings + positional encodings 的结果应用 dropout。

对于 base 模型，我们使用了 $P_{drop}=0.1$。

Label Smoothing

在训练过程中，我们使用了 $\epsilon_{ls}=0.1$ 的 label smoothing。这会降低 perplexity，因为模型 learns to be more unsure，但会提高准确性和 BLEU 分数。

6 结果 6.1 Machine Translation

Table 2:The Transformer achieves better BLEU scores than previous state-of-the-art models on the English-to-German and English-to-French newstest2014 tests at a fraction of the training cost.

On the WMT 2014 English-to-German translation task, the big transformer model (Transformer (big) outperforms the best previously reported models (including ensembles) by more than $2.0$ BLEU, establishing a new state-of-the-art BLEU score of $28.4$. The configuration of this model is listed in the bottom line of Table 2. Training took $3.5$ days on $8$ P100 GPUs. Even our base model surpasses all previously published models and ensembles, at a fraction of the training cost of any of the competitive models.

On the WMT 2014 English-to-French translation task, our big model achieves a BLEU score of $41.0$, outperforming all of the previously published single models, at less than $1/4$ the training cost of the previous state-of-the-art model. The Transformer (big) model trained for English-to-French used dropout rate $P_{drop}=0.1$, instead of $0.3$.

For the base models, we used a single model obtained by averaging the last 5 checkpoints, which were written at 10-minute intervals. For the big models, we averaged the last 20 checkpoints. We used beam search with a beam size of $4$ and length penalty $\alpha=0.6$ . These hyperparameters were chosen after experimentation on the development set. We set the maximum output length during inference to input length + $50$, but terminate early when possible .

Table 2 summarizes our results and compares our translation quality and training costs to other model architectures from the literature. We estimate the number of floating point operations used to train a model by multiplying the training time, the number of GPUs used, and an estimate of the sustained single-precision floating-point capacity of each GPU.

6.2 Model Variations

Table 3:Variations on the Transformer architecture. Unlisted values are identical to those of the base model. All metrics are on the English-to-German translation development set, newstest2013. Listed perplexities are per-wordpiece, according to our byte-pair encoding, and should not be compared to per-word perplexities.

To evaluate the importance of different components of the Transformer, we varied our base model in different ways, measuring the change in performance on English-to-German translation on the development set, newstest2013. We used beam search as described in the previous section, but no checkpoint averaging. We present these results in Table 3.

In Table 3 rows (A), we vary the number of attention heads and the attention key and value dimensions, keeping the amount of computation constant, as described in Section multihead. While single-head attention is 0.9 BLEU worse than the best setting, quality also drops off with too many heads.

In Table 3 rows (B), we observe that reducing the attention key size $d_k$ hurts model quality. This suggests that determining compatibility is not easy and that a more sophisticated compatibility function than dot product may be beneficial. We further observe in rows (C) and (D) that, as expected, bigger models are better, and dropout is very helpful in avoiding over-fitting. In row (E) we replace our sinusoidal positional encoding with learned positional embeddings , and observe nearly identical results to the base model.

6.3 English Constituency Parsing

Table 4:The Transformer generalizes well to English constituency parsing (Results are on Section 23 of WSJ)

To evaluate if the Transformer can generalize to other tasks we performed experiments on English constituency parsing. This task presents specific challenges: the output is subject to strong structural constraints and is significantly longer than the input. Furthermore, RNN sequence-to-sequence models have not been able to attain state-of-the-art results in small-data regimes.

We trained a 4-layer transformer with $d_{model} = 1024$ on the Wall Street Journal (WSJ) portion of the Penn Treebank , about 40K training sentences. We also trained it in a semi-supervised setting, using the larger high-confidence and BerkleyParser corpora from with approximately 17M sentences . We used a vocabulary of 16K tokens for the WSJ only setting and a vocabulary of 32K tokens for the semi-supervised setting.

We performed only a small number of experiments to select the dropout, both attention and residual, learning rates and beam size on the Section 22 development set, all other parameters remained unchanged from the English-to-German base translation model. During inference, we increased the maximum output length to input length + $300$. We used a beam size of $21$ and $\alpha=0.3$ for both WSJ only and the semi-supervised setting.

Our results in Table 4 show that despite the lack of task-specific tuning our model performs surprisingly well, yielding better results than all previously reported models with the exception of the Recurrent Neural Network Grammar.

In contrast to RNN sequence-to-sequence models , the Transformer outperforms the BerkeleyParser even when training only on the WSJ training set of 40K sentences.

7 Conclusion

本文提出了 Transformer，这是第一个完全基于 attention 的序列转换模型，用 multi-head attention 替代了 encoder-decoder 架构中最常用的循环层。

对于翻译任务，Transformer 的训练速度比基于循环或卷积层的架构快得多。在 WMT 2014 英德和英法翻译任务中，我们达到了新的 SOTA 结果。对于英德翻译，我们的最佳模型甚至超过了所有已知模型的结果。

展望未来，我们对基于 attention 的模型充满期待，并计划将其应用于其他任务。我们计划将 Transformer 扩展到文本以外的涉及输入/输出模态（involving input and output modalities）的场景，并研究局部、受限的 attention 机制，以有效处理大输入和输出，如图像、音频和视频。让生成过程尽量避免顺序执行（making generation less sequential）也是我们的一个研究目标。

The code we used to train and evaluate our models is available at https://github.com/tensorflow/tensor2tensor.

致谢

We are grateful to Nal Kalchbrenner and Stephan Gouws for their fruitful comments, corrections and inspiration.

参考文献

Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014.
Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc V. Le. Massive exploration of neural machine translation architectures. CoRR, abs/1703.03906, 2017.
Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine reading. arXiv preprint arXiv:1601.06733, 2016.
Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using RNN encoder-decoder for statistical machine translation. CoRR, abs/1406.1078, 2014.
Francois Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357, 2016.
Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.
Chris Dyer, Adhiguna Kuncoro, Miguel Ballesteros, and Noah A. Smith. Recurrent neural network grammars. In Proc. of NAACL, 2016.
Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017.
Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.
Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, 2001.
Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
Zhongqiang Huang and Mary Harper. Self-training PCFG grammars with latent annotations across languages. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 832–841. ACL, August 2009.
Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.
Łukasz Kaiser and Samy Bengio. Can active memory replace attention? In Advances in Neural Information Processing Systems, (NIPS), 2016.
Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference on Learning Representations (ICLR), 2016.
Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2, 2017.
Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017.
Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint arXiv:1703.10722, 2017.
Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.
Minh-Thang Luong, Quoc V. Le, Ilya Sutskever, Oriol Vinyals, and Lukasz Kaiser. Multi-task sequence to sequence learning. arXiv preprint arXiv:1511.06114, 2015.
Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025, 2015.
Mitchell P Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini. Building a large annotated corpus of english: The penn treebank. Computational linguistics, 19(2):313–330, 1993.
David McClosky, Eugene Charniak, and Mark Johnson. Effective self-training for parsing. In Proceedings of the Human Language Technology Conference of the NAACL, Main Conference, pages 152–159. ACL, June 2006.
Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model. In Empirical Methods in Natural Language Processing, 2016.
Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive summarization. arXiv preprint arXiv:1705.04304, 2017.
Slav Petrov, Leon Barrett, Romain Thibaux, and Dan Klein. Learning accurate, compact, and interpretable tree annotation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 433–440. ACL, July 2006.
Ofir Press and Lior Wolf. Using the output embedding to improve language models. arXiv preprint arXiv:1608.05859, 2016.
Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017.
Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15(1):1929–1958, 2014.
Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. End-to-end memory networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 2440–2448. Curran Associates, Inc., 2015.
Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014.
Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015.
Vinyals & Kaiser, Koo, Petrov, Sutskever, and Hinton. Grammar as a foreign language. In Advances in Neural Information Processing Systems, 2015.
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.
Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent models with fast-forward connections for neural machine translation. CoRR, abs/1606.04199, 2016.
Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang, and Jingbo Zhu. Fast and accurate shift-reduce constituent parsing. In Proceedings of the 51st Annual Meeting of the ACL (Volume 1: Long Papers), pages 434–443. ACL, August 2013.

附录：Attention 的可视化 Attention 机制学习长距离依赖的例子

Figure 3：一个 attention 机制跟踪长距离依赖的例子，来自第 5 层（总共 6 层）中的 encoder self-attention。

这里只展示了 ‘making’ 的 attention。

不同颜色代表不同的 attention head。
可以看到，多个 attention head 都在关注动词 “making” 的 distant dependency，一起凑成短语 "making … more difficult"。

代词解析（anaphora resolution）

这里展示两个 attention head，也在第 5 层（总共 6 层）中，显然涉及到了代词解析，

图 4：
（左）head 5 的完整 attention。
（右）：heads 5 和 6 针对 "its" 这个词的具体 attention。注意到，这个词的 attention 非常集中。

句子结构与 attention head 学习行为

许多 attention head 表现出与句子结构相关的行为。下面给出了两个这样的例子，来自第 5 层（总共 6 层）中的 encoder self-attention。这些 head 明显学会了执行不同的任务。

图 5：许多 attention head 表现出与句子结构相关的行为。

[译][论文] DeepSeek-R1：通过强化学习激励大模型的推理能力（DeepSeek，2024）

ARTHURCHIAO'S BLOG

7 months 3 weeks ago

译者序

本文翻译自 2024 年 DeepSeek AI 的 paper DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning。介绍了 DeepSeek 第一代推理模型（reasoning models） （所以缩写为 R1）的设计和训练过程：

Fig. How DeepSeek-R1-series models were trained.

要理解 DeepSeek-R1 的创新之处，可以先阅读如何训练一个企业级 GPT 助手（OpenAI，2023），里面介绍了典型的大模型训练 pipeline，其中包括预训练、SFT、RM、RL等步骤。

OpenAI：训练一个 GPT 助手的流程

DeepSeek-R1-Zero 的创新之处在于完全跳过了 SFT 步骤，直接在基座模型上进行大规模 RM+RL 训练，性能达到了 OpenAI-o1-0912 的水平。
- LLaMA 2：开放基础和微调聊天模型（Meta/Facebook，2023）对基于人类反馈的强化学习（HFRL）有较详细的介绍，DeepSeek 这里用的 RL 没有 HF，离 AGI 更进了一步。
- 更详细的 HFRL 可介绍可以参考 InstructGPT：基于人类反馈训练语言模型遵从指令的能力（OpenAI，2022），
InstructGPT 三部曲：(1) SFT, (2) RM training, (3) RLHF via proximal policy optimization (PPO) on RM.
蓝色箭头表示相应的数据用于训练模型。Step 2 中 A-D 是模型输出的采样，然后标注员对它们进行排序。
为了解决 DeepSeek-R1-Zero 存在的一些问题（可读性差，语言混用），又引入了少量的 SFT 数据作为冷启动，再参考 R1-Zero 的过程，训练了 DeepSeek-R1，在推理任务上的表现与 OpenAI-o1-1217 不相上下。
将 DeepSeek-R1 的推理能力蒸馏到 Qwen/LLaMA 等小型 dense 模型上，性能也很好。

总结下和 OpenAI 的性能对标：

DeepSeek Models OpenAI Models DeepSeek-R1-Zero OpenAI-o1-0912 DeepSeek-R1 OpenAI-o1-1217 DeepSeek-R1 Distilled Models OpenAI-o1-mini

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

以下是译文。

译者序
摘要
1 引言
2 方法
3 实验（略）
- 3.1 DeepSeek-R1 评估
- 3.2 蒸馏模型评估
4 讨论
- 4.1 蒸馏与强化学习的性能对比
- 4.2 失败的尝试
  - 4.2.1 Process Reward Model (PRM)
  - 4.2.2 Monte Carlo Tree Search (MCTS)
5 结论、局限性和未来工作
参考文献

本文介绍我们的第一代推理模型，DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero
- 这是一个跳过监督微调（SFT）步骤，直接通过大规模强化学习（RL）训练得到的模型，具备卓越的推理能力。
  
  译注：下图来自如何训练一个企业级 GPT 助手（OpenAI，2023），展示了 OpenAI 从预训练开始逐步训练出一个 GPT 助手的步骤， pre-training -> SFT -> RM -> RL 也是典型的大模型训练过程。 R1-Zero 是在 DeepSeek-V3 基座大模型上直接进行 RM+RL，跳过中间的 SFT，
  
  OpenAI：训练一个 GPT 助手的流程
- 通过大规模 RL，DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。不过，它也存在可读性差、混用语言等问题。
DeepSeek-R1
- 为了解决以上提到的 R1-Zero 存在的问题，并进一步提升推理性能，在 RL 阶段之前引入了多阶段训练和冷启动数据，训练得到的模型称为 DeepSeek-R1。
- DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 不相上下。
  
  Figure 1 | Benchmark performance of DeepSeek-R1.

为了支持研究社区，我们此次开源了 8 个推理模型：

DeepSeek-R1
DeepSeek-R1-Zero
DeepSeek-R1-Distill-Llama-70B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-1.5B

其中，后面 6 个是以 Qwen/Llama 作为基座模型，利用 DeepSeek-R1 蒸馏出来的 dense 模型。

1 引言

近年来，大模型的迭代与演进速度非常快（OpenAI, 2024a；Anthropic, 2024；Google, 2024）。

1.0 Post-Training：完整 training pipeline 的重要组成部分

现在，post-training 已成为完整 training pipeline 的一个重要组成部分。

1.0.1 作用

Post-Training 的好处：

提高推理任务的准确性，
与人类社会价值观对齐，
能适应用户偏好，
相对于预训练，所需的计算资源极少。

1.0.2 提高推理能力：与 OpenAI-o1 的思路区别

具体到提高推理能力方面，

OpenAI 的 o1（OpenAI, 2024b）系列模型首次通过增加推理过程中的思维链长度（Chain-of-Thought, CoT）来引入 inference-time scaling。这种方法在数学、编码和科学推理等推理任务上取得了显著的效果。
但是，有效的 test-time scaling 仍然是社区的一个开放性问题。此前，业界已经探索了很多方法，包括 process-based reward models (Uesato et al., 2022; Lightman et al., 2023; Wang et al., 2023), reinforcement learning (Kumar et al., 2024), and search algorithms such as Monte Carlo Tree Search and Beam Search (Feng et al., 2024; Xin et al., 2024; Trinh et al., 2024)，但这些方法都没有达到与 OpenAI o1 相当的通用推理性能。

本文迈出了通过纯强化学习（pure RL）提高模型推理能力的第一步。

我们的目标是探索大模型在没有任何监督数据的情况下 —— 单纯通过 RL 过程自我进化 —— 发展出推理能力的潜力。
具体来说，我们使用 DeepSeek-V3-Base 作为基础模型，采用 GRPO（Shao 等，2024）作为 RL 框架，来提高模型在推理方面的表现。
在训练过程中，DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。经过几千步的 RL 训练后， DeepSeek-R1-Zero 在推理基准测试中表现出色。例如，AIME 2024 的 pass@1 得分从 15.6% 提高到 71.0%，加上多数投票，得分进一步提高到 86.7%，与 OpenAI-o1-0912 表现相当。

然而，DeepSeek-R1-Zero 面临着诸如可读性差、语言混用等挑战。为了解决这些问题并进一步提升推理性能，我们引入了少量的冷启动数据和一个 multi-stage training pipeline，训练得到 DeepSeek-R1，其性能与 OpenAI-o1-1217 相当。

最后，我们还进一步探索了从 DeepSeek-R1 蒸馏较小的 dense models。例如，使用 Qwen2.5-32B（Qwen, 2024b）作为基础模型，两种思路：

直接在 Qwen-32B 上进行强化学习（RL），得到一个推理模型；
从 DeepSeek-R1 进行蒸馏（把 DeepSeek-R1 的知识“传授”给 Qwen2.5-32B），得到一个推理模型；

我们发现后者（蒸馏）的性能优于前者（直接 RL）。这表明尺寸更大的基础模型发现的推理模式对于提高推理能力至关重要。

我们开源了基于 Qwen/Llama（Dubey 等，2024）的蒸馏模型。值得注意的是，我们蒸馏出的 14B 模型在 AIME 2024 上的表现大幅超过了现有的开源模型 QwQ-32B-Preview（Qwen, 2024a），而蒸馏出的 32B 和 70B 模型在针对 dense models 的推理基准测试中创下了新纪录。

1.1 贡献 1.1.1 post-training：在基础模型上进行大规模强化学习

我们跳过监督微调（SFT）步骤，直接在基础模型（base model）上应用 RL。这会使模型去探索解决复杂问题时的思维链（CoT），用这种方式训练得到的就是 DeepSeek-R1-Zero。

DeepSeek-R1-Zero 展现出自我验证、反思和生成长 CoT 等能力，为社区研究树立了一个重要的里程碑。
值得注意的是，这是首个证实大模型的推理能力可以通过纯 RL 激励实现（无需 SFT）的公开研究，这一突破为该领域的未来发展铺平了道路。

此外，我们还介绍了开发 DeepSeek-R1 的 pipeline。

Fig. How DeepSeek-R1-Zero and DeepSeek-R1 were trained (based on the same base model).

该 pipeline 包含，

两个 RL stage
- 一个用于发现更强的推理模式（stage 2）
- 一个用于与人类偏好对齐（stage 4）
两个 SFT stage：用于激发出模型的 reasoning and non-reasoning 能力。

1.1.2 蒸馏：小型模型也可以很强大

我们证明了大型模型的推理模式可以被蒸馏到小型模型中，

与在小型模型上进行 RL 发现的推理模式相比，蒸馏可以取得更好的性能。
开源的 DeepSeek-R1 及其 API 将有助于社区在未来蒸馏出更好的小模型。

利用 DeepSeek-R1 生成的推理数据，我们微调了几个在社区中广泛使用的小型 dense 模型。结果显示，这些经过蒸馏的小型 dense model 在基准测试中表现非常好。

DeepSeek-R1-Distill-Qwen-7B achieves 55.5% on AIME 2024, surpassing QwQ-32B-Preview.
DeepSeek-R1-Distill-Qwen-32B scores 72.6% on AIME 2024, 94.3% on MATH-500, and 57.2% on LiveCodeBench.
These results significantly outperform previous open-source models and are comparable to o1-mini.

1.2 性能评估结果 1.2.1 推理任务

DeepSeek-R1 achieves a score of 79.8% Pass@1 on AIME 2024, slightly surpassing OpenAI-o1-1217. On MATH-500, it attains an impressive score of 97.3%, performing on par with OpenAI-o1-1217 and significantly outperforming other models.
On coding-related tasks, DeepSeek-R1 demonstrates expert level in code competition tasks, as it achieves 2,029 Elo rating on Codeforces outperforming 96.3% human participants in the competition. For engineering-related tasks, DeepSeek-R1 performs slightly better than DeepSeek-V3, which could help developers in real world tasks.

1.2.2 知识

On benchmarks such as MMLU, MMLU-Pro, and GPQA Diamond, DeepSeek-R1 achieves outstanding results, significantly outperforming DeepSeek-V3 with scores of 90.8% on MMLU, 84.0% on MMLU-Pro, and 71.5% on GPQA Diamond. While its performance is slightly below that of OpenAI-o1-1217 on these benchmarks, DeepSeek-R1 surpasses other closed-source models, demonstrating its competitive edge in educational tasks. On the factual benchmark SimpleQA, DeepSeek-R1 outperforms DeepSeek-V3, demonstrating its capability in handling fact-based queries. A similar trend is observed where OpenAI-o1 surpasses 4o on this benchmark.

1.2.3 其他

DeepSeek-R1 also excels in a wide range of tasks, including creative writing, general question answering, editing, summarization, and more. It achieves an impressive length-controlled win-rate of 87.6% on AlpacaEval 2.0 and a win-rate of 92.3% on ArenaHard, showcasing its strong ability to intelligently handle non-exam-oriented queries. Additionally, DeepSeek-R1 demonstrates outstanding performance on tasks requiring long-context understanding, substantially outperforming DeepSeek-V3 on long-context benchmarks.

2 方法 2.1 概述

以往的研究重度依赖于大量的监督数据（人类标注数据）来提升模型性能。本文的研究证明：

不使用监督微调（SFT），单纯通过大规模强化学习（RL）也能显著提升推理能力。
通过引入少量冷启动数据（SFT 训练数据），还可以进一步增强性能。

2.2 DeepSeek-R1-Zero：在基础模型（base model）上进行强化学习

之前的研究（Wang 等，2023；Shao 等，2024）已经证明，强化学习对提高推理性能非常有用。但是，这些前期研究都重度依赖监督数据，而收集监督数据是个费事费力的过程。

本节探索在没有任何监督数据的情况下（单纯通过 RL 过程自我进化），大模型发展出推理能力的过程。

2.2.1 强化学习算法：Group Relative Policy Optimization (GRPO)

为了降低 RL 训练成本，我们采用了 GRPO（组相对策略优化）算法（Shao 等，2024），该方法放弃了 critic model（通常尺寸与 policy model 大小相同），而是用 group scores 来估计基线。

具体来说，对于每个问题 $q$, GRPO 从老的 policy $\pi_{\theta_{old}}$ 中采样得到一组输出 ${o_1, o_2, \cdots, o_G}$，然后用下面的目标函数优化 policy model $\pi_{\theta}$：

2.2.2 奖励建模（Reward Modeling）：rule-based reward system

奖励是 training signal 的来源，它决定了强化学习的优化方向。训练 DeepSeek-R1-Zero 时，我们采用了一个基于规则的奖励系统（rule-based reward system），该系统主要由两种类型的奖励组成。

类型一：准确性奖励（Accuracy rewards）

准确性奖励模型评估响应是否正确（whether the response is correct）。例如，

对于具有确定性结果的数学问题，要求模型以指定格式提供最终答案，从而能可靠地基于规则验证正确性。
对于 LeetCode 问题，可以使用编译器对生成的程序进行编译，然后运行预定义的测试用例。

类型二：格式奖励（Format rewards）

我们还采用了一个格式奖励模型，强制推理模型将其思考过程放在 <think> 和 </think> tag 内。

这里没有使用结果或过程神经奖励模型（outcome or process neural reward model），因为我们发现神经奖励模型可能会在大规模强化学习过程中出现 reward hacking 行为，并且重新训练奖励模型需要额外的训练资源，也会使整个训练流程变得更加复杂。

2.2.3 训练模板（提示词模板）

我们设计了一个简单直白的模板，指导基础模型遵循我们的具体指令。如表 1 所示，

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant: 表 1：DeepSeek-R1-Zero 的模板。在训练期间，将用具体的推理问题替换提示。

可以看到，这个模板要求 DeepSeek-R1-Zero 首先生产一个推理过程，然后再给出最终答案。我们有意将约束限制在这一结构内，避免任何 content-specific biases —— 例如，mandating reflective reasoning or promoting particular problem-solving strategies —— 以确保我们能够准确地观察模型在 RL 过程中的自然进化。

2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻性能

下图展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试中的性能轨迹，

Figure 2:AIME accuracy of DeepSeek-R1-Zero during training. For each question, we sample 16 responses and calculate the overall average accuracy to ensure a stable evaluation.

可以看到，随着 RL 训练的进行，DeepSeek-R1-Zero 的性能稳步提升。 AIME 2024 pass@1 得分从 15.6% 跃升至 71.0%，达到了与 OpenAI-o1-0912 相当的性能水平，说明了我们的 RL 算法在优化模型性能方面的有效性。

表 2 是 DeepSeek-R1-Zero 与 OpenAI o1-0912 在多种推理基准测试上的性能对比，

表 2：DeepSeek-R1-Zero 与 OpenAI o1 在推理相关基准测试上的性能对比。

几点结论，

通过 RL，DeepSeek-R1-Zero 能够在无需任何监督微调数据的情况下获得强大的推理能力，也就是说模型仅通过 RL 就能有效学习和泛化。
DeepSeek-R1-Zero 的性能还可以通过多数投票（majority voting）进一步提升。例如，在 AIME 基准测试中采用多数投票时，DeepSeek-R1-Zero 的性能从 71.0% 上升至 86.7%，超过了 OpenAI-o1-0912 的性能。
DeepSeek-R1-Zero 在有无多数投票的情况下都能取得如此高的性能，突显了其强大的基础能力以及在推理任务中进一步发展的潜力。

自我进化过程

DeepSeek-R1-Zero 的自我进化过程非常好地展示了强化学习是如何驱动模型自主提升推理能力的。

直接从基础模型启动 RL 训练，使得我们免受监督微调（SFT）阶段的影响，从而能直观监测模型的进化过程。
这种方法为我们提供了一个观察模型随时间演变的清晰视角，特别是在处理复杂推理任务方面。

Figure 3:The average response length of DeepSeek-R1-Zero on the training set during the RL process. DeepSeek-R1-Zero naturally learns to solve reasoning tasks with more thinking time.

如图 3 所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中呈现出持续改进（增加）的趋势。

这种进步并非外部调整的结果，而是模型内部的自然发展。
DeepSeek-R1-Zero 自然获得了通过增加 test-time computation 来解决越来越复杂的推理任务的能力。
这里所说的 computation 是指生成几百到几千个不等的推理 token，使模型能够更深入地探索和完善其思考过程。

随着 test-time computation 的增加，这种自我进化过程中最显著的方面之一是出现了复杂行为。例如，观察到下面两个行为同时自发出现了，

反思行为：模型重新审视和评估自己先前的步骤
模型主动探索解决问题的替代方法

这些行为并非明确编程的结果，而是模型与强化学习环境互动的结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

顿悟时刻

在 DeepSeek-R1-Zero 的训练过程中，观察到的一个奇特现象是所谓的 “顿悟时刻”。如表 3 所示，

Table 3:An interesting “aha moment” of an intermediate version of DeepSeek-R1-Zero. The model learns to rethink using an anthropomorphic tone. This is also an aha moment for us, allowing us to witness the power and beauty of reinforcement learning.

这一时刻出现在模型的一个中间版本中。在这个阶段，DeepSeek-R1-Zero 学会了通过重新评估其初始处理方法，为问题分配更多的思考时间。这种行为不仅是模型逐步增长的推理能力的证明，也是强化学习能够带来意外且复杂结果的一个迷人例证。

这对于模型和观察其行为的研究者来说都是一个 “顿悟时刻”，它凸显了强化学习的力量和美感：

我们并没有明确地教导模型如何解决问题，而是仅仅提供了正确的激励，模型便能够自主地发展出高级的问题解决策略。
“顿悟时刻” 有力地提醒了我们 RL 激发人工智能系统新智能水平的潜力，为未来更具自主性和适应性的模型铺平了道路。

缺点和解决方式

尽管 DeepSeek-R1-Zero 展示了强大的推理能力，并且能够自主发展出意外且强大的推理行为，但它也面临一些问题。例如，DeepSeek-R1-Zero 遇到了诸如可读性差、语言混用等挑战。为了使推理过程更具可读性，我们探索了 DeepSeek-R1。

2.3 DeepSeek-R1：带冷启动的强化学习

DeepSeek-R1-Zero 的结果令人鼓舞，关于如何进一步提升性能，自然会产生两个问题：

引入少量高质量数据作为冷启动，是否可以进一步提升推理性能或加速收敛？
如何训练一个用户友好的模型，该模型不仅能够产生清晰连贯的思维链（CoT），而且还能展现出强大的通用能力？

为了回答这些问题，我们设计了一个新的 pipeline，训练得到的模型称为 DeepSeek-R1。

该 pipeline 包含四个阶段。

2.3.1 阶段一：冷启动

为了避免从基础模型直接开始 RL 训练导致的不稳定冷启动阶段，我们构建了一定量的长 CoT 数据集并对模型进行微调（SFT），得到一个 initial RL actor。

数据源

几种方式：

提供一个 CoT 作为示例，然后使用 few-shot prompting 生成更多例子；
直接提示模型（directly prompting models），让它生成带有反思和验证过程的详细回答；
收集 DeepSeek-R1-Zero 输出的一些回答，并通过人工标注对输出的质量进行增强。

我们收集了几千个冷启动数据，拿来微调 DeepSeek-V3-Base，得到的模型作为接下来的 RL 过程的起点。

冷启动数据的好处

冷启动数据的好处包括：

提升输出的可读性

DeepSeek-R1-Zero 的主要问题之一是输出的内容经常可读性很差。可能会混杂多种语言，或者不是 markdown 格式，无法高亮一些重点。

因此，在为 DeepSeek-R1 创建冷启动数据时，我们设计了一种可读性很好的格式，在每个响应的末尾包含一个总结，并过滤出对读者不友好的响应。在这里，我们定义输出格式为 |special_token|<reasoning_process>|special_token|<summary>，其中 <reasoning_process> 是用户输入的 query 对应的 CoT（推理过程），而 <summary> 用于总结推理结果。
潜力
- 基于人的先验知识（human priors）精心设计冷启动数据，观察到训练出来的模型比 DeepSeek-R1-Zero 表现更好。
- 我们相信迭代式训练（iterative training）是很好的训练推理模型的方式。

2.3.2 阶段二：面向 reasoning 的强化学习

在使用冷启动数据对 DeepSeek-V3-Base 进行微调后，第二阶段的训练过程与 DeepSeek-R1-Zero 相同：使用大规模强化学习进行后训练。这一阶段专注于提升模型的 reasoning 能力，特别是在推理密集型任务中，如编码、数学、科学和逻辑推理，这些任务具有明确定义的问题和解决方案。

在训练过程中，我们观察到 CoT 经常出现语言混用（language mixing），特别是在 RL 提示词涉及多种语言时。为了缓解这个问题，我们在 RL 训练中引入了一种语言一致性奖励（language consistency reward），计算方式是 CoT 中目标语言单词的比例（proportion of target language words in the CoT）。尽管消融实验表明，这种对齐会导致模型性能略有下降，但这种奖励与人类偏好一致，使其更具可读性。

最后，我们直接将推理任务的准确性与语言一致性奖励相加来形成最终奖励。然后，我们在微调后的模型上应用 RL 训练，直到它在推理任务上收敛。

这个阶段的 RL 收敛时，保存一个 checkpoint 供第三阶段使用。

2.3.3 阶段三：拒绝采样和监督微调

Rejection sampling is a technique where the LLM generates multiple candidate answers and then filters out those that do not meet certain criteria, retaining only the “good” results。It is used to enhance the quality and reliability of the model’s outputs, making them more aligned with desired standards or distributions

更多信息，可参考 LLaMA 2：开放基础和微调聊天模型（Meta/Facebook，2023），里面对 rejection sampling 有较详细的介绍。

译注。

利用第二阶段的 checkpoint 收集 SFT（监督微调）数据。

初始冷启动数据主要关注推理，而这一阶段则纳入了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说，我们按照以下方式生成数据并微调模型。

推理数据（Reasoning data）：600k

人工整理一批推理提示词，从上述 RL 训练的 checkpoint 进行拒绝采样来生成推理轨迹。

在第二阶段，我们只纳入了可以使用基于规则的奖励进行评估的数据。

在这一阶段，

引入额外数据来扩展数据集，其中一些数据使用生成式奖励模型 —— 将事实和模型预测输入 DeepSeek-V3 进行判断。
由于模型输出有时会杂乱无章且难以阅读，我们会过滤掉带有混合语言、冗长段落和代码块的思维链。
对于每个提示，我们采样多个响应，并且只保留正确的响应。

总共，我们收集了大约 600k 个与推理相关的训练样本。

非推理数据（Non-Reasoning data）：200k

对于非推理数据，如写作、事实问答、自我认知和翻译，我们采用 DeepSeek-V3 pipeline，并复用 DeepSeek-V3 的一部分 SFT 数据集。

对于某些非推理任务，我们调用 DeepSeek-V3 来生成一个潜在的思维链，然后通过提示回答问题。
对于更简单的查询，如 “hello”，我们不会在响应中提供 CoT。

最终，我们收集了总共大约 200k 个与推理无关的训练样本。

我们使用上述整理的数据集（约 800k 样本）对 DeepSeek-V3-Base 进行了两个 epoch 的微调。

2.3.4 阶段四：所有场景的强化学习

为了进一步使模型与人类偏好对齐，我们又进行了一轮强化学习，在完善模型推理能力的同时，提高模型的有用性和无害性（helpfulness and harmlessness）。

Fig. How DeepSeek-R1-Zero and DeepSeek-R1 were trained (based on the same base model).

具体来说，我们组合使用 reward signals 和多样化的 prompt distributions 来训练模型。

对于推理数据，遵循 DeepSeek-R1-Zero 中的方法，利用基于规则的奖励来指导数学、编码和逻辑推理领域的学习过程。
对于通用数据，借助奖励模型，以捕捉复杂微妙场景中的人类偏好。我们基于 DeepSeek-V3 pipeline，并采用类似的偏好对和训练提示分布。
对于有用性，仅关注最终总结，确保评估强调响应对用户的实用性和相关性，同时尽量减少对底层推理过程的干扰。
对于无害性，评估模型的整个响应，包括推理过程和总结，以识别和减轻在生成过程中可能出现的任何潜在风险、偏见或有害内容。

这些方式组合起来，最终使我们训练出一个在推理方面表现出色、同时还会优先考虑有用性和无害性的模型。

2.4 蒸馏：赋予小型模型推理能力

为了使小型模型具备类似 DeepSeek-R1 的推理能力，我们直接用 DeepSeek-R1 生成的 800k 样本对开源模型进行微调。

我们的研究发现，这种直接蒸馏的方法能显著提升小型模型的推理能力。我们使用的基础模型包括：

Qwen2.5-Math-1.5B
Qwen2.5-Math-7B
Qwen2.5-14B
Qwen2.5-32B
Llama-3.1-8B
Llama-3.3-70B-Instruct。选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。

蒸馏过程：在以上基础模型上进行监督微调（SFT），

这里不再进行强化学习（RL），尽管叠加 RL 可能会进一步提升模型性能。
我们的主要目的是展示蒸馏技术的有效性，叠加 RL 阶段的探索就留给更社区研究。

3 实验（略） 3.1 DeepSeek-R1 评估 3.2 蒸馏模型评估 4 讨论 4.1 蒸馏与强化学习的性能对比

前面已经看到，通过蒸馏 DeepSeek-R1，小型模型可以取得非常好的效果。但这里还有一个问题待解答：通过本文讨论的大规模 RL 对小模型训练，和蒸馏方式相比，哪个效果来的更好？

为了回答这个问题，我们在 Qwen-32B-Base 上进行了大规模 RL 训练，使用数学、编码和 STEM 数据，训练了超过 10K 步，得到了 DeepSeek-R1-Zero-Qwen-32B。两种方式得到的模型，性能对比如下，

Table 6:Comparison of distilled and RL Models on Reasoning-Related Benchmarks.

大规模 RL 训练的 32B 基础模型，在性能上与 QwQ-32B-Preview 相当。
从 DeepSeek-R1 蒸馏而来的模型，在所有基准测试中都显著优于 DeepSeek-R1-Zero-Qwen-32B。

因此，我们可以得出两个结论：

将更强大的模型蒸馏到小型模型中，可以让小模型获得出色的性能。对小型模型进行大规模 RL 也能取得不错的性能，但需要的算力比蒸馏要多很多，而且可能无法达到蒸馏取得的效果。
蒸馏是一种既经济又高效的方式，但要突破智能边界，可能仍需要更强大的基础模型和更大规模的强化学习。

4.2 失败的尝试

在开发 DeepSeek-R1 早期，我们也遇到了一些失败和挫折。这里分享一些失败经验，提供一些见解，但这并不意味着这些方法无法开发出有效的推理模型。

4.2.1 Process Reward Model (PRM)

PRM is a reasonable method to guide the model toward better approaches for solving reasoning tasks (Uesato et al., 2022; Lightman et al., 2023; Wang et al., 2023). However, in practice, PRM has three main limitations that may hinder its ultimate success. First, it is challenging to explicitly define a fine-grain step in general reasoning. Second, determining whether the current intermediate step is correct is a challenging task. Automated annotation using models may not yield satisfactory results, while manual annotation is not conducive to scaling up. Third, once a model-based PRM is introduced, it inevitably leads to reward hacking (Gao et al., 2022), and retraining the reward model needs additional training resources and it complicates the whole training pipeline. In conclusion, while PRM demonstrates a good ability to rerank the top-N responses generated by the model or assist in guided search (Snell et al., 2024), its advantages are limited compared to the additional computational overhead it introduces during the large-scale reinforcement learning process in our experiments.

4.2.2 Monte Carlo Tree Search (MCTS)

Inspired by AlphaGo (Silver et al., 2017b) and AlphaZero (Silver et al., 2017a), we explored using Monte Carlo Tree Search (MCTS) to enhance test-time compute scalability. This approach involves breaking answers into smaller parts to allow the model to explore the solution space systematically. To facilitate this, we prompt the model to generate multiple tags that correspond to specific reasoning steps necessary for the search. For training, we first use collected prompts to find answers via MCTS guided by a pre-trained value model. Subsequently, we use the resulting question-answer pairs to train both the actor model and the value model, iteratively refining the process.

However, this approach encounters several challenges when scaling up the training. First, unlike chess, where the search space is relatively well-defined, token generation presents an exponentially larger search space. To address this, we set a maximum extension limit for each node, but this can lead to the model getting stuck in local optima. Second, the value model directly influences the quality of generation since it guides each step of the search process. Training a fine-grained value model is inherently difficult, which makes it challenging for the model to iteratively improve. While AlphaGo’s core success relied on training a value model to progressively enhance its performance, this principle proves difficult to replicate in our setup due to the complexities of token generation.

In conclusion, while MCTS can improve performance during inference when paired with a pre-trained value model, iteratively boosting model performance through self-search remains a significant challenge.

5 结论、局限性和未来工作

In this work, we share our journey in enhancing model reasoning abilities through reinforcement learning. DeepSeek-R1-Zero represents a pure RL approach without relying on cold-start data, achieving strong performance across various tasks. DeepSeek-R1 is more powerful, leveraging cold-start data alongside iterative RL fine-tuning. Ultimately, DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on a range of tasks.

We further explore distillation the reasoning capability to small dense models. We use DeepSeek-R1 as the teacher model to generate 800K training samples, and fine-tune several small dense models. The results are promising: DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH. Other dense models also achieve impressive results, significantly outperforming other instruction-tuned models based on the same underlying checkpoints.

In the future, we plan to invest in research across the following directions for DeepSeek-R1.

General Capability: Currently, the capabilities of DeepSeek-R1 fall short of DeepSeek-V3 in tasks such as function calling, multi-turn, complex role-playing, and JSON output. Moving forward, we plan to explore how long CoT can be leveraged to enhance tasks in these fields.
Language Mixing: DeepSeek-R1 is currently optimized for Chinese and English, which may result in language mixing issues when handling queries in other languages. For instance, DeepSeek-R1 might use English for reasoning and responses, even if the query is in a language other than English or Chinese. We aim to address this limitation in future updates.
Prompting Engineering: When evaluating DeepSeek-R1, we observe that it is sensitive to prompts. Few-shot prompting consistently degrades its performance. Therefore, we recommend users directly describe the problem and specify the output format using a zero-shot setting for optimal results.
Software Engineering Tasks: Due to the long evaluation times, which impact the efficiency of the RL process, large-scale RL has not been applied extensively in software engineering tasks. As a result, DeepSeek-R1 has not demonstrated a huge improvement over DeepSeek-V3 on software engineering benchmarks. Future versions will address this by implementing rejection sampling on software engineering data or incorporating asynchronous evaluations during the RL process to improve efficiency.

参考文献

AI@Meta (2024) AI@Meta. Llama 3.1 model card, 2024. URL https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md .
Anthropic (2024) Anthropic. Claude 3.5 sonnet, 2024. URL https://www.anthropic.com/news/claude-3-5-sonnet .
Chen et al. (2021) M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. et al Evaluating large language models trained on code. , abs/2107.03374, 2021. URL https://arxiv.org/abs/2107.03374 .
Dubey et al. (2024) A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Dahle, A. Letman, A. Mathur, A. Schelten, A. Yang, A. Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783 , 2024.
Dubois et al. (2024) Y. Dubois, B. Galambosi, P. Liang, and T. B. Hashimoto. Length-controlled alpacaeval: A simple way to debias automatic evaluators. arXiv preprint arXiv:2404.04475 , 2024.
Feng et al. (2024) X. Feng, Z. Wan, M. Wen, S. M. McAleer, Y. Wen, W. Zhang, and J. Wang. Alphazero-like tree-search can guide large language model decoding and training, 2024. URL https://arxiv.org/abs/2309.17179 .
Gao et al. (2022) L. Gao, J. Schulman, and J. Hilton. Scaling laws for reward model overoptimization, 2022. URL https://arxiv.org/abs/2210.10760 .
Gema et al. (2024) A. P. Gema, J. O. J. Leang, G. Hong, A. Devoto, A. C. M. Mancino, R. Saxena, X. He, Y. Zhao, X. Du, M. R. G. Madani, C. Barale, R. McHardy, J. Harris, J. Kaddour, E. van Krieken, and P. Minervini. Are we done with mmlu? , abs/2406.04127, 2024. URL https://doi.org/10.48550/arXiv.2406.04127 .
Google (2024) Google. Our next-generation model: Gemini 1.5, 2024. URL https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024 .
He et al. (2024) Y. He, S. Li, J. Liu, Y. Tan, W. Wang, H. Huang, X. Bu, H. Guo, C. Hu, B. Zheng, et al. Chinese simpleqa: A chinese factuality evaluation for large language models. arXiv preprint arXiv:2411.07140 , 2024.
Hendrycks et al. (2020) D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300 , 2020.
Huang et al. (2023) Y. Huang, Y. Bai, Z. Zhu, J. Zhang, J. Zhang, T. Su, J. Liu, C. Lv, Y. Zhang, J. Lei, et al. C-Eval: A multi-level multi-discipline chinese evaluation suite for foundation models. arXiv preprint arXiv:2305.08322 , 2023.
Jain et al. (2024) N. Jain, K. Han, A. Gu, W. Li, F. Yan, T. Zhang, S. Wang, A. Solar-Lezama, K. Sen, and I. Stoica. Livecodebench: Holistic and contamination free evaluation of large language models for code. , abs/2403.07974, 2024. URL https://doi.org/10.48550/arXiv.2403.07974 .
Krishna et al. (2024) S. Krishna, K. Krishna, A. Mohananey, S. Schwarcz, A. Stambler, S. Upadhyay, and M. Faruqui. Fact, fetch, and reason: A unified evaluation of retrieval-augmented generation. , abs/2409.12941, 2024. 10.48550/ARXIV.2409.12941 . URL https://doi.org/10.48550/arXiv.2409.12941 .
Kumar et al. (2024) A. Kumar, V. Zhuang, R. Agarwal, Y. Su, J. D. Co-Reyes, A. Singh, K. Baumli, S. Iqbal, C. Bishop, R. Roelofs, et al. Training language models to self-correct via reinforcement learning. arXiv preprint arXiv:2409.12917 , 2024.
Li et al. (2023) H. Li, Y. Zhang, F. Koto, Y. Yang, H. Zhao, Y. Gong, N. Duan, and T. Baldwin. CMMLU: Measuring massive multitask language understanding in Chinese. arXiv preprint arXiv:2306.09212 , 2023.
Li et al. (2024) T. Li, W.-L. Chiang, E. Frick, L. Dunlap, T. Wu, B. Zhu, J. E. Gonzalez, and I. Stoica. From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline. arXiv preprint arXiv:2406.11939 , 2024.
Lightman et al. (2023) H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman, I. Sutskever, and K. Cobbe. Let’s verify step by step. arXiv preprint arXiv:2305.20050 , 2023.
Lin (2024) B. Y. Lin. ZeroEval: A Unified Framework for Evaluating Language Models, July 2024. URL https://github.com/WildEval/ZeroEval .
MAA (2024) MAA. American invitational mathematics examination - aime. In American Invitational Mathematics Examination - AIME 2024 , February 2024. URL https://maa.org/math-competitions/american-invitational-mathematics-examination-aime .
OpenAI (2024a) OpenAI. Hello GPT-4o, 2024a. URL https://openai.com/index/hello-gpt-4o/ .
OpenAI (2024b) OpenAI. Learning to reason with llms, 2024b. URL https://openai.com/index/learning-to-reason-with-llms/ .
OpenAI (2024c) OpenAI. Introducing SimpleQA, 2024c. URL https://openai.com/index/introducing-simpleqa/ .
OpenAI (2024d) OpenAI. Introducing SWE-bench verified we’re releasing a human-validated subset of swe-bench that more, 2024d. URL https://openai.com/index/introducing-swe-bench-verified/ .
Qwen (2024a) Qwen. Qwq: Reflect deeply on the boundaries of the unknown, 2024a. URL https://qwenlm.github.io/blog/qwq-32b-preview/ .
Qwen (2024b) Qwen. Qwen2.5: A party of foundation models, 2024b. URL https://qwenlm.github.io/blog/qwen2.5 .
Rein et al. (2023) D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, and S. R. Bowman. GPQA: A graduate-level google-proof q&a benchmark. arXiv preprint arXiv:2311.12022 , 2023.
Shao et al. (2024) Z. Shao, P. Wang, Q. Zhu, R. Xu, J. Song, M. Zhang, Y. Li, Y. Wu, and D. Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300 , 2024.
Silver et al. (2017a) D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre, D. Kumaran, T. Graepel, T. P. Lillicrap, K. Simonyan, and D. Hassabis. Mastering chess and shogi by self-play with a general reinforcement learning algorithm. , abs/1712.01815, 2017a. URL http://arxiv.org/abs/1712.01815 .
Silver et al. (2017b) D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. P. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel, and D. Hassabis. Mastering the game of go without human knowledge. , 550(7676):354–359, 2017b. 10.1038/NATURE24270 . URL https://doi.org/10.1038/nature24270 .
Snell et al. (2024) C. Snell, J. Lee, K. Xu, and A. Kumar. Scaling llm test-time compute optimally can be more effective than scaling model parameters, 2024. URL https://arxiv.org/abs/2408.03314 .
Trinh et al. (2024) T. Trinh, Y. Wu, Q. Le, H. He, and T. Luong. Solving olympiad geometry without human demonstrations. , 2024. 10.1038/s41586-023-06747-5 .
Uesato et al. (2022) J. Uesato, N. Kushman, R. Kumar, F. Song, N. Siegel, L. Wang, A. Creswell, G. Irving, and I. Higgins. Solving math word problems with process-and outcome-based feedback. arXiv preprint arXiv:2211.14275 , 2022.
Wang et al. (2023) P. Wang, L. Li, Z. Shao, R. Xu, D. Dai, Y. Li, D. Chen, Y. Wu, and Z. Sui. Math-shepherd: A label-free step-by-step verifier for llms in mathematical reasoning. arXiv preprint arXiv:2312.08935 , 2023.
Wang et al. (2022) X. Wang, J. Wei, D. Schuurmans, Q. Le, E. Chi, S. Narang, A. Chowdhery, and D. Zhou. Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171 , 2022.
Wang et al. (2024) Y. Wang, X. Ma, G. Zhang, Y. Ni, A. Chandra, S. Guo, W. Ren, A. Arulraj, X. He, Z. Jiang, T. Li, M. Ku, K. Wang, A. Zhuang, R. Fan, X. Yue, and W. Chen. Mmlu-pro: A more robust and challenging multi-task language understanding benchmark. , abs/2406.01574, 2024. URL https://doi.org/10.48550/arXiv.2406.01574 .
Xia et al. (2024) C. S. Xia, Y. Deng, S. Dunn, and L. Zhang. Agentless: Demystifying llm-based software engineering agents. arXiv preprint , 2024.
Xin et al. (2024) H. Xin, Z. Z. Ren, J. Song, Z. Shao, W. Zhao, H. Wang, B. Liu, L. Zhang, X. Lu, Q. Du, W. Gao, Q. Zhu, D. Yang, Z. Gou, Z. F. Wu, F. Luo, and C. Ruan. Deepseek-prover-v1.5: Harnessing proof assistant feedback for reinforcement learning and monte-carlo tree search, 2024. URL https://arxiv.org/abs/2408.08152 .
Zhou et al. (2023) J. Zhou, T. Lu, S. Mishra, S. Brahma, S. Basu, Y. Luan, D. Zhou, and L. Hou. Instruction-following evaluation for large language models. arXiv preprint arXiv:2311.07911 , 2023.

[译] AI Workflow & AI Agent：架构、模式与工程建议（Anthropic，2024）

ARTHURCHIAO'S BLOG

8 months 3 weeks ago

译者序

本文翻译自 2024 年 Anthropic（开发 Claude 大模型的公司）的一篇文章 Building Effective Agents。

Agents 只是一些“在一个循环中，基于环境反馈来选择合适的工具，最终完成其任务”的大模型。

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

以下是译文。

译者序
1 什么是 AI Agent/Workflow？
2 Workflow & Agent 的基础构建模块
3 Workflow
4 Agent
5 总结
致谢
附录 1：真实 Agent 举例
- A. AI 客服
- B. Coding Agent
附录 2：工具的提示词工程（Prompt engineering your tools）
- 输出格式的选择
- 建议

过去一年中，我们与几十个团队合作过，构建了很多不同行业的大模型 Agent。我们从中得到的经验是：成功的 Agent 并不是依靠复杂的框架或库，而是基于简单、可组合的模式逐步构建的。

本文总结我们在此过程中积累的一些 Agent 方法论，并给出一些实用的工程建议。

1 什么是 AI Agent/Workflow？

目前关于 AI Agent 并没有一个统一的定义：

有人将 Agent 定义为完全自主的系统，这些系统可以在较长时间内独立运行，使用各种工具来完成复杂任务。
有人则用这个术语来描述一种遵循预定义工作流的规范实现（prescriptive implementations that follow predefined workflows）。

在 Anthropic，我们将所有这些统一归类为 agentic systems。

1.1 Workflow vs. Agent

虽然统一称为“智能体系统”，但我们还是对 Workflow 和 Agent 做出了重要的架构区分，因此二者属于两类不同的系统：

Workflow：通过预定义的代码路径来编排大模型和和工具 （systems where LLMs and tools are orchestrated through predefined code paths）；
Agent：大模型动态决定自己的流程及使用什么工具，自主控制如何完成任务 （systems where LLMs dynamically direct their own processes and tool usage, maintaining control over how they accomplish tasks）。

1.2 何时使用/不使用 Agent & Workflow

在使用大模型构建应用程序时，我们建议寻找尽可能简单的方案，只有在必要时才增加复杂性。

这意味着如无必要，不要试图构建 Agent/Workflow。
Agent/Workflow 虽然在处理任务时效果更好，但通常也会有更高的延迟和成本，因此需要权衡利弊。

如果确实是要解决复杂场景的问题，

Workflow 为明确定义的任务提供了可预测性和一致性，
Agent 则在需要大规模灵活性和模型驱动的决策时是一个更好的选择。

但是，对于很多应用程序来说，大模型本身加上 RAG、in-context examples 等技术通常就足以解决问题了。

1.3 何时以及如何使用框架

许多框架可以简化 Agent/Workflow 的实现，包括：

LangGraph from LangChain;
Amazon Bedrock’s AI Agent framework;
Rivet, a drag and drop GUI LLM workflow builder; and
Vellum, another GUI tool for building and testing complex workflows.

这些框架通过简化标准的底层任务（如调用 LLM、定义和解析工具以及链接调用）使用户更容易入门。但是，它们通常会创建额外的抽象层，这可能会使底层的提示和响应变得难以调试，增加了不必要的复杂性。

我们建议开发者，

首选直接使用 LLM API：本文接下来介绍的许多模式几行代码就能实现；
如果确实要用框架，要确保理解这些框架的底层代码。对底层代码的错误假设是常见的问题来源。

1.4 一些例子

见 anthropic-cookbook。

2 Workflow & Agent 的基础构建模块 2.1 增强型大模型（augmented LLM）

如下图所示，Agent/Workflow 的基本构建模块是一个增强型大语言模型，

这个模型具有检索、工具和记忆等增强功能。模型可以主动使用这些功能，例如搜索查询、选择适当的工具、保存必要的信息到记忆模块中等等。

2.2 功能选型建议

关于以上提到的增强功能如何选择，我们有如下建议：

不是所有功能都需要用上，而应该根据你的实际需求，只保留最必要的部分；
尽量使用那些文档完善的组件，否则就是给自己挖坑。

最后，实现这些增强功能有很多方式，我们最近发布的 Model Context Protocol 也是其中一种。开发者只需要实现简单的客户端 client implementation，就能与不断增长的第三方工具生态系统进行集成。

2.3 小结

基于增强型大模型，我们就可以构建出各种 AI Workflow & Agent。

3 Workflow

本节来看一些常见的 AI Workflow 范式。

3.1 提示链（Prompt chaining）

提示链将任务分解为一系列顺序的子任务，

每个 LLM call 处理前一个 LLM call 的输出；
可以在中间任何步骤添加检查点（图中的 “Gate”），以确保处理过程仍在正轨上。

3.1.1 适用场景

适用于能干净地将任务分解为固定子任务的场景。

背后的逻辑：相比于一整个大任务，拆解后的每个 LLM call 都是一个准确率更高、延迟更低、更容易完成的任务。

3.1.2 场景举例生成营销文案

生成营销文案，然后将其翻译成不同的语言。

按大纲编写文档

首先编写文档大纲，确保大纲符合某些标准，然后根据大纲编写文档。

3.2 路由（Routing）

通过路由对输入进行分类，并将其转发到专门的后续任务（specialized followup task）。

将任务的关注点进行拆解，从而针对每个具体任务设计和调整提示词。
否则，（all-in-one）提示词不仅很长，而且针对任何一种任务的提示词优化都可能会导致其他任务的性能下降。

3.2.1 适用场景

适用于存在不同类别的复杂任务，而且这些类别分开处理时，都能得到更好的效果。
前提是能够准确分类，至于是使用大模型分类，还是使用传统模型/算法分类，关系不大。

3.2.2 场景举例智能客服

将不同类型的用户问题（一般问题、请求退款、技术支持）转发到不同的下游流程、提示和工具。

大小模型路由

将简单/常见问题路由到较小的模型，如 Claude 3.5 Haiku，将困难/不寻常问题路由到更强大的模型，如 Claude 3.5 Sonnet，以优化成本和速度。

3.3 并行化（Parallelization）

多个任务同时进行，然后对输出进行聚合处理。考虑两个场景：

分段（Sectioning）：类似 MapReduce，将任务分解为独立的子任务并行运行，最后对输出进行聚合。
投票（Voting）：相同的任务并行执行多次，以获得多样化的输出。

3.3.1 适用场景

分为两类：

并行化可以提高任务的最终完成速度，
需要多种视角或尝试，对所有结果进行对比，取最好的结果。

背后的逻辑：如果一个复杂任务需要考虑很多方面，那针对每个方面单独调用 LLM 效果通常会更好，因为每个 LLM 都可以更好地关注一个具体方面。

3.3.2 场景举例旁路安全检测

属于 Sectioning。

一个模型实例处理用户查询，另一个模型实例筛选是否包含不当的内容或请求。这通常比让同一个模型实例同时请求响应和安全防护效果更好。

大模型性能评估的自动化

属于 Sectioning。

针对给到的提示词，每个 LLM 调用评估模型不同方面的性能。

Code review

属于 voting。

几个不同的提示审查并标记代码，寻找漏洞。

生成的代码的质量评估

属于 voting。

评估输出的代码是否恰当：使用多个提示词，分别评估生成的代码的不同方面，或通过不同的投票阈值，以平衡误报和漏报（false positives and negatives）。

3.4 编排者-工作者（Orchestrator-workers）

在这种 Workflow 中，一个中心式 LLM 动态地分解任务，将其委托给 worker LLM，并汇总它们的结果。

3.4.1 适用场景

适用于无法预测所需子任务的复杂任务。例如，在编程中，修改的文件数量。

虽然在拓扑上与 Parallelization Workflow 相似，但关键区别在于其灵活性 —— 子任务不是预先定义的，而是由协调者/编排者根据特定输入确定的。

3.4.2 场景举例 Code review

编程产品：每次对多个文件（数量不确定）进行修改。

智能搜索

搜索任务：从多个来源收集和分析信息。

3.5 评估者-优化者（Evaluator-optimizer）

在这种 Workflow 中，一个 LLM call 生成响应，而另一个提供评估和反馈，形成一个闭环。

3.5.1 适用场景

有明确的评估标准，并且迭代式改进确实有效（可衡量）。

两个适用于此模式的标志，

当人类给出明确反馈时，LLM 响应可以明显改进；
LLM 也能提供此类反馈。

类似于作家写一篇文章并不断润色的过程。

3.5.2 场景举例文学翻译

承担翻译任务的 LLM 可能没有捕捉到细微差别，但承担评估任务的 LLM 可以提供有用的批评。

复杂的搜索任务

需要多轮搜索和分析以收集全面信息，评估者决定是否需要进一步搜索。

3.6 AI Workflow 小结

Workflow 是基于增强型大模型的一种应用形式，可以帮助用户将任务分解为更小的子任务，以便更好地处理。虽然 Workflow 也有一些动态的能力，例如路由和并行化，但这种程度的动态能力还是预定义的。下面将出场的 AI Agent，则在动态上与此完全不同了。

4 Agent

随着 LLM 在关键能力上的不断成熟 —— 理解复杂输入、进行推理和规划、可靠地使用工具以及自动从错误中恢复 —— 人们开始将 Agent 应用到生产环境中。

4.1 原理

Agent 一般从下面场景收到任务并开始执行：

收到明确的人类指令；
与人类交流到一定程度时，理解了自己接下来应该做什么。

一旦任务明确，Agent 就会独立规划和执行，中间也可能会问人类一些问题，以获取更多信息或帮助它自己做出正确判断。

在 Agent 执行过程中，对它来说最重要的是每一步执行之后，都能从环境中获得“真实信息”（例如工具调用或执行代码），以帮助它评估任务的进展。
Agent 可以在检查点或遇到障碍时暂停，然后向人类获取帮助。
任务通常在完成时终止，但也可以包括停止条件（例如最大迭代次数），以避免 Agent 行为不可控。

4.2 抽象层次：Agent vs. LLM

Agent 可以处理复杂的任务，但其实现通常很简单 —— 它们通常只是一些“在一个循环中，基于环境反馈来选择合适的工具，最终完成其任务的大模型”。因此，给 Agent 设计工具集时，其文档时必须清晰，否则这些工具大模型用起来可能会效果欠佳。

附录 2 介绍了工具开发的最佳实践。

4.3 何时使用 Agent

首先，必须对大模型的决策有一定程度的信任，否则就不要用 Agent 了。

其次，Agent 的自主性使它们非常适合在受信任的环境中执行任务。 Agent 的自主性质意味着更高的成本和潜在的错误累积。建议在沙箱环境中进行广泛测试，并设置适当的保护措施。

场景：难以或无法预测需要多少步的开放式问题，以及无法 hardcode 处理路径的情况。

4.4 Agent 设计三原则

在实现 Agent 时，建议遵循三个核心原则：

Agent 设计的简洁性。
Agent 工作过程的透明性，例如能明确显示 Agent 的规划和步骤。
通过完善的文档和测试，精心设计 Agent 与计算机之间的接口（agent-computer interfaces, ACI）。

开源框架可以帮助你快速入门，但落地生产时，要极力减少抽象层，尽量使用基本组件。遵循这些原则，就能创建出强大、可靠、可维护并受到用户信任的 Agent。

4.5 场景举例

我们自己的 Agent 例子：

一个解决 SWE-bench tasks 任务的 Coding Agent：会根据任务描述对多个文件进行编辑；
我们的 “computer use” reference implementation，其中 Claude 大模型使用计算机来完成任务。

5 总结

本文介绍的内容，不管是 Workflow 还是 Agent，都是一种模式，而不是规范，开发者可以组合和改造这些模式来实现自己的 AI 系统。成功的关键，是能衡量系统的性能，然后不断对实现进行改进和迭代。

大模型领域的成功并不是构建最复杂的系统，而是构建符合你需求的系统。从简单的提示词开始，不断评估和优化，只有在简单的解决方案真的解决不了问题时，才应该考虑引入 multi-step agentic systems。或者换句话说，只有在性能有明显改善时，才应该考虑增加复杂性。

致谢

Written by Erik Schluntz and Barry Zhang. This work draws upon our experiences building agents at Anthropic and the valuable insights shared by our customers, for which we’re deeply grateful.

附录 1：真实 Agent 举例

本附录介绍在我们的客户案例中，两个特别有价值的领域。

我们与客户的工作揭示了两个特别有前景的 AI Agent 应用，展示了上述模式的实际价值。这两个应用都说明了 Agent 在满足以下条件的任务中非常有价值：

require both conversation and action
have clear success criteria
enable feedback loops
integrate meaningful human oversight

A. AI 客服

AI 客服将聊天机器人与工具集成到一起。这是非常典型的开放式 Agent 场景，因为：

客服场景天然就是对话流程，同时需要访问外部信息和执行行动；
可以集成工具以获取客户数据、订单历史和知识库文章；
行动（如退款或更新工单）可以程序化处理；
通过用户反馈，可以明确衡量成功与否。

几家公司在 usage-based pricing models 中展示了这种方法的可行性，在这种定价模型中，他们仅在 AI 客服成功给出用户解决方案时才收费，显示出这些公司对这种 Agent 的效果非常有信心。

B. Coding Agent

软件开发领域展示了 LLM 功能的显著潜力，功能从代码补全发展到自主问题解决。 Agent 在编程领域特别有效，因为：

代码解决方案可以通过自动化测试来验证；
Agent 可以使用测试结果作为反馈来迭代解决方案；
问题空间是明确定义和结构化的；
输出质量可以客观衡量。

在我们自己的实现中，Agent 现在可以仅根据 Pull Request 描述，就能解决 SWE-bench Verified 中的真实 GitHub 问题。

不过，虽然自动化测试能验证功能，但还少不了人类 review，这对于确保解决方案与更系统要求的对齐至关重要。

附录 2：工具的提示词工程（Prompt engineering your tools）

无论构建哪种 Agent/Workflow ，工具很可能都是其中重要的组成部分。工具能让我们在使用 Claude 时，以标准 API 的方式指定工具的结构和定义，Claude 就能与外部服务和 API 进行交互。当 Claude 响应时，如果它计划调用工具，它将在 API 响应中包含一个 tool use block。

工具的定义和规范（tool definitions and specifications） 也需要提示工程，需要给到足够的关注度。

本附录接下来介绍如何通过提示工程来描述你的工具。

输出格式的选择

同一个 action，通常可以有不同的实现方式。例如，

修改文件：可以通过提供 diff，也可以直接重写整个文件；
结构化输出：可以用 markdown，也可以用 JSON 格式。

在软件工程中，这样的差异问题不大，几种格式都可以无损转换。但对于大模型来说，某些格式的输出比其他格式更难。例如，

输出 diff 格式，需要知道在新代码之前，前面改动了多少行；
输出 JSON 格式，需要额外处理字符转义问题（相比 markdown）。

建议

我们对工具输出格式的建议如下：

给模型足够的 token 来“思考”，从而避免它进入死胡同；
文本的输出格式，与此类文本在互联网上的常见格式保持一致，因为大模型就是在互联网数据上进行训练的；
确保没有任何格式“开销”（例如需要准确记录几千行代码，或对代码进行转义）。

一个经验法则：在人机界面（HCI）上投入了多少努力，就在 agent-computer interfaces（ACI）上投入同样多的努力。如何做到这一点：

换位思考，多站在模型的角度思考问题。
- 根据给定的描述和参数，作为自然人是一看就懂，还是需要思考一下才能判断？自然人是什么反应，模型也很可能是什么反应。
- 一个好的工具定义通常包括示例用法、边界情况、输入格式要求以及明确与其他工具的界限。
如何重命名参数或改进文档，使工具的描述更简洁直白？可以将这个过程当做为团队中的新人编写一个优秀的 docstring。当工具很多而且存在一些类似时，这一点尤其重要。
测试模型如何使用你的工具：运行一些示例输入，看看模型犯了什么错误，并进行迭代。
工具的防呆（Poka-yoke）。

我们在构建 SWE-benchAgent 时，实际上花在优化工具上的时间比在整体提示上的时间还要多。例如，我们发现模型在 Agent 移出根目录后仍然会使用相对文件路径，导致调用工具出错。为了解决这个问题，我们将工具的设计改为永远使用绝对文件路径。

[译] AI Agent（智能体）技术白皮书（Google，2024）

ARTHURCHIAO'S BLOG

9 months ago

译者序

本文翻译自 2024 年 Google 团队的一份 Agents 白皮书，作者 Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic。

Agent 可以理解为是一个扩展了大模型出厂能力的应用程序。

工具的使用，是人类区别于动物的标志 —— 也是 Agent 区别于大模型的标志。

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原文。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

以下是译文。

译者序
1 引言
- 1.1 人类的先验知识与工具的使用
- 1.2 人类的模仿者
2 什么是 Agent？
3 认知架构：Agent 是如何工作的
4 工具：模型通往现实世界的关键
5 通过针对性学习提升模型性能
6 基于 LangChain 快速创建 Agent
7 总结
参考资料

1 引言 1.1 人类的先验知识与工具的使用

人类能很好地处理复杂和微妙的模式识别任务。能做到这一点是因为，我们会通过书籍、搜索或计算器之类的工具来补充我们头脑中的先验知识，然后才会给出一个结论（例如，“图片中描述的是 XX”）。

1.2 人类的模仿者

与以上类似，我们可以对生成式 AI 模型进行训练，让它们能使用工具来在现实世界中获取实时信息或给出行动建议。例如，

利用数据库查询工具获取客户的购物历史，然后给出购物建议。
根据用户的查询，调用相应 API，替用户回复电子邮件或完成金融交易。

为此，模型不仅需要访问外部工具，还要能够自主规划和执行任务。这种具备了推理、逻辑和访问外部信息的生成式 AI 模型，就是 Agent 的概念；换句话说，Agent 是一个扩展了生成式 AI 模型出厂能力的程序。

2 什么是 Agent？ 2.1 概念：应用程序

宽泛地来说，生成式 AI Agent 可以被定义为一个应用程序，通过观察周围世界并使用可用的工具来实现其目标。

Agent 是有自主能力的（autonomous），只要提供了合适的目标，它们就能独立行动，无需人类干预；
即使是模糊的人类指令，Agent 也可以推理出它接下来应该做什么，并采取行动，最终实现其目标。

在 AI 领域，Agent 是一个非常通用的概念。本文接下来要讨论的 Agent 会更具体，指的是本文写作时，基于生成式 AI 模型能够实现的 Agents。

2.2 架构：cognitive architecture

为了理解 Agent 的内部工作原理，我们需要看看驱动 Agent 行为、行动和决策（behavior, actions, and decision making）的基础组件。

这些组件的组合实现了一种所谓的认知架构（cognitive architecture），通过这些组件可以实现许多这样的架构。我们后面还会就这一点展开讨论。

2.3 组件

Agent 架构中有三个核心组件，如图所示，

Figure 1. 典型 Agent 架构与组件。

2.3.1 模型（model）

这里指的是用作 Agent 中用来做核心决策的语言模型（LM）。

可以是一个或多个任何大小的模型，能够遵循基于指令的推理和逻辑框架，如 ReAct、Chain-of-Thought、Tree-of-Thoughts。
可以是通用的、多模态的，或根据特定 Agent 架构的需求微调得到的模型。
可以通过“能展示 Agent 能力的例子或数据集”来进一步微调模型，例如 Agent 在什么上下文中使用什么工具，或者执行什么推理步骤。

2.3.2 工具（tool）

基础模型在文本和图像生成方面非常强大，但无法与外部世界联动极大限制了它们的能力。工具的出现解决了这一问题。有了工具，Agent 便能够与外部数据和服务互动，大大扩展了它们的行动范围。

工具可以有多种形式，常见是 Web API 方式，即 GET、POST、PATCH 和 DELETE 方法。例如，结合用户信息和获取天气数据的 tool，Agent 可以为用户提供旅行建议。

有了工具，Agent 可以访问和处理现实世界的信息，这使它们能够支撑更专业的系统，如检索增强生成（RAG），显著扩展了 Agent 的能力。

2.3.3 编排层（orchestration）

编排层描述了一个循环过程：Agent 如何接收信息，如何进行内部推理，如何使用推理来结果来指导其下一步行动或决策。

一般来说，这个循环会持续进行，直到 Agent 达到其目标或触发停止条件。
编排层的复杂性跟 Agent 及其执行的任务直接相关，可能差异很大。例如，一些编排就是简单的计算和决策规则，而其他的可能包含链式逻辑、额外的机器学习算法或其他概率推理技术。

我们将在认知架构部分更详细地讨论 Agent 编排层的详细实现。

2.4 Agent 与 model 的区别

为了更清楚地理解 Agent 和模型之间的区别，这里整理个表格，

模型 Agent 知识范围知识仅限于其训练数据。通过工具连接外部系统，能够在模型自带的知识之外，实时、动态扩展知识。状态与记忆 无状态，每次推理都跟上一次没关系，除非在外部给模型加上会话历史或上下文管理能力。 有状态，自动管理会话历史，根据编排自主决策进行多轮推理。原生工具无。有，自带工具和对工具的支持能力。原生逻辑层无。需要借助提示词工程或使用推理框架（CoT、ReAct 等）来形成复杂提示，指导模型进行预测。有，原生认知架构，内置 CoT、ReAct 等推理框架或 LangChain 等编排框架。 3 认知架构：Agent 是如何工作的 3.1 类比：厨师做菜

想象厨房中一群忙碌的厨师。他们的职责是根据顾客的菜单，为顾客烹制相应的菜品。这就涉及到我们前面提到的“规划 —— 执行 —— 调整”循环。具体来说，厨师们需要执行以下步骤，

收集信息（输入）：顾客点的菜，后厨现有的食材等等；
推理（思考）：根据收集到的信息，判断可以做哪些菜；
做菜（行动）：包括切菜、加调料、烹炒等等。

在以上每个阶段，厨师都根据需要进行调整 —— 例如某些食材不够用了，或者顾客反馈好吃或难吃了 —— 进而不断完善他们的计划。这个信息接收、规划、执行和调整（information intake, planning, executing, and adjusting）的循环描述的就是一个厨师用来实现其目标的特定认知架构。

3.2 Agent 推理框架

跟以上厨师类似，Agent 也可以使用认知架构处理信息、做出决策，并根据前一轮的输出调整下一个行动，如此循环迭代来实现其最终目标。

在 Agent 中，认知架构的核心是编排层，负责维护记忆、状态、推理和规划（memory, state, reasoning and planning）。
它使用快速发展的提示词工程及相关框架（prompt engineering and associated frameworks）来指导推理和规划，使 Agent 能够更有效地与环境互动并完成任务。

在写作本文时，有下面几种流行的推理框架和推理技术。

3.2.1 ReAct

为语言模型提供了一个思考过程策略。

已经证明 ReAct 优于几个 SOTA 基线，提高了 LLM 的人机交互性和可信度。

3.2.2 Chain-of-Thought (CoT)

通过中间步骤实现推理能力。CoT 有各种子技术，包括自我一致性、主动提示和多模态 CoT，适合不同的场景。

3.2.3 Tree-of-Thoughts (ToT)

非常适合探索或战略前瞻任务。概括了链式思考提示，并允许模型探索各种思考链，作为使用语言模型解决问题的中间步骤。

3.3 ReAct 例子

Agent 可以使用以上一种或多种推理技术，给特定的用户请求确定下一个最佳行动。例如，使用 ReAct 的例子，

用户向 Agent 发送查询。
Agent 开始 ReAct sequence。
Agent 提示模型，要求其生成下一个 ReAct 步骤及其相应的输出：
1. 问题：提示词 + 用户输入的问题
2. 思考：模型的想法：下一步应该做什么
3. 行动：模型的决策：下一步要采取什么行动。这里就是可以引入工具的地方，例如，行动可以是 [Flights, Search, Code, None] 中的一个，前三个代表模型可以选择的已知工具，最后一个代表“无工具选择”。
4. 行动的输入：模型决定是否要向工具提供输入，如果要提供，还要确定提供哪些输入
5. 观察：行动/行动输入序列的结果。根据需要，这个思考/行动/行动输入/观察（thought / action / action input / observation）可能会重复 N 次。
6. 最终答案：模型返回对原始用户查询的最终答案。
ReAct 循环结束，并将最终答案返回给用户。

Figure 2. Example Agent with ReAct reasoning in the orchestration layer

如图 2 所示，模型、工具和 Agent 配置共同工作，根据用户的输入返回了一个有根据的、简洁的响应。虽然模型第一轮根据其先前知识猜了一个答案（幻觉），但它接下来使用了一个工具（航班）来搜索实时外部信息，从而能根据真实数据做出更明智的决策，并将这些信息总结回给用户。

总结起来，Agent 的响应质量与模型的推理能力和执行任务的能力直接相关，包括选择正确工具的能力，以及工具自身的定义的好坏（how well that tools has been defined）。就像厨师精选食材、精心做菜，并关注顾客的反馈一样，Agent 依赖于合理的推理和可靠的信息来提供最佳结果。

在下一节中，我们将深入探讨 Agent 与“新鲜”数据的各种连接方式。

4 工具：模型通往现实世界的关键

语言模型很擅长处理信息，但它们缺乏直接感知和影响现实世界的能力。在需要与外部系统或数据联动的情况下，这些模型的实用性就很低了。某种意义上说， 语言模型的能力受限于它们的训练数据中覆盖到的信息。

那么，如何赋予模型与外部系统进行实时、上下文感知的互动能力呢？目前有几种方式：

Functions
Extensions
Data Stores
Plugins

虽然名称各异，但它们都统称为工具（tools）。 工具是将基础模型与外部世界连接起来的桥梁。

能够连接到外部系统和数据之后，Agent 便能够执行更广泛的任务，并且结果更加准确和可靠。例如，工具使 Agent 能够调整智能家居设置、更新日程、从数据库中获取用户信息或根据特定指令发送电子邮件。

写作本文时，Google 模型能够与三种主要工具类型互动：Functions、Extensions、Data Stores。

配备了工具之后，Agent 不仅解锁了理解真实世界和在真实世界中做出行动的超能力，而且打开了各种新应用场景和可能性的大门。

4.1 工具类型一：extensions

在最简单的概念上： extension 是一种以标准化方式连接 API 与 Agent 的组件，使 Agent 能够调用外部 API，而不用管这些 API 背后是怎么实现的。

4.1.1 需求：预定航班的 Agent

假设你想创建一个帮用户预订航班的 Agent，并使用 Google Flights API 来搜索航班信息，但不确定如何让你的 Agent 调用这个 API。

Figure 3. How do Agents interact with External APIs?

4.1.2 实现方式一：传统方式，写代码解析参数

传统解决方式是写代码，从用户输入中解析城市等相关信息，然后调用 API。例如，

用户输入 “I want to book a flight from Austin to Zurich”（“我想从奥斯汀飞往苏黎世”）；我们的代码需要从中提取“Austin”和“Zurich”作为相关信息，然后才能进行 API 调用。
但如果用户输入“I want to book a flight to Zurich”，我们就无法获得出发城市信息，进而无法成功调用 API，所以需要写很多代码来处理边界 case。

显然，这种方法维护性和扩展性都很差。有没有更好的解决方式呢？这就轮到 exntension 出场了。

4.1.3 实现方式二：使用 Extension

Figure 4. Extensions connect Agents to External APIs

如上图所示，Extension 通过以下方式将 Agent 与 API 串起来：

提供示例信息教 Agent 如何使用 API。
告诉 Agent 调用 API 所需的具体参数。

Extension 可以独立于 Agent 开发，但应作为 Agent 配置的一部分。 Agent 在运行时，根据提供的示例和模型来决定使用哪个 extension 来处理用户的查询，这突出了 extension 的一个核心优势：built-in example types，允许 Agent 动态选择最适合所执行任务的 extension，如下图所示，

Figure 5. 1-to-many relationship between Agents, Extensions and APIs

4.1.4 Extension 示例

以 Google 的 Code Interpreter extension 作为例子，从自然语言描述生成和运行 Python 代码。

import vertexai import pprint PROJECT_ID = "YOUR_PROJECT_ID" REGION = "us-central1" vertexai.init(project=PROJECT_ID, location=REGION) from vertexai.preview.extensions import Extension extension_code_interpreter = Extension.from_hub("code_interpreter") CODE_QUERY = """Write a python method to invert a binary tree in O(n) time.""" response = extension_code_interpreter.execute( operation_id="generate_and_execute", operation_params={"query": CODE_QUERY} ) print("Generated Code:") pprint.pprint(response['generated_code'])

输出如下：

class TreeNode: def __init__(self, val=0, left=None, right=None): self.val = val self.left = left self.right = right def invert_binary_tree(root): """Inverts a binary tree.""" if not root: return None # Swap the left and right children recursively root.left, root.right = invert_binary_tree(root.right), invert_binary_tree(root.left) return root # Example usage: # Construct a sample binary tree root = TreeNode(4) root.left = TreeNode(2) root.right = TreeNode(7) root.left.left = TreeNode(1) root.left.right = TreeNode(3) root.right.left = TreeNode(6) root.right.right = TreeNode(9) # Invert the binary tree inverted_root = invert_binary_tree(root) 4.2 工具类型二：functions

在软件工程中，也就是我们日常写代码时，“函数”指的是自包含的代码模块，用于完成特定任务，并可以复用（被不同地方的代码调用）。软件工程师写程序时，通常会创建许多函数来执行各种任务，还会定义函数的预期输入和输出。

在 Agent 的世界中，函数的工作方式非常相似 —— 只是将“软件开发者”替换为“模型”。模型可以设置一组已知的函数，然后就可以根据规范决定何时使用哪个函数，以及函数需要哪些参数。

4.2.1 Function vs. Extension

还是以前面的 Google Flights 为例，可以看出 Function 与 Extension 的不同：

Figure 7. How do functions interact with external APIs?

模型只输出函数名及其参数信息，但不会执行函数；
函数在客户端执行。作为对比，Extension 在 Agent 端执行。见下图，

Figure 8. Delineating client vs. agent side control for extensions and function calling

4.2.2 例子：教模型结构化输出信息

考虑以下例子，实现一个 AI Traval Agent，它会与想要旅行的用户互动。我们的目标是让 Agent 生成一个城市列表，然后就可以下载相应城市的图片、数据等，以供用户旅行规划使用。

用户可能会说：
I’d like to take a ski trip with my family but I’m not sure where to go.
典型的模型输出可能如下：
Sure, here’s a list of cities that you can consider for family ski trips: - Crested Butte, Colorado, USA - Whistler, BC, Canada - Zermatt, Switzerland
虽然以上输出包含了我们需要的数据（城市名称），但格式不适合解析。通过 Function，我们可以教模型以结构化风格（如 JSON）输出，以便其他系统解析。例如，输出可能是下面这样，
{ "name": "display_cities", "args": { "cities": ["Crested Butte", "Whistler", "Zermatt"], "preferences": "skiing" } }

这个 Agent 应用的整体流程图如图 9 所示，

Figure 9. Sequence diagram showing the lifecycle of a Function Call

4.2.3 示例代码

Function 定义：

def display_cities(cities: list[str], preferences: Optional[str] = None): """Provides a list of cities based on the user's search query and preferences. Args: preferences (str): The user's preferences for the search, like skiing, beach, restaurants, bbq, etc. cities (list[str]): The list of cities being recommended to the user. Returns: list[str]: The list of cities being recommended to the user. """ return cities

接下来，初始化模型和工具，然后将用户的查询和工具传递给模型。

from vertexai.generative_models import GenerativeModel, Tool, FunctionDeclaration model = GenerativeModel("gemini-1.5-flash-001") display_cities_function = FunctionDeclaration.from_func(display_cities) tool = Tool(function_declarations=[display_cities_function]) message = "I’d like to take a ski trip with my family but I’m not sure where to go. " res = model.generate_content(message, tools=[tool]) print(f"Function Name: {res.candidates[0].content.parts[0].function_call.name}") print(f"Function Args: {res.candidates[0].content.parts[0].function_call.args}")

效果：

> Function Name: display_cities > Function Args: {'preferences': 'skiing', 'cities': ['Aspen', 'Vail', 'Park City']}

总结起来，Function 提供了一个简单的框架，使应用程序开发人员能够

对数据流和系统执行进行细粒度的控制，
利用 Agent 和模型生成结构化的信息，方便作为下一步的输入。

4.3 工具类型三：data storage

Figure 10. How can Agents interact with structured and unstructured data?

语言模型就像一个大图书馆，其中包含了其训练数据（信息）。但与真实世界的图书馆不同的是，这个图书馆是静态的 —— 不会更新，只包含其最初训练时的知识。而现实世界的知识是不断在演变的，所以静态模型在解决现实世界问题时就遇到了挑战。

Figure 11. Data Stores connect Agents to new real-time data sources of various types.

Data Storage 通过提供动态更新的信息来解决这一问题，

允许开发人员以原始格式向 Agent 提供增量数据，将传入的文档将被转换为一组向量数据库嵌入（embedding），Agent 可以使用这些 embedding 来提取信息。
使模型的返回更相关，更具实效性。
避免了微调甚至重新训练模型等重量级操作。

4.3.1 实现与应用

在生成式 AI 场景，Agent 使用的数据库一般是向量数据库 —— 它们以向量 embedding 的形式存储数据，这是一种高维向量或数学表示。

Figure 12. 1-to-many relationship between agents and data stores, which can represent various types of pre-indexed data

使用语言模型与 Data Storage 的最典型例子是检索增强生成（RAG）。 RAG 应用程序通过让模型访问各种格式的数据来扩展模型知识的广度和深度，如：

网站内容
结构化数据，如 PDF、Word 文档、CSV、电子表格等
非结构化数据，如 HTML、PDF、TXT 等

每个用户请求和 Agent 响应循环的基本过程通常如图 13 所示，

Figure 13. The lifecycle of a user request and agent response in a RAG based application

用户 query 送到 embedding 模型，生成 query 的 embedding 表示。
将 query embedding 与向量数据库的内容进行匹配，本质上就是在计算相似度。
将相似度最高的内容以文本格式发送回 Agent。
Agent 决定响应或行动。
最终响应发送给用户。

4.3.2 例子

图 14 是一个 RAG 与 ReAct 推理/规划的 Agent 示例，

Figure 14. Sample RAG based application w/ ReAct reasoning/planning

4.4 工具小结

总结来说，Extension、Function 和 Data Storage 是 Agent 在运行时可以使用的几种不同工具类型。每种工具都有其特定的用途，可以根据 Agent 开发人员的判断单独或一起使用。

Extensions Function Calling Data Stores Execution Agent-Side Execution Client-Side Execution Agent-Side Execution Use Case

开发人员希望 Agent 控制 API 的调用
使用 native pre-built Extensions (i.e., Vertex Search, Code Interpreter, etc.) 时比较有用
Multi-hop planning and API calling (i.e., 下一个 action 取决于前一个 action/API call 的输出)

安全或认证等原因，导致 Agent 无法直接调用 API 的场景
时序或者操作顺序限制，导致 Agent 无法直接事实调用 API 的场景，(i.e., batch operations, human-in-the-loop review, etc.)
API 没有暴露给公网，只能在内部使用的场景。

开发人员希望使用以下数据类型实现 RAG：
Website Content from pre-indexed domains and URLs
Structured Data in formats like PDF, Word Docs, CSV, Spreadsheets, etc.
Relational/Non-Relational Databases
Unstructured Data in formats like HTML, PDF, TXT, etc.

5 通过针对性学习提升模型性能

有效使用模型的一个关键是，让模型具备在生成输出时选择正确工具的能力。虽然一般训练有助于模型获得这种技能，但现实世界的场景通常需要超出训练数据的知识。这就像是掌握基本做菜技能和精通特定菜系之间的区别，两者都需要基础烹饪知识，但后者需要针对性学习以获得更好的垂类结果。

帮模型获得这种特定技能，有几种方法：

In-context learning
Retrieval-based in-context learning
Fine-tuning based learning

5.1 In-context learning, e.g. ReAct

基于上下文学习：

原理：还是使用通用模型，但在推理时为模型提供提示词、工具和示例，使模型其能够“即时学习”如何以及何时为特定任务使用这些工具。
例子：ReAct 框架。

5.2 Retrieval-based in-context learning, e.g. RAG

基于检索的上下文学习：

原理：这种技术通过从外部存储中检索相关信息、工具和示例来动态填充模型提示词。
例子：RAG 架构。

5.3 Fine-tuning based learning

基于微调的学习：

原理：用大量的特定示例对模型进行训练（微调/精调），然后用微调过的模型进行推理。
好处：微调之后的模型在处理请求之前，已经具备了何时以及如何使用某些工具的先验知识。

5.4 再次与“厨师做饭”做类比

最后与厨师做饭再做个类比，加深理解：

方式类比 In-context learning 厨师收到了一个特定的食谱（提示词）、一些食材（相关工具）和一些示例菜肴（少量示例）。基于这些信息和厨师已经具备的常规烹饪知识，“即时学习”如何准备最符合菜单和客户偏好的菜品。 Retrieval-based in-context learning 厨房里有一个储藏室（外部 Data Storage），里面有各种食材和食谱（示例和工具）。厨师可以从储藏室中自主选择更符合用户饮食偏好的食材和食谱，做出让用户更满意的菜品。 Fine-tuning based learning 把厨师送回学校学习新的菜系（在大量的特定示例数据集上进行训练）。如果希望厨师在特定菜系（知识领域）中表现出色，这种方法非常合适。

每种方法在速度、成本和延迟方面都各有优缺点，需要看实际需求组合使用。

6 基于 LangChain 快速创建 Agent

本节来看下如何基于 LangChain 和 LangGraph 构建一个 Agent 快速原型。这些开源库允许用户通过“串联”逻辑、推理和工具调用序列来构建客户 Agent。

6.1 代码 from langgraph.prebuilt import create_react_agent from langchain_core.tools import tool from langchain_community.utilities import SerpAPIWrapper from langchain_community.tools import GooglePlacesTool os.environ["SERPAPI_API_KEY"] = "XXXXX" os.environ["GPLACES_API_KEY"] = "XXXXX" @tool def search(query: str): """Use the SerpAPI to run a Google Search.""" search = SerpAPIWrapper() return search.run(query) @tool def places(query: str): """Use the Google Places API to run a Google Places Query.""" places = GooglePlacesTool() return places.run(query) model = ChatVertexAI(model="gemini-1.5-flash-001") tools = [search, places] query = "Who did the Texas Longhorns play in football last week? What is the address of the other team's stadium?" Agent = create_react_agent(model, tools) input = {"messages": [("human", query)]} for s in Agent.stream(input, stream_mode="values"): message = s["messages"][-1] if isinstance(message, tuple): print(message) else: message.pretty_print()

其中用到的工具包括：

SerpAPI（用于 Google 搜索）
Google Places API。

6.2 运行效果 =============================== Human Message ================================ Who did the Texas Longhorns play in football last week? What is the address of the other team's stadium? ================================= Ai Message ================================= Tool Calls: search Args: query: Texas Longhorns football schedule ================================ Tool Message ================================ Name: search {...Results: "NCAA Division I Football, Georgia, Date..."} ================================= Ai Message ================================= The Texas Longhorns played the Georgia Bulldogs last week. Tool Calls: places Args: query: Georgia Bulldogs stadium ================================ Tool Message ================================ Name: places {...Sanford Stadium Address: 100 Sanford...} ================================= Ai Message ================================= The address of the Georgia Bulldogs stadium is 100 Sanford Dr, Athens, GA 30602, USA

虽然这是一个很简单的 Agent，但它展示了模型、编排和工具等基础组件如何协同工作以实现特定目标。

6.3 使用 Google Vertex AI Agent 创建生产应用

最后，我们来看看这些组件如何在像 Vertex AI Agent 和生成式剧本这样的 Google 规模的托管产品中结合在一起。

Figure 15. Sample end-to-end agent architecture built on Vertex AI platform

7 总结

本文讨论了生成式 AI Agent 的基础构建模块及工作原理。一些关键信息：

Agent 可以利用工具来扩展语言模型的能力，
- 扩展的能力包括：访问实时信息、建议现实世界的行动以及自主规划和执行复杂任务。
- Agent 可以利用语言模型来决定何时以及如何转换状态，并使用外部工具完成任意数量的复杂任务，这些任务对于模型单独完成来说是困难甚至不可能的。
Agent 的核心是编排层，
- 这是一个认知架构，它结构化了推理、规划、决策并指导其行动。
- 各种推理技术，如 ReAct、Chain-of-Thought 和 Tree-of-Thoughts，为编排层提供了一个框架，以接收信息、进行内部推理并生成决策或响应。
工具作为 Agent 通往外部世界的关键，使 Agent 能够与外部系统互动，以及让模型获取在它的训练数据之外的知识。
- Extensions 为 Agent 与外部 API 之间提供了一个桥梁，使 Agent 能完成实时 API 调用和实时信息检索。
- Functions 使 Agent 能够生成可以在客户端执行的函数代码，为开发人员提供了更精细的控制。
- Data Stores 为 Agent 提供了访问结构化或非结构化数据的能力，使数据驱动的应用程序成为可能。

本文对 Agent 的探索还非常浅显和初级，Agent 的未来将非常激动人心。随着工具变得更加复杂，推理能力得到增强，Agent 将被赋予解决现实生活中越来越复杂的问题的能力。

此外，“Agent chaining” 也将是一个战略性方向，通过结合 specialized Agents —— 每个 Agent 在其特定领域或任务中表现出色 —— 可以创建一种 “mixture of Agent experts”（混合智能体专家）的方法，能够在各个行业和问题领域中提供卓越的性能。

最后需要说明，复杂的 Agent 架构并不是一蹴而就的，需要持续迭代（iterative approach）。给定业务场景和需求之后，不断的实验和改进是找到解决方案的关键。

Agents 底层都是基于基座大模型，而后者的生成式性质决定了没有两个 Agent 是相同的。但是，只要利用好这些基座模型，我们可以创建出真正有影响力的应用程序，这种应用程序极大扩展了语言模型的能力，带来了真实的现实世界价值。

参考资料

Shafran, I., Cao, Y. et al., 2022, ReAct: Synergizing Reasoning and Acting in Language Models
Wei, J., Wang, X. et al., 2023, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Wang, X. et al., 2022, Self-Consistency Improves Chain of Thought Reasoning in Language Models
Diao, S. et al., 2023, Active Prompting with Chain-of-Thought for Large Language Models
Zhang, H. et al., 2023, Multimodal Chain-of-Thought Reasoning in Language Models
Yao, S. et al., 2023, Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Long, X., 2023, Large Language Model Guided Tree-of-Thought
Google, Google Gemini Application
Swagger, OpenAPI Specification
Xie, M., 2022, How does in-context learning work? A framework for understanding the differences from traditional supervised learning
Google Research, ScaNN (Scalable Nearest Neighbors)
LangChain, LangChain

存储进阶笔记（一）：硬件基础：HDD/SDD、JBOD、RAID 等（2024）

ARTHURCHIAO'S BLOG

9 months 3 weeks ago

记录一些平时接触到的存储知识。由于是笔记而非教程，因此内容不求连贯，有基础的同学可作查漏补缺之用。

Fig. 12 Left: HDDs as a JBOD, present to OS as 12 independent devices (sd*), running a Ceph OSD service on each device. Right: speedup performance with high-end RAID cards.

水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

存储进阶笔记（一）：硬件基础：HDD/SDD、JBOD、RAID 等（2024）

存储进阶笔记（二）：Linux 存储栈：从 Device Mapper、LVM 到文件系统（2024）

1 磁盘的硬件组成和工作原理
- 1.1 HDD 和 SSD
- 1.2 直接使用 HDD/SDD 面临的问题
2 容量不够，JBOD (Just a Bunch Of Disks) 来凑
3 花钱办事：硬件 RAID 卡数据冗余+提升性能
参考资料

1 磁盘的硬件组成和工作原理 1.1 HDD 和 SSD

HDD 是如何工作的：旋转硬盘内部结构与工作原理的动画展示（2022）
SSD 是如何工作的：固态硬盘内部结构与工作原理的动画展示（2020）

1.2 直接使用 HDD/SDD 面临的问题

单个磁盘的容量、性能等不够
冗余/高可用需求

解决办法：RAID、JBOD、LVM 等等。

2 容量不够，JBOD (Just a Bunch Of Disks) 来凑 2.1 定义

JBOD 在 Wikipedia 中没有单独的词条，而是归类在 Non-RAID drive architectures 中。

JBOD 是一种架构，

往下管理的是多个磁盘，这里所说的“磁盘”可以是
- 物理设备，
- 逻辑卷（logical volume），又分为几种，
  - 多个物理设备组合成的一个逻辑卷，比如用 LVM 或者 mdadm 之类的工具（后面会介绍）；
  - btrfs 之类的能跨设备的文件系统（device-spanning filesystem）
往上呈现给操作系统的是一个或多个独立设备（devices，/dev/xxx）。

最简化的理解：使用 JBOD 模式，那机器上插了几个盘，操作系统中就能看到几个 /dev/sd* 设备。

比如下图是一台 12 盘的 Ceph 机器。Ceph 的设计中，每个盘由一个独立的进程来管理，也就是它的 OSD 进程，所以就适合做 JBOD（但 RAID 也是可以的，右边所示 [2]），

Fig. 12 Left: HDDs as a JBOD, present to OS as 12 independent devices (sd*), running a Ceph OSD service on each device. Right: speedup performance with high-end RAID cards.

2.2 优缺点

无冗余：每个盘（或逻辑 volume）都是独立的，可以独立访问，在其他盘上没有冗余，坏了里面的数据就没了；
每个盘都是独立的，所以加减盘比较简单和方便（作为对比，RAID 加减盘就得考虑数据重新分布了）；
可扩展性和灵活性比较好。可以将不同大小的盘组合到一起；
灵活控制数据存储和备份策略；
性能上就是多个盘的叠加，没有额外性能提升（相比某些 RAID 之类的）；
便宜，不怎么花钱。

2.3 使用场景

需要独立盘的场景，例如 Ceph OSD；
动态扩容比较频繁的场景，例如云存储；
需要精确控制备份策略的场景。

2.4 类似功能的软件：LVM

JBOD 是硬件特性，主板的存储控制器自带这个功能，一般的 RAID 卡也支持 JBOD 模式。

也有一些具有类似功能的软件，比如 LVM (Logical Volume Manager)。下一篇再介绍。

3 花钱办事：硬件 RAID 卡数据冗余+提升性能 3.1 定义

RAID 是 Redundant Array of Independent Disks 的缩写，独立磁盘冗余阵列，可以提供多种级别的数据容易，防止因为单个磁盘故障导致数据丢失或不可用。 RAID 本身只是一种技术。实现上可以是硬件 RAID 卡，也可以是纯软件方案。

我们接下来讨论的主要是硬件 RAID 卡。

3.2 分类 3.2.1 按 RAID 模式分类

可参考 [2]，不错的介绍和软件 raid 教程。

3.2.2 按有无缓存（write back cache）分类

RAID 卡上有没有内存：

无
- 低端卡，便宜
- 数据直接写入磁盘（write-throught）。无加速能力，但能做硬件 RAID，性能比纯软件的 RAID 还是要好。
有
- 高端卡，贵
- 数据写到 RAID 卡内存后直接返回（write-back)，极大提高性能。

查看 WB cache 大小 $ ./storcli64 /c0 show all | grep "Current Size" Current Size of FW Cache (MB) = 6675 3.3 实物图及使用方式 3.3.1 SATA/PCIe RAID

以下是 Broadcom MegaRAID 9560-16i 8GB RAID 卡，自带 8C 处理器，8GB 内存。

Fig. Broadcom MegaRAID 9560-16i 8GB RAID Controller.

RAID 卡本身作为 PCIe 卡插到主板上，磁盘通过 SATA 接口插到右侧（也可以加转换线，将 PCIe 接口的 NVME SSD 插到右侧）。一些产品参数 [3]：

PCIe 4.0 RAID 卡
单个 RAID 卡最多能支持 240 SAS/SATA devices or 32 NVMe devices
支持 RAID 0, 00, 1, 5, 6, 10, 50 and 60
JBOD mode with RAID 0, 1, 10 and JBOD for SDS environments

3.3.2 M.2 RAID

NVME SSD 有两种常见的接口格式：

PCIe 格式：这种 SSD 数据线直接插在主板的 PCIe 插槽上就行了，速度已经很快，例如 PCIe Gen4 的实测写入带宽能打到 3GB/s 左右，Gen5 的写入带宽号称能到 8GB/s。
M.2 格式：体积很小，插在主板上的 M.2 插槽上，速度也很快，但容量一般较小；

如果以上速度还不满足业务需求，可以考虑加上 RAID 卡，下面是 M.2 格式的多个 NVME SSD 做成 RAID 的样子：

Fig. Hardware RAID10 over NVME SSDs. Image Source

前面 Broadcom 那个卡也支持 NVME RAID，但支持的 PCIe 格式的 NVME，而且需要通过 PCIe 扩展线来连接。

3.4 RAID 卡上为什么要配备电池（或超级电容）？ 3.4.1 突然掉电的问题

对于有 WB cache 的，如果数据写到了 cache，但还没写到磁盘，掉电了怎么办？会导致数据丢失。所以引入了配套的电池（BBU, Battery Backup Unit），

电池的作用不是在断电后将数据刷到磁盘 —— 因为这时候磁盘也没电了 —— 而是确保缓存中数据的安全，等重新上电后，再刷到磁盘；
BBU 可以保持 RAID Cache 中的数据几天时间，具体看厂商及电池寿命；
没有电池或电池失效，读缓存还可以用，写缓存会自动关闭（写性能急剧下降）。

3.4.2 BBU vs. supercapacitors

电池能解决掉电丢数据问题，但寿命和故障率是个问题。近几年新出来的另一种保持数据的方式是超级电容（supercapacitors）。

BBU or SuperCapacitor [4]:

A BBU has a docked battery that powers the volatile cache memory for up to 72 hours. Like all Li-ion batteries, they will age and need to be replaced in a maintenance slot after about three to five years.
A SuperCapacitor works differently, but also provides higher security: With the energy stored in the capacitor, the data is quickly shifted into a non-volatile memory and is thus ready for the next start.

3.4.3 查看 raid 卡超级电容信息 $ ./storcli64 /c0/cv show all J | jq 3.5 降本方案

再回到 RAID 卡本身。东西好是好，但贵，有没有降本的方案呢？

3.5.1 VROC (Virtual Raid On CPU)

Intel CPU 独有的技术，CPU 内置硬件模块，官方介绍。

没用过。

参考资料

Considerations for using a RAID controller with OSD hosts, redhat.com, 2024
An Introduction to RAID in Linux, baeldung.com, 2024
Broadcom MegaRAID 9560-16i 8GB RAID Controller, 2024
Protecting RAID systems with BBU or SuperCapacitor, 2024

存储进阶笔记（二）：Linux 存储栈：从 Device Mapper、LVM 到文件系统（2024）

ARTHURCHIAO'S BLOG

9 months 3 weeks ago

记录一些平时接触到的存储知识。由于是笔记而非教程，因此内容不求连贯，有基础的同学可作查漏补缺之用。

Fig. LVM concepts, and how userspace file operations traverse the Linux storage stack.

水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

存储进阶笔记（一）：硬件基础：HDD/SDD、JBOD、RAID 等（2024）

存储进阶笔记（二）：Linux 存储栈：从 Device Mapper、LVM 到文件系统（2024）

1 Device Mapper：内核存储基础设施
2 LVM：基于 Device Mapper 创建逻辑卷（设备）
3 文件系统：基于物理或逻辑卷（块设备），创建和管理文件层级
- 3.1 常规文件系统：不能跨 device
- 3.2 Cross-device 文件系统
4 云计算：块存储是如何工作的
参考资料

1 Device Mapper：内核存储基础设施 1.1 内核框架：物理块设备 -> 虚拟块设备

Device mapper（设备映射器）是 Linux 内核提供的一个框架，用于将物理块设备（physical block devices）映射到更上层的虚拟块设备（virtual block devices）。

是逻辑卷管理器（LVM）、software RAID 和 dm-crypt 磁盘加密技术的基础，
还提供了诸如文件系统快照等功能，
还可以在传递数据的同时进行修改，例如，在提供磁盘加密，或者模拟不可靠的硬件行为。

1.2 在内核存储栈中的位置

Fig. Device Mapper 在 Linux 存储栈中的位置（图中间部分）

1.3 使用场景及典型应用

dm-cache：组合使用 SSD 和 HDD 的混合卷（hybrid volume）

A hybrid volume is any volume that intentionally and opaquely makes use of two separate physical volumes. For instance, a workload may consist of random seeks so an SSD may be used to permanently store frequently used or recently written data, while using higher-capacity rotational magnetic media for long-term storage of rarely needed data. On Linux, bcache or dm-cache may be used for this purpose.
Docker – 基于 device mapper 给容器创建 copy-on-write 存储；
LVM2 – 内核最常用的一种逻辑卷管理器（logical volume manager）

2 LVM：基于 Device Mapper 创建逻辑卷（设备） 2.1 功能

Logical Volume Manager （LVM，逻辑卷管理器）1998 年引入内核，是一个基于 device mapper 的框架，为内核提供逻辑卷管理能力。

LVM 可以认为是物理磁盘和分区之上的一个很薄的软件层，能方便换盘、重新分区和备份等等管理工作。

2.2 LVM 中的概念/术语图解

Fig. LVM concepts, and how userspace file operations traverse the Linux storage stack.

2.3 使用场景

LVM 使用场景：

将多个物理卷（physical volumes）或物理盘创建为一个逻辑卷（logical volume），有点类似于 RAID0，但更像 JBOD，好处是方便动态调整卷大小。
热插拔，能在不停服的情况下添加或替换磁盘，管理非常方便。

2.4 使用教程

What is LVM2 in Linux?, medium.com, 2023

3 文件系统：基于物理或逻辑卷（块设备），创建和管理文件层级 3.1 常规文件系统：不能跨 device

常规的文件系统，例如 XFS、EXT4 等等，都不能跨多个块设备（device）。也就是说，创建一个文件系统时，只能指定一个特定的 device，比如 /dev/sda。

要跨多个盘，只能通过 RAID、JBOD、LVM 等等技术将这些块设备合并成一个逻辑卷，然后在这个逻辑卷上初始化文件系统。

3.2 Cross-device 文件系统

更高级一些的文件系统，是能够跨多个块设备的，包括，

ZFS
BTRFS

4 云计算：块存储是如何工作的

上一节已经介绍到，在块设备上初始化文件系统，就可以创建文件和目录了。这里所说的块设备 —— 不管是物理设备，还是逻辑设备 —— 穿透之后终归是一个插在本机上硬件设备。

有了虚拟化之后，情况就不一样了。比如有一类特殊的 Linux 设备，它们对操作系统呈现的确实是一个块设备，但其实底层对接的远端存储系统，而不是本机硬件设备。

在云计算中，这种存储类型称为“块存储”。

4.1 典型块存储产品

块存储（Block Storage），也称为 block-level storage，是公有云和私有云上都非常常见的一种存储。各家的叫法或产品名字可能不同，例如，

AWS EBS（Elastic Block Store）
阿里云的 SSD
Ceph RBD

4.2 工作层次：块级别

块存储工作在块级别（device-level），可以直接访问数据并实现高性能I/O。因此它提供高性能、低延迟和快速数据传输。

4.3 使用场景和使用方式

使用场景：

虚拟机系统盘
数据库磁盘

使用方式：

在块存储系统（例如 AWS EBS）中创建一个块设备，
将这个块挂载到想使用的机器上，这时呈现给这台机器的操作系统的是一个块设备（/dev/xxx），

Storage Decision. Image Source
在这个块设备上初始化文件系统（例如初始化一个 ext4 文件系统），然后就可以像普通硬盘一样使用了。

4.4 基本设计

AWS 对文件存储、对象存储和块存储有一个不错的介绍文档。其中提到的块存储的设计：

块存储将数据划分为固定大小的 block进行存储。Block 的大小在初始化块设备时指定，可以是几 KB 到几 MB；
操作系统为每个 block 分配一个唯一的地址/序号，记录在一个表中。寻址使用这个序号，因此非常快；
每个 Block 独立，可以直接访问或修改某个 block，不影响其他 blocks；
存储元数据的设计非常紧凑，以保持高效。
- 非常基本的元数据结构，确保了在数据传输过程中的最小开销。
- 搜索、查找和检索数据时，使用每个 block 的唯一标识符。
块存储不依赖文件系统，也不需要独立的进程（例如，区别于 JuiceFS [4]），由操作系统直接管理。

4.5 Ceph 块存储（RBD）的设计 4.5.1 概念

Pool：存储对象的逻辑分区（logical partitions used to store objects），有独立的 resilience/placement-groups/CRUSH-rules/snaphots 管理能力；
Image: 一个块，类似 LVM 中的一个 logical volume
PG (placement group): 存储 objects 的副本的基本单位，一个 PG 包含很多 objects，例如 3 副本的话就会有 3 个 PG，存放在三个 OSD 上；

创建一个 RBD 块设备的大致步骤：

$ ceph osd pool create {pool-name} [{pg-num} [{pgp-num}]] [replicated] \ [crush-rule-name] [expected-num-objects] $ rbd pool init {pool-name} $ rbd create --size {size MB} {pool-name}/{image-name} 4.5.2 RBD 的后端存储：Ceph 对象存储

Ceph 的设计比较特殊，同时支持三种存储类型：

对象存储（object storage），类似 AWS S3；
文件存储（file storage），类似 JuiceFS [4]；
块存储（block storage），类似 AWS EBS。

背后，每个块存储中的 “block”（4.4 节中介绍的 block 概念），实际上最后是一个 Ceph 对象存储中的 object。也就是 Ceph 的块存储是基于 Ceph 的对象存储。

4.5.3 读写流程

Fig. Ceph RBD IO. Each object is fix-sized, e.g. 4MB by default. Image Source

4.5.4 客户端代码实现

两种使用方式，二选一：

Fig. Ceph RBD workflow. Image Source

用户态库：librbd，这会直接通过 librados 去访问 Ceph 集群；
内核态库：将 RBD 挂载到主机之后，在系统中就可以看到一个 /dev/rbd{N} 的设备，
- 可以像使用本地盘一样，在这个设备上初始化一个文件系统，然后就能在这个文件系统里面读写文件了；
- RBD 驱动会将这些文件操作转换为对 Ceph 集群的操作，比如满 4MB 的文件作为一个 object 写到 Ceph 对象存储中；
- 内核驱动源码：drivers/block/brd.c。
- 源码解读：[2,3]

参考资料

What’s the Difference Between Block, Object, and File Storage?, aws.amazon.com, 2024
Ceph-RBD 源码阅读, blog.shunzi.tech, 2019
Deep Dive Into Ceph’s Kernel Client, engineering.salesforce.com, 2024
JuiceFS 元数据引擎初探：高层架构、引擎选型、读写工作流（2024）

[译] SSD 是如何工作的：固态硬盘内部结构与工作原理的动画展示（2020）

ARTHURCHIAO'S BLOG

10 months 1 week ago

译者序

本文翻译自 2020 年 Branch Education 的一个科普视频 How do SSDs Work? How does your Smartphone store data? Insanely Complex Nanoscopic Structures!，强烈推荐观看原视频。本文整理个图文版方便查阅与思考。

HDD 是如何工作的：旋转硬盘内部结构与工作原理的动画展示（2022）
SSD 是如何工作的：固态硬盘内部结构与工作原理的动画展示（2020）

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原视频。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

以下是译文。

译者序
1 存储材料 & 结构：Charge Trap
2 SSD 芯片硬件组成
3 真实 SSD 产品的参数

手机的存储、平板电脑的存储、SSD 硬盘，其实都类似，核心都是一个固态（Solid State） 存储芯片：

称为“固态”是相对于旋转（rotational）磁盘（也就是普通 HDD 硬盘）那种“动态”而言的。

本文将深入到这个芯片内部，看看它是如何工作的。

1 存储材料 & 结构：Charge Trap

将 SSD 芯片放大到纳米级，就能看到它存储电荷的基本结构。

根据技术路线的不同，存储结构/材料的选择也不同，
本文介绍的是比较新的一种，称为 Charge Trap（电荷捕获，或电荷陷阱），它使用的是氮化矽（silicon nitride），这是一种绝缘体。

下图中的“工”字结构就是 Charge Trap，它的基本原理是将电子吸附到氮化矽上，吸附的电子数量不一样，电荷的高低就不一样，从而可以用于表示不同的数字，

图中黄色部分就是吸附的电子，

较老的技术只能存储2 个不同的电荷级别，即电子很多或很少，因此只能表示两种数值，也就是 1bit 0 和 1；
较新的 Charge Trap 可以存储 8 个或 16 个电荷级别，也就是每个 Charge Trap 可以表示 3bit 或 4bit。

被吸附的电荷可以保持几十年之久，这也是它被称为电荷陷阱的原因。

2 SSD 芯片硬件组成

下面从小到大，看看是如何基于 Charge Trap 这样一个最基本单元构建出一个最终的 SSD 芯片的。

2.1 Charge Trap -> 基本存储单元 Memory Cell

Charge Trap 是 SSD 的基本存储单元 —— memory cell —— 的核心。

在本文接下来的内容中，我们假设一个 charge trap 支持 8 个不同的电荷级别，也就是说可以表示 3bit，比如吸附的电子很少对应 111，吸附的电子很多对应 000。

下面简单介绍下读取和删除数据对应的底层操作。

2.1.1 读取数据

读取一个 memory cell 存储的数据，就是测量这个 Charge Trap 上的的电荷量，

这需要先通过 control gate 锁定该 Charge Trap，然后信息就可以从中间的传输线送上去。后面会详细介绍。

2.1.2 删除数据

删除一个 memory cell 存储的数据，就是清除这个 Charge Trap 上的的电荷量，使其回到最低电平（111）。

2.2 纵向堆叠 Memory Cell -> String

有了能表示 3bit 的基本单元，接下来我们将 N 个 cell 垂直堆叠起来，就得到一个称为 String（“串”）的结构。

下图是 10 个 memory cell 堆叠成的 string，

一个 String 内的所有 cell 共享顶部的 bit line（“bit 传输线”，读取或写入 cell 数据的线），

一个 String 有很多 cell，但它们共享同一根 bit line，因此，在任一时间只能激活 String 中的一个 cell。为此，需要引入了 control gate。

control gate 控制 String 上的哪个 cell 可以读写数据，此时称为“激活”状态；如上图所示，读取第 10 层的 cell 信息时，就激活第 10 层的 control gate：
但注意，control gate 只是用来激活 cell，而不是用来读取 cell 的信息：比如在读数据场景，被激活的 cell 会将它保存的信息通过 String 中心的数据线（每个“工”字的中心线）发送给顶部的 bit line。

2.3 横向堆叠 Memory Cell -> Page

将多个 String 水平连到一起，就得到一个二维 cell 空间。

横向的每一排 memory cell，称为一个 Page（“页”），如下图所示：

2.4 String+Page 组成 2D 存储矩阵 -> Row

String+Page 组成的 2D 存储矩阵，称为 Row（虽然在这里直觉上叫“Page”更合适，后面会看到这个名称的由来），

2.4.1 bit line 和 control gate

再来看下 bit-line/control-gate 和 String/Row 的关系，

每个 String 有独立的 bit line；
每个 Row 上的所有 cell 共享一个 control gate，

2.4.2 读写一个 Page：仅需一次 control gate 操作

由上图可知，向 Row 写入或读取数据时，横向的 cell 能同时被激活，它们能通过顶上的 bit lines 并行传输。

换句话说，一个 Page 内的数据仅需一次操作就能全部读出或写入。

2.5 多个 Row（2D）堆叠成 3D 存储模块 -> Block

将 N 个 Row 并排连起来，就得到一个 block。下面是 6 个 Row 组成的 block，

下面是 12 个 Row 组成的 block，

2.5.1 渲染图（3D-NAND / V-NAND）

这种立体的 Block 有个专业名词叫 3D-NAND 或 V-NAND（垂直堆叠 NAND），以为以前的芯片都是二维的，

NAND 本身是 Not AND（“与非”门）的缩写，是一种逻辑门，后来泛指一类存储技术。

2.5.2 Block 能存储多少数据：~1.5KB

现在让我们来算一下，一个 block 能存储多少数据。

3bit/cell
10 cells/string
32 cells/page
6 rows/block
2 block

最终是 3,840 个 memory cell，总共能够存储 11,520 bit，约 1.4KB。

2.6 小结

回顾下我们目前为止介绍的所有概念，

从小到大的结构是：cell -> String / Page -> Row -> Block。这里还有 Column 和 Layer 的概念，这个图加上这俩概念，就不难理解为什么一个 2D cell 矩阵叫 Row 而不叫 Page 了。

3 真实 SSD 产品的参数 3.1 Block 3.1.1 高度（Cells per String）：100~200 cells

图中画的是 96~136 层高，右边是一张纸，可以直观理解 100~200 层大概是什么概念。

3.1.2 宽度（Cells per Page）: 30K~60K cells

一个 Page 的宽度约为 30,000~60,000 个 memory cell。

这意味着有 30,000~60,000 可并行读写的 bit lines。

3.1.3 深度（Rows per Block）：4~8 Rows

4~8 个 Row 组成一个 Block，

3.2 Blocks per Chip Unit: 4K~6K

一个最基础的芯片单元有大约 4000~6000 个 Block（后面还将重复这个基础单元很多次，最终封装成一个芯片）。

3.3 Row decoder, Page Buffer

两侧的 control gate & bit line selector 组成了所谓的行解码器，通过这两组选择器就可以访问任意 Page；
一个 Page（约 45,000 个 memory cell）能同时使用上方并行的 bit line 来读取或写入信息；
上万条 bit line 将 Page 中的数据送到 Page cache。

下图是对应到实际芯片的结构，

图中的产品为了提高存储容量，将 3.2 介绍的模块复制了一倍。这样一个模块的读写速度约为 500MB/s，

3.4 多层 Chip Unit，封装到最终的一块 SSD 芯片

为了进一步提高存储容量，在一个芯片中放 8 个（层）上一节那样的子芯片，然后通过外围接口芯片（下图最左侧）来协调这 8 个子芯片，

这样一个结构再加个外壳封装，才是我们拆开 SSD 时在电路板上看到的芯片：

[译] HDD 是如何工作的：旋转硬盘内部结构与工作原理的动画展示（2022）

ARTHURCHIAO'S BLOG

10 months 3 weeks ago

译者序

本文翻译自 2022 年 Branch Education 的一个科普视频 How do Hard Disk Drives Work? (Youtube)，强烈推荐观看原视频（上不了油管的，B 站也有搬运）。本文整理个图文版方便查阅与思考，

HDD 是如何工作的：旋转硬盘内部结构与工作原理的动画展示（2022）
SSD 是如何工作的：固态硬盘内部结构与工作原理的动画展示（2020）

水平及维护精力所限，译文不免存在错误或过时之处，如有疑问，请查阅原视频。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

以下是译文。

译者序
1 硬盘拆解
2 盘片的微观组成
3 写数据
4 读数据
5 致谢
6 Linux 存储相关的子系统和软件栈（译注）

原视频由 PCBWay 赞助，感谢赞助商。

1 硬盘拆解 1.1 盘片（platter）

盘片是存储数据的地方，

Disk/platter

根据存储容量的不同，硬盘可能会有多个盘片堆叠，如上面右图所示；
磁盘由铝镁合金（aluminum magnesium alloy）和其他合金的多个涂层组成，

Disk/platter
磁性功能层是 120nm 的钴铬钽合金薄层（cobalt chromium tantalum alloy），它由磁性微块组成，磁极方向能变，

Disk/platter
盘片安装在主轴上，主轴使用中心的无刷直流电机（brushless DC motor）以 7200rpm 的等速度旋转。

1.2 机械臂装置

机械臂装置包括好几个组成部分，分别来看下。

1.2.1 机械臂（arm）

每个盘（platter）上下各有一个臂（arm），

1.2.2 滑橇（slider）和读写头（read/write head）

每个臂的末端有一个称为 slider（滑橇、滑块）的模块，它里面又包括了一个读/写头（注意，读头和写头是分开的两个部件，后面会详细介绍），

磁盘高速旋转产生的气流能使这个滑块（和读写头）浮起来，稳定运行在离磁盘表面 15nm（约 100 个原子）的地方，如下面的动图所示，

Fig. 高速旋转的盘片产生的气流使滑橇和读写头飘起来

1.2.3 读写头停靠装置

只有当盘片全速旋转时（有数据读写任务），机械臂才会转到磁盘表面上。平时盘片不旋转时（没有读写任务），机械臂会停在磁盘边上的一个小塑料装置上。

1.2.4 尾部音圈电机（马达）

机械臂的尾部有一个 音圈电机（voice coil motor），或称音圈马达，它由线圈（coil of wire）和上下两个强钕磁铁（strong neodymium magnets）组成，

VCM（Voice Coil Motor）一种特殊形式的直接驱动电机，原理和扬声器类似，固得名。通电线圈在磁场内就会产生力，力的大小与施加在线圈上的电流成比例，运动轨迹可以是直线也可以是弧线。具有结构简单、体积小、速度快、响应快等特点。译注。

线圈通电之后会产生一个力，使机械臂在磁盘上移动（可以正向也可以反向），

这种马达的速度和精度：

速度：读/写头能够在不同磁道上来回移动 ~20 次/秒；
精度：读/写头位置精度 ~30nm。

1.3 机械臂-电路板之间的数据线

如下图所示，一条柔性电线（a flexible ribbon of wires）沿着机型臂的侧面布线，

一边连接到读/写头，
一边连接到一个连接器（connector），该 connector 进一步连接到硬盘的主板，或称印刷电路板（PCB）。

1.4 PCB 和上面的芯片

PCB 上面的东西如下图所示，

这里主要介绍三个芯片：

主处理器芯片；
内存芯片，作为主处理器的 cache；
控制音圈马达和磁盘主轴电机的芯片。

1.5 数据线接口（e.g. SATA）和电源线接口

PCB 边缘还有两个硬件接口，

数据接口：例如 SATA 接口，用于和电脑主板相连传输数据；
电源接口：用于给 HDD 供电。

1.6 防尘装置

再看一下硬盘的两个防尘装置，

垫圈：将磁盘密封起来；
灰尘过滤器：用于捕获灰尘颗粒。

密封和过滤都是非常必要的，因为读写头距离盘片仅 15nm，而灰尘颗粒的大小可达 10,000nm，如果与 7200rpm 高速旋转磁盘碰撞，可能会造成严重损坏，

Fig. 读写头正常运行时，距离盘片仅 15nm。

2 盘片的微观组成

了解了粗粒度的硬件构成之后，现在让来深入到盘片的内部，看看它的微观组成。

2.1 磁盘（disk） -> 磁道（track）

首先，每个磁盘以同心圆的方式分割为多个磁道（concentric circles of tracks），

Fig. 磁盘分割为大量磁道。

每个磁盘的磁道数量能达到 500,000 个甚至更多。

2.2 磁道（track） -> 扇区（sector）

然后，沿着直径的方向，所有磁道又被分割为多个扇区，

Fig. 磁道进一步分割为扇区。

2.3 扇区内

现在看一下每个扇区内的结构，

Fig. 每个扇区的内部结构。

如上图所示，每个扇区中，依次包含五部分。

2.3.1 前导/同步区（preamble or synchronization zone）

记录这个旋转磁盘的确切速度和每个比特位的长度（length of each bit of data）。

2.3.2 地址区

帮助读/写头确定当前位于哪个磁道和扇区。

2.3.3 数据区扇区大小

扇区的大小因盘而异，例如老一些的盘是 512 字节或 2KB，新一些的通常是 4KB。

查看磁盘扇区大小（译注）

有很多工具可以查看，lsblk 指定显示磁盘名字、物理扇区大小和逻辑扇区大小：

$ lsblk -o NAME,PHY-SeC,LOG-SeC NAME PHY-SEC LOG-SEC sda 4096 512 # 这块是 SATA SSD sdb 512 512 # 这块是 SATA HDD

fdisk -l，这个命令好记：

$ fdisk -l Disk /dev/sdb: 2.18 TiB, 2399276105728 bytes, 4686086144 sectors Disk model: XXX # 硬盘型号 Units: sectors of 1 * 512 = 512 bytes # 当前扇区大小 Sector size (logical/physical): 512 bytes / 512 bytes # 逻辑值 & 物理支持的最大值 I/O size (minimum/optimal): 512 bytes / 512 bytes iostat 磁盘读写带宽（译注）

可以通过 cat /proc/diskstats 查看磁盘的读写情况，其中就包括了每个磁盘已经读写的 sectors 数量：

$ cat /proc/diskstats # r_sectors w_sectors 8 0 sda 31663 10807 2928442 8471 203024 106672 6765800 ...

这个数量乘以 sector 大小，就是已经读写的字节数，iostat 等工具显示的磁盘读写带宽，就是根据这个来计算（估算）的。

一个扇区只会属于一个文件（译注）

根据 wikipedia Disk sector，对于绝大部分文件系统来说，任何一个文件都是占用整数个扇区的 —— 也就是说一个扇区只会属于一个文件，如果没用满，后面的就空着。所以在调整扇区大小时，这是一个需要考虑的因素。

扇区与 block 的关系（译注）

这里说的 block 是文件系统的概念，比如常见的一个 block 是 4KB，如果磁盘格式化的时候，扇区大小选择的 512B，那一个 block 就对应 8 个扇区。对操作系统屏蔽了底层的硬件细节。

2.3.4 纠错码（ECC）区

Fig. 每个扇区的内部结构。

用于校验存储在块中的数据。

2.3.5 扇区之间的间隔区

给了读/写磁头一定的容错能力。

3 写数据

现在让我们进一步看看读/写磁头的内部机制，以及写头（write head）是是如何写数据的。

3.1 磁场微块和磁化

扇区是由一个个磁场微块组成的，写头通过改变磁盘微块的磁化方向来实现数据写入，

每个磁盘微块大小约为 90nm x 100nm x 125nm，

磁化之外，微块内原子的南北极是随机的；磁化之，微块所有原子的北南极都指向同一方向，

每个微块对应的就是一个 bit 数据，

3.2 写入 1bit 的过程

下面具体看一下如何磁化一个微块（相当于写入 1bit 数据）。

电流施加到 write head 的线圈之后，就会在此处产生一个强磁场，

这个磁场沿着 write head 向下，聚焦到尖端的一个小点，改变它正下方的磁盘微块极性（中间的缝隙就是前面提到过的读写头 15nm 悬浮高度），

磁化之后的微块变成永磁体，能保持这个状态很多年，也就是数据已经持久化，以后可以重复用读头感应这个永久磁场，读出存储的数据。

3.3 覆盖写

原理跟上面一样，也是逐 bit 来。如果新写入的 bit 跟已经存储的一样，磁极就不变，否则就改变一下方向。

4 读数据

再来看看如何从磁盘读数据。

4.1 如何表示 0 和 1 4.1.1 不是用南北极指向表示

前面我们假设了不同南北极的磁块分别表示 0 和 1，

这在概念上非常简单，但实际实现并非如此。

4.1.2 用南北极指向的变化表示

实际的 read head，检测的是相邻两个微块的磁极变化，这是因为磁极变化的强度比单个微块的磁场强度要大得多，所以这种方式的检测准确率非常高。

所以，如上图所示，

相邻微块磁场方向变化，表示 1；
相邻微块磁场方向不变，表示 0。

4.2 读头（read head）内部结构

那么，检测这些磁场的读头内部结构是怎样的呢？

如上图所示，

读头里面是多层导电材料，由铁磁材料和非磁性材料的交替组成。
这种多层材料具有一种称为巨磁阻（giant magnetoresistance, GMR）的特性，简单来说，穿过它的磁场强度发生变化时，它的电阻率就会变化。

4.3 读取数据：GMR 和读头电阻率

基于 GMR 特性，根据读头的电阻率就能判断下面存储的 0 还是 1，

电阻率较低时，表示读取头下方磁场变化强，对应存储的是 bit 1；
电阻率较高且无磁场时，对应存储的是 bit 0。

4.4 连续 0 的问题

以上过程有一个问题：如果较长连续区域的磁极都一样，对应的就是一长串的 0，由于读头的精度，有可能会导致多读或少读几个 0，导致数据错乱。

解决方少：利用每个 sector 的前导区和纠错码区中的信息。

5 致谢

原作者 Branch Education 感谢所有个人赞助者和会员赞助商，让他们制作了如此精良的科普视频。

6 Linux 存储相关的子系统和软件栈（译注） 6.1 从进程 read/write 请求到 HDD 读写数据

来自 Linux Storage Stack Diagram，涵盖了 3.x ~ 6.x 多个内核版本，这里先贴一个 3.x 的，因为简单，方便看出从用户进程发出 read/write 请求到 HDD 读写数据的内核模块链路：

虚拟文件系统（VFS）里面分为几类：

常规文件系统（ext4, xfs, btrfs, …）；
网络文件系统（NFS, CIFS, …）；
伪文件系统（procfs, sysfs, …）；
特殊文件系统（tmpfs, devtmpfs, …）。

再贴一个 kernel v6.9 的，

6.2 内核 block layer 深入解读

A block layer introduction part 1: the bio layer, LWN.net, 2017
A block layer introduction part 2: the request layer, LWN.net, 2017

6.3 其他优质文章

How does a hard drive work, https://www.explainthatstuff.com/, 2024

除了硬件拆解和介绍工作原理，还对比了 HDD 和 SDD，并且更重要的，介绍了 IBM 发明硬盘的历史。
How a Hard Drive Works, cs.stanford.edu, 2012

斯坦福的一个老师实物教学，开盖展示读写数据时，硬盘的工作过程（然后这个盘就报废了）。
HDD from Inside: Hard Drive Main Parts, https://hddscan.com/

硬件拆解部分比本文更详细，想了解更多硬件细节的，可作为补充。

直观解读 JuiceFS 的数据和元数据设计（一）：看山是山（2024）

ARTHURCHIAO'S BLOG

11 months 1 week ago

本系列分为三篇文章，试图通过简单的实地环境来直观理解 JuiceFS 的数据（data）和元数据（metadata）设计。

Fig. MinIO bucket browser: one object was created ({volume}/juicefs_uuid) on a new juicefs volume creation.

水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

直观解读 JuiceFS 的数据和元数据设计（一）：看山是山（2024）
直观解读 JuiceFS 的数据和元数据设计（二）：看山不是山（2024）
直观解读 JuiceFS 的数据和元数据设计（三）：看山还是山（2024）

1 JuiceFS 高层架构与组件
2 搭建极简 JuiceFS 集群
3 将 JuiceFS volume 挂载到本地路径
4 在 JuiceFS volume 挂载的本地路径内读写
5 总结
参考资料

本篇首先快速了解下 JuiceFS 架构和组件，然后将搭建一个极简 JuiceFS 集群，并以 JuiceFS 用户的身份来体验下它的基本功能。

1 JuiceFS 高层架构与组件

JuiceFS 的高层架构和组件，

Fig. JuiceFS cluster initialization, and how POSIX file operations are handled by JuiceFS.

三大组件：

元数据引擎：存储文件元数据，例如文件名、权限等。JuiceFS 支持多种元数据引擎，比如 TiKV、sqlite、redis 等。
对象存储：存储文件本身。JuiceFS 支持多种对象存储，比如 MinIO、AWS S3、阿里云 OSS 等。
JuiceFS 客户端：将 JuiceFS volume 挂载到机器上，提供文件系统视图给用户。

更多架构信息，见 [1]。

2 搭建极简 JuiceFS 集群

接下来搭建一个极简 JuiceFS 环境，方便我们做一些功能测试。按上一节提到的，只需要搭建以下 3 个组件：

元数据引擎，这里我们用 TiKV；
对象存储，这里我们用 MinIO；
JuiceFS 客户端。

2.1 搭建元数据集群

对于功能测试来说，使用哪种元数据引擎都无所谓，比如最简单的 sqlite 或 redis。

不过，本系列第二篇会介绍 TiKV 相关的一些设计，所以本文用的 TiKV 集群作为元数据引擎，相关的搭建步骤见社区文档。

本篇假设搭建的是三节点的 TiKV 集群，IP 地址分别是 192.168.1.{1,2,3}。

2.2 搭建对象存储（MinIO）

这里我们用 MinIO 搭建一个对象存储服务，主要是空集群方便观察其中的文件变化。

2.2.1 启动 MinIO server

MinIO 是一个兼容 S3 接口的开源对象存储产品，部署非常简单，就一个可执行文件，下载执行就行了。

也可以用容器，一条命令启动：

$ sudo docker run -p 9000:9000 -p 8080:8080 \ quay.io/minio/minio server /data --console-address "0.0.0.0:8080"

访问 http://localhost:8080/ 就能看到 MinIO 的管理界面了。默认账号密码都是 minioadmin。

2.2.2 创建 bucket

通过 MinIO 管理界面创建一个 bucket，这里我们命名为 juicefs-bucket，

Fig. MinIO bucket list: an empty bucket.

可以看到现在里面一个对象也没有，已使用空间也是 0 字节。

2.3 下载 juicefs 客户端

从 https://github.com/juicedata/juicefs/releases 下载一个可执行文件就行了，

$ wget https://github.com/juicedata/juicefs/releases/download/v1.2.1/juicefs-1.2.1-linux-amd64.tar.gz $ tar -xvf juicefs-1.2.1-linux-amd64.tar.gz $ chmod +x juicefs 2.4 创建 JuiceFS volume

接下来就可以创建一个 JuiceFS volume 了，这里命名为 foo-dev。

2.4.1 创建/格式化 volume：juicefs format $ juicefs format --storage minio --bucket http://localhost:9000/juicefs-bucket \ --access-key minioadmin \ --secret-key minioadmin \ tikv://192.168.1.1:2379,192.168.1.2:2379,192.168.1.3:2379/foo-dev \ foo-dev <INFO>: Meta address: tikv://192.168.1.1:2379,192.168.1.2:2379,192.168.1.3:2379/foo-dev [interface.go:504] <INFO>: Data use minio://localhost:9000/juicefs-bucket/foo-dev/ [format.go:528] <INFO>: Volume is formatted as { "Name": "foo-dev", "UUID": "3b4e509b-a7c8-456f-b726-cb8395cf8eb6", "Storage": "minio", "Bucket": "http://localhost:9000/juicefs-bucket", "AccessKey": "minioadmin", "SecretKey": "removed", "BlockSize": 4096, "UploadLimit": 0, "DownloadLimit": 0, ... } 2.4.2 查看 MinIO bucket：多了一个 juicefs_uuid 文件

再查看 MinIO bucket，会发现多了一个 object，

Fig. MinIO bucket browser: one object was created on a new juicefs volume creation.

点进去，发现是一个叫 juicefs_uuid 的文件，

Fig. MinIO bucket browser: one object was created after juicefs format.

可以把这个文件下载下来，其内容就是上面 juicefs format 命令输出的 uuid 信息，也就是说 juicefs client 会把 volume 的 uuid 上传到对象存储中。

3 将 JuiceFS volume 挂载到本地路径

这么我们将这个 volume 挂载到本地路径 /tmp/foo-dev，

$ ./juicefs mount --debug --backup-meta 0 \ tikv://192.168.1.1:2379,192.168.1.2:2379,192.168.1.3:2379/foo-dev /tmp/foo-dev [INFO] [client.go:405] ["[pd] create pd client with endpoints"] [component=tikv] [pid=2881678] [pd-address="[192.168.1.1:2379,192.168.1.2:2379,192.168.1.3:2379]"] [INFO] [base_client.go:378] ["[pd] switch leader"] [component=tikv] [pid=2881678] [new-leader=https://192.168.1.3:2379] [old-leader=] [INFO] [base_client.go:105] ["[pd] init cluster id"] [component=tikv] [pid=2881678] [cluster-id=7418858894192002550] [INFO] [client.go:698] ["[pd] tso dispatcher created"] [component=tikv] [pid=2881678] [dc-location=global] <INFO>: Data use minio://localhost:9000/juicefs-bucket/foo-dev/ [mount.go:650] ...

进入目录：

$ cd /tmp/foo-dev $ ls -ahl -r-------- 1 root root 0 Oct 26 10:45 .accesslog -r-------- 1 root root 2.9K Oct 26 10:45 .config -r--r--r-- 1 root root 0 Oct 26 10:45 .stats dr-xr-xr-x 2 root root 0 Oct 26 10:45 .trash

可以看到几个隐藏文件，

这些是 JuiceFS 的元数据文件，在 [1] 系列文章中有过详细介绍。
这些都是 volume 本地文件，不会上传到 MinIO。此时，MinIO juicefs-bucket 里面还是只有一个 uuid 文件。

4 在 JuiceFS volume 挂载的本地路径内读写

接下来进行一些 POSIX 操作测试。

4.1 创建和写入文件

创建三个文件，一个只有几十字节（但命名为 file1_1KB），一个 5MB，一个 129MB，

$ cd /tmp/foo-dev $ echo "Hello, JuiceFS!" > file1_1KB $ dd if=/dev/zero of=file2_5MB bs=1M count=5 5+0 records in 5+0 records out 5242880 bytes (5.2 MB, 5.0 MiB) copied, 0.0461253 s, 114 MB/s $ dd if=/dev/zero of=file3_129MB bs=1M count=129 129+0 records in 129+0 records out 135266304 bytes (135 MB, 129 MiB) copied, 0.648757 s, 209 MB/s 4.2 查看文件属性 $ ls -ahl file* -rw-r----- 1 root root 16 file1_1KB -rw-r----- 1 root root 5.0M file2_5MB -rw-r----- 1 root root 129M file3_129MB $ file file2_5MB file2_5MB: data 4.3 读取和追加文件 $ cat file1_1KB Hello, JuiceFS! $ echo "Hello, JuiceFS!" >> file1_1KB $ cat file1_1KB Hello, JuiceFS! Hello, JuiceFS! 4.4 查找文件 $ find /tmp -name file1_1KB /tmp/foo-dev/file1_1KB 4.5 删除文件

直接用 rm 删除就行了，不过这几个文件我们还有用，先不删。

4.6 目录操作

目录的创建、移动、修改权限、删除等待也是一样的，大家可以自己试试，这里不再赘述。

4.7 小结

根据以上测试，在 JuiceFS 挂载路径里创建/读写/查找/删除文件，都跟本地目录没什么区别 —— 这也正是「分布式“文件系统”」的意义所在 —— 兼容 POSIX 语义，用户无需关心数据存在哪，当本地目录使用就行了（性能另当别论）。

5 总结

本篇中，我们作为 JuiceFS 用户对它进行了一些最基本的功能测试，结论是和本地文件系统没什么区别。

对于普通用户来说，了解到这一层就够了；但对于高阶用户以及 JuiceFS 的开发/运维来说，这只是表象，必有第二重境界等着他们。

参考资料

JuiceFS 元数据引擎初探：高层架构、引擎选型、读写工作流（2024）

直观解读 JuiceFS 的数据和元数据设计（二）：看山不是山（2024）

ARTHURCHIAO'S BLOG

11 months 1 week ago

本系列分为三篇文章，试图通过简单的实地环境来直观理解 JuiceFS 的数据（data）和元数据（metadata）设计。

Fig. JuiceFS object key naming and the objects in MinIO.

水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

直观解读 JuiceFS 的数据和元数据设计（一）：看山是山（2024）
直观解读 JuiceFS 的数据和元数据设计（二）：看山不是山（2024）
直观解读 JuiceFS 的数据和元数据设计（三）：看山还是山（2024）

1 引言
2 对象存储中 JuiceFS 写入的文件
3 JuiceFS 数据的设计
4 JuiceFS 元数据的设计（TKV 版）
- 4.1 TKV 类型 key 列表
- 4.2 元数据引擎中的 key/value
  - 4.2.1 扫描相关的 TiKV key
  - 4.2.2 解码成 JuiceFS metadata key
5 总结
参考资料

1 引言

上一篇从功能的角度体验了下 JuiceFS，这一篇我们深入到背后，看看 JuiceFS 分别在数据和元数据上做了哪些设计，才给到用户和本地文件系统一样的体验的。

2 对象存储中 JuiceFS 写入的文件

本篇以 MinIO 为例，来看 JuiceFS 写入到对象存储中的文件是怎样组织的。其他云厂商的对象存储（AWS S3、阿里云 OSS 等）也都是类似的。

2.1 Bucket 内：每个 volume 一个“目录”

可以用上一篇介绍的 juicefs format 命令再创建两个 volume，方便观察它们在 bucket 中的组织关系，

Fig. MinIO bucket browser: volume list.

如上图所示，bucket 内的顶层“目录”就是 JuiceFS 的 volumes，

我们这里提到“目录”时加双引号，是因为对象存储是扁平的 key-value 存储，没有目录的概念，前端展示时模拟出目录结构（key 前缀一样的，把这个前缀作为一个“目录”）是为了查看和理解方便。简单起见，后文不再加双引号。

2.2 每个 volume 的目录： {chunks/, juicefs_uuid, meta/, ...}

每个 volume 目录内的结构如下：

{volume_name}/ |-chunks/ # 数据目录，volume 中的所有用户数据都放在这里面 |-juicefs_uuid |-meta/ # `juicefs mount --backup-meta ...` 产生的元数据备份存放的目录 2.2.1 juicefs_uuid：JuiceFS volume 的唯一标识

可以把这个文件下载下来查看内容，会发现里面存放的就是 juicefs format 输出里看到的那个 uuid，也就是这个 volume 的唯一标识。

删除 volume 时需要用到这个 uuid。

2.2.2 meta/：JuiceFS 元数据备份

如果在 juicefs mount 时指定了 --backup-meta，JuiceFS 就会定期把元数据（存在在 TiKV 中）备份到这个目录中，用途：

元数据引擎故障时，可以从这里恢复；
在不同元数据引擎之间迁移元数据。

详见 JuiceFS 元数据引擎五探：元数据备份与恢复（2024）。

2.2.3 chunks/

Fig. MinIO bucket browser: files in a bucket.

chunks/ 内的目录结构如下，

{volume_name}/ |-chunks/ | |-0/ # <-- id1 = slice_id / 1000 / 1000 | | |-0/ # <-- id2 = slice_id / 1000 | | |-1_0_16 # <-- {slice_id}_{block_id}_{size_of_this_block} | | |-3_0_4194304 # | | |-3_1_1048576 # | | |-... |-juicefs_uuid |-meta/

如上，所有的文件在 bucket 中都是用数字命名和存放的，分为三个层级：

第一层级：纯数字，是 sliceID 除以 100 万得到的；
第二层级：纯数字，是 sliceID 除以 1000 得到的；
第三层级：纯数字加下划线，{slice_id}_{block_id}_{size_of_this_block}，表示的是这个 chunk 的这个 slice 内的 block_id 和 block 的大小。

不理解 chunk/slice/block 这几个概念没关系，我们马上将要介绍。

2.3 小结

通过以上 bucket 页面，我们非常直观地看到了一个 JuiceFS volume 的所有数据在对象存储中是如何组织的。

接下来进入正题，了解一下 JuiceFS 的数据和元数据设计。

3 JuiceFS 数据的设计 3.1 顶层切分：一切文件先切 chunk

对于每个文件，JuiceFS 首先会按固定大小（64MB）切大块，这些大块称为「Chunk」。

这是为了读或修改文件内容时，方便查找和定位。
不管是一个只有几字节的文本文件，还是一个几十 GB 的视频文件，在 JuiceFS 中都是切分成 chunk，只是 chunk 的数量不同而已。

3.1.1 示意图

Fig. JuiceFS: split each file into their respective chunks (with max chunk size 64MB).

3.1.2 对象存储：不存在 chunk 实体

Chunk 在对象存储中 没有对应任何实际文件，也就是说在对象存储中没有一个个 64MB 的 chunks；
用 JuiceFS 的话来说，Chunk 是一个逻辑概念。暂时不理解没关系，接着往下看。

3.2 Chunk 内的一次连续写入：Slice

chunk 只是一个“框”，在这个框里面对应文件读写的，是 JuiceFS 称为「Slice」的东西。

chunk 内的一次连续写入，会创建一个 slice，对应这段连续写入的数据；
由于 slice 是 chunk 内的概念，因此它不能跨 Chunk 边界，长度也不会超 max chunk size 64M。
slice ID 是全局唯一的；

3.2.1 Slice 的重叠问题

根据写入行为的不同，一个 Chunk 内可能会有多个 Slice，

如果文件是由一次连贯的顺序写生成，那每个 Chunk 只包含一个 Slice。
如果文件是多次追加写，每次追加均调用 flush 触发写入上传，就会产生多个 Slice。

Fig. JuiceFS: chunks are composed of slices, each slice corresponds to a continues write operation.

拿 chunk1 为例，

用户先写了一段 ~30MB 数据，产生 slice5；
过了一会，从 ~20MB 的地方重新开始写 45MB（删掉了原文件的最后一小部分，然后开始追加写），
- chunk1 内的部分产生 slice6；
- 超出 chunk1 的部分，因为 slice 不能跨 chunk 边界，因此产生 chunk2 和 slice7；
过了一会，从 chunk1 ~10MB 的地方开始修改（覆盖写），产生 slice8。

由于 Slice 存在重叠，因此引入了几个字段标识它的有效数据范围，

// pkg/meta/slice.go type slice struct { id uint64 size uint32 off uint32 len uint32 pos uint32 left *slice // 这个字段不会存储到 TiKV 中 right *slice // 这个字段不会存储到 TiKV 中 } 3.2.2 读 chunk 数据时的多 slice 处理：碎片化和碎片合并

Fig. JuiceFS: chunks are composed of slices, each slice corresponds to a continues write operation.

对 JuiceFS 用户来说，文件永远只有一个，但在 JuiceFS 内部，这个文件对应的 Chunk 可能会有多个重叠的 Slice，

有重叠的部分，以最后一次写入的为准。
直观上来说，就是上图 chunk 中的 slices 从上往下看，被盖掉的部分都是无效的。

因此，读文件时，需要查找「当前读取范围内最新写入的 Slice」，

在大量重叠 Slice 的情况下，这会显著影响读性能，称为文件「碎片化」。
碎片化不仅影响读性能，还会在对象存储、元数据等层面增加空间占用。
每当写入发生时，客户端都会判断文件的碎片化情况，并异步地运行碎片合并，将一个 Chunk 内的所有 Slice 合并。

3.2.3 对象存储：不存在 slice 实体

跟 chunk 类似，在对象存储中 slice 也没有 没有对应实际文件。

为了加速写到对象存储，JuiceFS 将 Slice 进一步拆分成一个个「Block」（默认 4MB），多线程并发写入。

Fig. JuiceFS: slices are composed of blocks (4MB by default), each block is an object in object storage.

Block 是 JuiceFS 数据切分设计中最后一个层级，也是 chunk/slice/block 三个层级中唯一能在 bucket 中看到对应文件的。

Fig. MinIO bucket browser: objects in a bucket.

连续写：前面 Block 默认都是 4MB，最后一个 Block 剩多少是多少。
追加写：数据不足 4MB 时，最终存入对象存储的也会是一个小于 4M 的 Block。

从上图的名字和大小其实可以看出分别对应我们哪个文件：

1_0_16：对应我们的 file1_1KB；
- 我们上一篇的的追加写 echo "hello" >> file1_1KB 并不是写入了 1_0_16，而是创建了一个新对象 7_0_16，这个 object list 最后面，所以在截图中没显示出来；
- 换句话说，我们的 file1_1KB 虽然只有两行内容，但在 MinIO 中对应的却是两个 object，各包含一行。
- 通过这个例子，大家可以体会到 JuiceFS 中连续写和追加写的巨大区别。
3_0_4194304 + 3_1_1048576：总共 5MB，对应我们的 file2_5MB；
4_*：对应我们的 file3_129MB；

3.4 object key 命名格式（及代码）

格式：{volume}/chunks/{id1}/{id2}/{slice_id}_{block_id}_{size_of_this_block}，对应的代码，

// pkg/chunk/cached_store.go func (s *rSlice) key(blockID int) string { if s.store.conf.HashPrefix // false by default return fmt.Sprintf("chunks/%02X/%v/%v_%v_%v", s.id%256, s.id/1000/1000, s.id, blockID, s.blockSize(blockID)) return fmt.Sprintf("chunks/%v/%v/%v_%v_%v", s.id/1000/1000, s.id/1000, s.id, blockID, s.blockSize(blockID)) } 3.5 将 chunk/slice/block 对应到对象存储

最后，我们将 volume 的数据切分和组织方式对应到 MinIO 中的路径和 objects，

Fig. JuiceFS object key naming and the objects in MinIO.

3.6 小结：光靠对象存储数据和 slice/block 信息无法还原文件

至此，JuiceFS 解决了数据如何切分和存放的问题，这是一个正向的过程：用户创建一个文件，我们能按这个格式切分、命名、上传到对象存储。

对应的反向过程是：给定对象存储中的 objects，我们如何将其还原成用户的文件呢？显然，光靠 objects 名字中包含的 slice/block ID 信息是不够的，例如，

最简单情况下，每个 chunk 都没有任何 slice 重叠问题，那我们能够根据 object 名字中的 slice_id/block_id/block_size 信息拼凑出一个文件，但仍然无法知道这个文件的文件名、路径（父目录）、文件权限（rwx）等等信息；
chunk 一旦存在 slice 重叠，光靠对象存储中的信息就无法还原文件了；
软链接、硬链接、文件属性等信息，更是无法从对象存储中还原。

解决这个反向过程，我们就需要文件的一些元数据作为辅助 —— 这些信息在文件切分和写入对象存储之前，已经记录到 JuiceFS 的元数据引擎中了。

4 JuiceFS 元数据的设计（TKV 版）

JuiceFS 支持不同类型的元数据引擎，例如 Redis、MySQL、TiKV/etcd 等等，每种类型的元数据引擎都有自己的 key 命名规则。本文讨论的是 JuiceFS 使用 transactional key-value（TKV）类型的元数据引擎时的 key 命名规则。

更具体地，我们将拿 TiKV 作为元数据引擎来研究。

4.1 TKV 类型 key 列表

这里的 key 是 JuiceFS 定义元数据 key，key/value 写入元数据引擎；请注意跟前面提到的对象存储 key 区别开，那个 key/value 是写入对象存储的。

key 是一个字符串，所有 key 的列表，

// pkg/meta/tkv.go setting format C{name} counter A{8byte-inode}I inode attribute A{8byte-inode}D{name} dentry A{8byte-inode}P{8byte-inode} parents // for hard links A{8byte-inode}C{4byte-blockID} file chunks A{8byte-inode}S symlink target A{8byte-inode}X{name} extented attribute D{8byte-inode}{8byte-length} deleted inodes F{8byte-inode} Flocks P{8byte-inode} POSIX locks K{8byte-sliceID}{8byte-blockID} slice refs Ltttttttt{8byte-sliceID} delayed slices SE{8byte-sessionID} session expire time SH{8byte-sessionID} session heartbeat // for legacy client SI{8byte-sessionID} session info SS{8byte-sessionID}{8byte-inode} sustained inode U{8byte-inode} usage of data length, space and inodes in directory N{8byte-inode} detached inde QD{8byte-inode} directory quota R{4byte-aclID} POSIX acl

在 TKV 的 Keys 中，所有整数都以编码后的二进制形式存储 [2]：

inode 和 counter value 占 8 个字节，使用小端编码
SessionID、sliceID 和 timestamp 占 8 个字节，使用大端编码

setting 是一个特殊的 key，对应的 value 就是这个 volume 的设置信息。前面的 JuiceFS 元数据引擎系列文章中介绍过 [3]，这里不再赘述。

其他的，每个 key 的首字母可以快速区分 key 的类型，

C：counter，这里面又包含很多种类，例如 name 可以是：
- nextChunk
- nextInode
- nextSession
A：inode attribute
D：deleted inodes
F：Flocks
P：POSIX lock
S：session related
K：slice ref
L: delayed (to be deleted?) slices
U：usage of data length, space and inodes in directory
N：detached inode
QD：directory quota
R：POSIX acl

需要注意的是，这里是 JuiceFS 定义的 key 格式，在实际将 key/value 写入元数据引擎时， 元数据引擎可能会对 key 再次进行编码，例如 TiKV 就会在 key 中再插入一些自己的字符。前面的 JuiceFS 元数据引擎系列文章中也介绍过，这里不再赘述。

4.2 元数据引擎中的 key/value 4.2.1 扫描相关的 TiKV key

TiKV 的 scan 操作类似 etcd 的 list prefix，这里扫描所有 foo-dev volume 相关的 key，

$ ./tikv-ctl.sh scan --from 'zfoo-dev' --to 'zfoo-dew' key: zfoo-dev\375\377A\000\000\000\020\377\377\377\377\177I\000\000\000\000\000\000\371 key: zfoo-dev\375\377A\001\000\000\000\000\000\000\377\000Dfile1_\3771KB\000\000\000\000\000\372 key: zfoo-dev\375\377A\001\000\000\000\000\000\000\377\000Dfile2_\3775MB\000\000\000\000\000\372 ... key: zfoo-dev\375\377SI\000\000\000\000\000\000\377\000\001\000\000\000\000\000\000\371 default cf value: start_ts: 453485726123950084 value: 7B225665727369...33537387D key: zfoo-dev\375\377U\001\000\000\000\000\000\000\377\000\000\000\000\000\000\000\000\370 key: zfoo-dev\375\377setting\000\376 default cf value: start_ts: 453485722598113282 value: 7B0A224E616D65223A202266...0A7D 4.2.2 解码成 JuiceFS metadata key

用 tikv-ctl --decode <key> 可以解码出来，注意去掉最前面的 z，得到的就是 JuiceFS 的原始 key，看着会更清楚一点，

foo-dev\375A\000\000\000\020\377\377\377\177I foo-dev\375A\001\000\000\000\000\000\000\000Dfile1_1KB foo-dev\375A\001\000\000\000\000\000\000\000Dfile2_5MB foo-dev\375A\001\000\000\000\000\000\000\000Dfile3_129MB foo-dev\375A\001\000\000\000\000\000\000\000I foo-dev\375A\002\000\000\000\000\000\000\000C\000\000\000\000 foo-dev\375A\002\000\000\000\000\000\000\000I foo-dev\375A\003\000\000\000\000\000\000\000C\000\000\000\000 foo-dev\375A\003\000\000\000\000\000\000\000I foo-dev\375A\004\000\000\000\000\000\000\000C\000\000\000\000 foo-dev\375A\004\000\000\000\000\000\000\000C\000\000\000\001 foo-dev\375A\004\000\000\000\000\000\000\000C\000\000\000\002 foo-dev\375A\004\000\000\000\000\000\000\000I foo-dev\375ClastCleanupFiles foo-dev\375ClastCleanupSessions foo-dev\375ClastCleanupTrash foo-dev\375CnextChunk foo-dev\375CnextCleanupSlices foo-dev\375CnextInode foo-dev\375CnextSession foo-dev\375CtotalInodes foo-dev\375CusedSpace foo-dev\375SE\000\000\000\000\000\000\000\001 foo-dev\375SI\000\000\000\000\000\000\000\001 foo-dev\375U\001\000\000\000\000\000\000\000 foo-dev\375setting

从上面的 keys，可以看到我们创建的三个文件的元信息了，这里面是用 slice_id 等信息关联的，所以能和对象存储里的数据 block 关联上。

可以基于上一节的 key 编码规则进一步解码，得到更具体的 sliceID/inode 等等信息，这里我们暂时就不展开了。

5 总结

这一篇我们深入到 JuiceFS 内部，从数据和元数据存储中的东西来 反观 JuiceFS 切分数据和记录元数据的设计。站在这个层次看，已经跟前一篇的理解程度全然不同。

如果说第一篇是“见自己”（功能如所见），这第二篇就是“见天（元数据引擎）地（对象存储）”，那必然还得有一篇“见众生”。

参考资料

官方文档：JuiceFS 如何存储文件, juicefs.com
官方文档：JuiceFS 开发：内部实现, juicefs.com
JuiceFS 元数据引擎初探：高层架构、引擎选型、读写工作流（2024）

直观解读 JuiceFS 的数据和元数据设计（三）：看山还是山（2024）

ARTHURCHIAO'S BLOG

11 months 1 week ago

本系列分为三篇文章，试图通过简单的实地环境来直观理解 JuiceFS 的数据（data）和元数据（metadata）设计。

Fig. JuiceFS object key naming and the objects in MinIO.

水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

直观解读 JuiceFS 的数据和元数据设计（一）：看山是山（2024）
直观解读 JuiceFS 的数据和元数据设计（二）：看山不是山（2024）
直观解读 JuiceFS 的数据和元数据设计（三）：看山还是山（2024）

1 如何从数据和元数据中恢复文件
- 1.2 理论步骤
- 1.2 juicefs info 查看文件 chunk/slice/block 信息
2 如何判断 {volume}/chunks/ 中的数据是否是合法
3 问题讨论
4 总结
参考资料

1 如何从数据和元数据中恢复文件 1.2 理论步骤

对于一个给定的 JuiceFS 文件，我们在上一篇中已经看到两个正向的过程：

文件本身被切分成 Chunk、Slice、Block，然后写入对象存储；
文件的元数据以 inode、slice、block 等信息组织，写入元数据引擎。

有了对正向过程的理解，我们反过来就能从对象存储和元数据引擎中恢复文件：对于一个给定的 JuiceFS 文件，

首先扫描元数据引擎，通过文件名、inode、slice 等等信息，拼凑出文件的大小、位置、权限等等信息；
然后根据 slice_id/block_id/block_size 拼凑出对象存储中的 object key；
依次去对象存储中根据这些 keys 读取数据拼到一起，得到的就是这个文件，然后写到本地、设置文件权限等等。

但这个恢复过程不是本文重点。本文主要看几个相关的问题，以加深对 JuiceFS 数据/元数据设计的理解。更多信息见官方文档 [2]。

1.2 juicefs info 查看文件 chunk/slice/block 信息

JuiceFS 已经提供了一个命令行选项，能直接查看文件的 chunk/slice/block 信息，例如：

$ ./juicefs info foo-dev/file2_5MB foo-dev/file2_5MB : inode: 3 files: 1 dirs: 0 length: 5.00 MiB (5242880 Bytes) size: 5.00 MiB (5242880 Bytes) path: /file2_5MB objects: +------------+--------------------------------+---------+--------+---------+ | chunkIndex | objectName | size | offset | length | +------------+--------------------------------+---------+--------+---------+ | 0 | foo-dev/chunks/0/0/3_0_4194304 | 4194304 | 0 | 4194304 | | 0 | foo-dev/chunks/0/0/3_1_1048576 | 1048576 | 0 | 1048576 | +------------+--------------------------------+---------+--------+---------+

和我们在 MinIO 中看到的一致。

2 如何判断 {volume}/chunks/ 中的数据是否是合法

bucket 中的数据是 JuiceFS 写入的，还是其他应用写入的呢？另外即使是 JuiceFS 写入的，也可能有一些数据是无效的，比如 size 为 0 的 block、超出所属 slice 范围的 block 等等。我们来看看基于哪些规则，能对这些非法数据进行判断。

2.1 原理

准备工作：

从 JuiceFS 的元数据引擎中读取所有 slice size，这对应的是元数据信息；
从 object storage 中读取所有 object key，这对应的数据信息。

接下来，根据几条标准，判断 bucket 中 {volume}/chunks/ 内的数据是否是合法的 JuiceFS 数据：

如果 object 不符合命名规范 {volume}/chunks/{slice_id/1000/1000}/{slice_id/1000}/{slice_id}_{block_id}_{block_size}，那么这个 object 就不是 JuiceFS 写入的；
如果符合以上命名规范，，那么这个 object 就是 JuiceFS 写入的，接下来，
1. 如果 object 大小为零，那可以清理掉，因为这种 object 留着没意义；
2. 如果 object 大小不为零，根据元数据内记录的 slice/block 信息计算这个 block 应该是多大，
  1. 如果大小跟 object 一致，那这个 object 就是一个合法的 JuiceFS 数据（Block）；
  2. 否则，说明这个 object 有问题。

这个过程是没问题的，但需要对所有 object 和所有元数据进行遍历和比对，效率比较低。有没有更快的方法呢？

2.2 改进：pending delete slices

回忆上一篇，在元数据引擎中其实已经记录了待删除的 slice/block 信息，这里“待删除”的意思是 JuiceFS 中已经把文件删掉了（用户看不到了，volume usage 统计也不显示了），但还没有从对象存储中删掉，

D 开头的记录：deleted inodes
格式：D{8bit-inode}{8bit-length}，

这种记录是 JuiceFS 在从 object storage 删除文件之前插入到元数据引擎中的，所以扫描所有 D 开头的记录，可以找到所有待删除的 slice/block 信息。

2.3 工具：juicefs gc

结合 2.1 & 2.2，就可以快速判断 bucket 中的数据是否是 JuiceFS 合法数据，不是就删掉；基于 juicefs 已有的代码库，就可以写一个工具 —— 但用不着自己写 —— JuiceFS 已经提供了。

2.3.1 核心代码

完整代码见 pkg/cmd/gc.go。

从元数据引擎 list 所有 slice 信息 func (m *kvMeta) ListSlices(ctx Context, slices map[Ino][]Slice, delete bool, showProgress func()) syscall.Errno { if delete m.doCleanupSlices() // 格式：A{8digit-inode}C{4digit-blockID} file chunks klen := 1 + 8 + 1 + 4 result := m.scanValues(m.fmtKey("A"), -1, func(k, v []byte) bool { return len(k) == klen && k[1+8] == 'C' }) for key, value := range result { inode := m.decodeInode([]byte(key)[1:9]) ss := readSliceBuf(value) // slice list for _, s := range ss if s.id > 0 slices[inode] = append(slices[inode], Slice{Id: s.id, Size: s.size}) } if m.getFormat().TrashDays == 0 return 0 return errno(m.scanTrashSlices(ctx, func(ss []Slice, _ int64) (bool, error) { slices[1] = append(slices[1], ss...) if showProgress != nil for range ss showProgress() return false, nil })) } 从对象存储 list 所有 objects 信息 // Scan all objects to find leaked ones blob = object.WithPrefix(blob, "chunks/") objs := osync.ListAll(blob, "", "", "", true) // List {vol_name}/chunks/ 下面所有对象遍历所有 objects，跟元数据引擎中的 slice 信息比对 for obj := range objs { // key 格式：{slice_id/1000/1000}/{slice_id/1000}/{slice_id}_{index}_{size} parts := strings.Split(obj.Key(), "/") // len(parts) == 3 parts = strings.Split(parts[2], "_") // len(parts) == 3 sliceID, _ := strconv.Atoi(parts[0]) // slice id, JuiceFS globally unique blockID, _ := strconv.Atoi(parts[1]) // blockID in this slice blockSize, _ := strconv.Atoi(parts[2]) // block size, <= 4MB sliceSizeFromMetaEngine := sliceSizesFromMetaEngine[uint64(sliceID)] // tikv 中记录的 slice size var isEmptySize bool if sliceSizeFromMetaEngine == 0 { sliceSizeFromMetaEngine = sliceSizesFromTrash[uint64(sliceID)] isEmptySize = true } if sliceSizeFromMetaEngine == 0 { foundLeaked(obj) continue } if blockSize == chunkConf.BlockSize { // exactly 4MB if (blockID+1)*blockSize > sliceSizeFromMetaEngine foundLeaked(obj) } else { // < 4MB if blockID*chunkConf.BlockSize+blockSize != sliceSizeFromMetaEngine foundLeaked(obj) }

slice size 为 0，说明这个 slice 在元数据引擎中被 compact 过了；
slice size 非零，
- block size == 4MB，可能是也可能不是最后一个 block；
- block size != 4MB，说明这个 block 是最后一个 block；

2.3.2 使用方式 $ ./juicefs gc -h NAME: juicefs gc - Garbage collector of objects in data storage USAGE: juicefs gc [command options] META-URL

大致效果：

$ ./juicefs gc tikv://192.168.1.1:2379,192.168.1.2:2379,192.168.1.3:2379/foo-dev <INFO>: TiKV gc interval is set to 3h0m0s [tkv_tikv.go:138] <INFO>: Data use minio://localhost:9000/juicefs-bucket/foo-dev/ [gc.go:101] Pending deleted files: 0 0.0/s Pending deleted data: 0.0 b (0 Bytes) 0.0 b/s Cleaned pending files: 0 0.0/s Cleaned pending data: 0.0 b (0 Bytes) 0.0 b/s Listed slices: 6 327.3/s Trash slices: 0 0.0/s Trash data: 0.0 b (0 Bytes) 0.0 b/s Cleaned trash slices: 0 0.0/s Cleaned trash data: 0.0 b (0 Bytes) 0.0 b/s Scanned objects: 37/37 [=================================] 8775.9/s used: 4.268971ms Valid objects: 37 11416.0/s Valid data: 134.0 MiB (140509216 Bytes) 41.0 GiB/s Compacted objects: 0 0.0/s Compacted data: 0.0 b (0 Bytes) 0.0 b/s Leaked objects: 0 0.0/s Leaked data: 0.0 b (0 Bytes) 0.0 b/s Skipped objects: 0 0.0/s Skipped data: 0.0 b (0 Bytes) 0.0 b/s <INFO>: scanned 37 objects, 37 valid, 0 compacted (0 bytes), 0 leaked (0 bytes), 0 delslices (0 bytes), 0 delfiles (0 bytes), 0 skipped (0 bytes) [gc.go:379] 3 问题讨论 3.1 chunk id 和 slice id 的分配

每个文件都是从 chunk0 开始的；
实际上没有 chunk id 的概念，只是在查找文件的过程中动态使用，并没有存储到数据和元数据中；

代码里就是直接根据 64MB 计算下一个 chunk id，接下来的读写都是 slice 维度的， slice id 是全局唯一的，会存储到数据（object key）和元数据（tikv keys/values）中。

下一个可用的 sliceID 和 inodeID 记录在 global unique 变量中，初始化：

Register("tikv", newKVMeta) // pkg/meta/tkv_tikv.go |-newBaseMeta(addr, conf) // pkg/meta/tkv.go |-newBaseMeta(addr, conf) // pkg/meta/base.go |-.freeInodes // initialized as default value of type `freeID` |-.freeSlices // initialized as default value of type `freeID`

然后，以写文件为例，调用栈：

Write(off uint64, data) |-if f.totalSlices() >= 1000 { | wait a while | } |-chunkID := uint32(off / meta.ChunkSize) // chunk index, or chunk id |-pos := uint32(off % meta.ChunkSize) // position inside the chunk for writing |-for len(data) > 0 { | |-writeChunk | |-c := f.findChunk(chunkID) | |-s := c.findWritableSlice(off, uint32(len(data))) | |-if no wriatable slice { | | s = &sliceWriter{chunk: c, off: off, } | | go s.prepareID(meta.Background, false) // pkg/vfs/writer.go | | |-NewSlice | | |-*id = m.freeSlices.next // globally unique ID | | | | c.slices = append(c.slices, s) | | if len(c.slices) == 1 { | | f.refs++ | | go c.commitThread() | | } | |-} | |-return s.write(ctx, off-s.off, data) | NewSlice // pkg/meta/base.go |-} 3.2 JuiceFS pending delete slices 和 background job 3.2.1 设计初衷

引入 pending delete slices 主要是大批量删除场景的性能优化：

每个 JuiceFS 客户端只允许并发 100 的删除操作；
超过 100 时，自动放入后台队列，由 background job 异步删除；

3.2.2 代码 // pkg/meta/base.go func (m *baseMeta) fileDeleted(opened, force bool, inode Ino, length uint64) { if opened m.removedFiles[inode] = true else m.tryDeleteFileData(inode, length, force) } func (m *baseMeta) tryDeleteFileData(inode Ino, length uint64, force bool) { if force { m.maxDeleting <- struct{}{} } else { select { case m.maxDeleting <- struct{}{}: // maxDeleting 没满，直接删 default: // maxDeleting 满了之后走到这里，直接返回，靠后台任务删 return // will be cleanup later } } go func() { m.en.doDeleteFileData(inode, length) <-m.maxDeleting }() }

这个 maxDeleting 初始为一个 100 的 buffered channel，每次删除文件时，会尝试往里面放一个元素，

// pkg/meta/base.go func newBaseMeta(addr string, conf *Config) *baseMeta { return &baseMeta{ sid: conf.Sid, removedFiles: make(map[Ino]bool), compacting: make(map[uint64]bool), maxDeleting: make(chan struct{}, 100), // 代码里写死了 100 ... 3.2.3 潜在的问题

后台删除是 JuiceFS client 中的 background job 做的，这个 background job 的开关是可配置的，

$ ./juicefs mount --no-bgjob ... # 关闭 background job

这个开关的控制有点 tricky：

打开：如果一个 volume 的客户端太多，大家都会去做后台清理，都获取文件锁，对元数据引擎的压力非常大；
关闭：没有客户端去做后台清理，导致这些文件一直存在于对象存在中，也可以称为文件泄露，使用成本上升。

一种折中的做法：

客户端不太多的 volumes：默认启用 bgjob；
客户端太多的 volumes，默认关闭 bgjob，然后指定特定的 client 开启 bgjob，代表这个 volume 的所有客户端执行清理操作。

3.3 JuiceFS 支持的单个最大文件 128PiB 是怎么来的

从以上定义可以看到，理论上 JuiceFS 支持的单个文件大小是 maxSliceID (int64) * maxChunkSize，以默认的 maxChunkSize=64MB（2^26 Byte）为例，

理论上限：2^63 * 2^26 = 2^(63+26) Byte。
实际上限：2^31 * 2^26 = 2^(31+26) Byte = 128PiB，这个数字来自官方文档。

实际上限是 128PiB 的原因也很简单，在代码里写死了，

// pkg/vfs/vfs.go const ( maxFileSize = meta.ChunkSize << 31 ) 3.4 为什么 JuiceFS 写入对象存储的文件，不能通过对象存储直接读取？

这里说的“不能读取”，是指不能直接读出原文件给到用户，而不是说不能读取 objects。

看过本文应该很清楚了，JuiceFS 写入对象存储的文件是按照 Chunk、Slice、Block 进行切分的，只有数据内容，且保护重复数据，还没有文件信息元信息（文件名等）。

所以，以对象的存储的方式只能读这些 objects，是无法恢复出原文件给到用户的。

3.5 JuiceFS 不会对文件进行合并

Highlight：JuiceFS 不会文件进行合并写入对象存储，这是为了避免读放大。

4 总结

至此，我们对 JuiceFS 数据和元数据设计的探索学习就告一段落了。希望有了这些知识，用户和工程师在日常的使用和维护 JuiceFS 过程中，看问题和解决问题能更加得心应手。

参考资料

官方文档：JuiceFS 如何存储文件, juicefs.com
官方文档：文件数据格式, juicefs.com

JuiceFS 元数据引擎五探：元数据备份与恢复（2024）

ARTHURCHIAO'S BLOG

11 months 4 weeks ago

Fig. TiKV backup with different CLI tools (and their problems).

JuiceFS 元数据引擎初探：高层架构、引擎选型、读写工作流（2024）
JuiceFS 元数据引擎再探：开箱解读 TiKV 中的 JuiceFS 元数据（2024）
JuiceFS 元数据引擎三探：从实践中学习 TiKV 的 MVCC 和 GC（2024）
JuiceFS 元数据引擎四探：元数据大小评估、限流与限速的设计思考（2024）
JuiceFS 元数据引擎五探：元数据备份与恢复（2024）

水平及维护精力所限，文中不免存在错误或过时之处，请酌情参考。 传播知识，尊重劳动，年满十八周岁，转载请注明出处。

1 JuiceFS 元数据备份方式
2 JuiceFS 自带方式（volume 级别）
3 从 TiKV 层面对 JuiceFS 元数据进行备份
参考资料

1 JuiceFS 元数据备份方式

再复习下 JuiceFS 架构，如下图所示：

Fig. JuiceFS cluster initialization, and how POSIX file operations are handled by JuiceFS.

JuiceFS 的元数据都存储在元数据引擎（例如，TiKV）里，因此元数据的备份有两种实现方式：

从上层备份：JuiceFS client 扫描 volume，将 volume 内所有元数据备份；
元数据引擎（例如 TiKV）备份。

下面分别看看这两种方式。

2 JuiceFS 自带方式（volume 级别） 2.1 juicefs dump 手动备份 volume metadata

对指定 volume 进行备份，

$ juicefs dump tikv://ip:2379/foo-dev foo-dev-dump.json <INFO>: Meta address: tikv://<ip>:2379/foo-dev [interface.go:406] <WARNING>: Secret key is removed for the sake of safety [tkv.go:2571] Scan keys count: 357806 / 357806 [===========================] done Dumped entries count: 122527 / 122527 [===========================] done <INFO>: Dump metadata into dump succeed [dump.go:76]

生成的是一个 JSON 文件，包含了 volume 的所有元数据信息，

{ "Setting": { "Name": "foo-dev", "UUID": "ca95c258", "Storage": "OSS", "Bucket": "http://<url>", "AccessKey": "ak", "BlockSize": 4096, "Capacity": 0, "Inodes": 0, "MetaVersion": 0, "MinClientVersion": "", "MaxClientVersion": "", }, "Counters": { "usedSpace": 6164512768, "usedInodes": 5010, "nextInodes": 10402, "nextChunk": 25001, "nextSession": 118, }, "FSTree": { "attr": {"inode":1,"type":"directory","mode":511,"atime":1645791488,"mtime":1652433235,"ctime":1652433235,"mtimensec":553010494,"ctimensec":553010494,"nlink":2,"length":0}, "xattrs": [{"name":"lastBackup","value":"2024-05-30T13:50:25+08:00"}], "entries": { "001eb8b": { "attr": {...}, "chunks": [{"index":0,"slices":[{"chunkid":15931,"size":32,"len":32}]}] ... } } }, }

其中，volume 中的所有文件和目录信息都描述在 FSTree 字段中。

2.2 juicefs mount --backup-meta <duration> 自动备份

juicefs client 默认会自动备份 volume 的元数据，

备份间隔通过 --backup-meta {duration} 选项控制，默认 1h，
备份文件在对象存储的 meta 特殊目录中，该目录在挂载点中不可见，用对象存储的文件浏览器可以查看和管理，
多 client 挂载同一个 volume 也不会发生备份冲突，因为 JuiceFS 维护了一个全局的时间戳，确保同一时刻只有一个客户端执行备份操作，但是，
当文件数太多（默认达到 100w）且备份频率为默认值 1h 时，为避免备份开销太大，JuiceFS 会自动停止元数据备份，并打印相应的告警。

2.3 juicefs load 从元数据备份文件恢复 $ juicefs load tikv://<ip>:2379/foo-dev-new foo-dev-dump.json 2.4 限制及问题

根据官方文档，以上两种方式都有一些限制或问题：

导出过程中如果业务仍在写入，导出的文件可能不可用。如果对一致性有更高要求，需要在导出前停写。
对规模较大的 volume，直接在线上进行导出可能会影响业务稳定性。

另外，以上方式都是 volume 级别的备份，如果要备份整个 JuiceFS 集群，需要逐个 volume 备份，比较麻烦。下面再看看直接从元数据引擎进行备份的方式。

3 从 TiKV 层面对 JuiceFS 元数据进行备份

这里假设 JuiceFS 的元数据引擎是 TiKV。

3.1 TiKV backup/restore 原理

从上层来说，很简单：

发请求给 TiKV 集群的管理者 PD，让它对集群的所有数据进行备份；
接下来，PD 会发请求给集群的所有 TiKV 节点，通知它们各自进行备份
- TiKV 是按 region 进行多副本存储的，因此只需要一个副本进行备份就行了，
- 在当前的设计里面就是让每个 region 的 leader 副本进行备份，
TiKV region leaders 把这个 region 内的数据写到指定位置。可以是本地磁盘或分布式存储。

3.2 备份工具 TiDB br 和 TiKV tikv-br

理论上，有两个工具可能实现以上效果，它们分别来自 TiDB 和 TiKV 社区，

Fig. TiKV backup with different CLI tools (and their problems).

br：以前是个独立项目（图中 A.1），后来合到 tidb 仓库里了（图中 B.1），

这个工具主要是给 TiDB 备份用的（虽然底层备份的是 TiDB 的 TiKV），所以需要一些 TiDB 知识（上下文），例如 db/table 都是 TiDB 才有的概念。理论上，它也能备份独立部署的 TiKV 集群（“不依赖 TiDB 的 TiKV”），所以加了 raw/txn 支持，但不是 TiDB 社区的重点，所以目前还是 experimental 特性，且用下来有 bug。
tikv-br：是个独立项目，应该是当时 TiKV 作为独立项目推进时，想搞一个配套的独立备份工具，但目前看起来跟 TiKV 社区一样已经不活跃了，它也没法对 txn 进行备份（JuiceFS 用的 txnkv 接口）。

至少对于 5.x TiKV 集群，测试下来以上哪个工具都无法完成备份：有的工具备份和恢复都提示完成，看起来是成功的，但实际上是失败的，JuiceFS 挂载时才能发现。

最后，我们是基于目前（2024.09）最新的 TiDB br，修改了两个地方，才成功完成 TiKV 的备份与恢复。

3.3 基于 TiDB br 对 JuiceFS TiKV 集群进行备份与恢复的步骤

之所以要强调 “JuiceFS TiKV 集群”，是因为 JuiceFS 用的 txnkv 接口，这个比较特殊；如果是 rawkv 接口，那 tikv 自带的备份工具 tikv-br 也许就能用了（没测过）。

（可选）关闭 TiKV MVCC GC；
br 执行备份，

br-dev 是我们基于最新 master（202409）改过的版本。
$ ./br-dev backup txn \ --ca /tmp/pki/root.crt --cert /tmp/pki/pd.crt --key /tmp/pki/pd.key \ --pd https://$pd_addr \ --s3.endpoint $s3_addr \ --storage $storage_path \ --log-file /var/log/tikv/br.log \ --ratelimit $bw_limit_per_node \ --log-level debug \ --check-requirements=false
可以设置限速等参数，避免备份占用的 CPU/Memory/DiskIO/… 过大。根据 db size 等等因素，备份的耗时是可估算的，下面拿一个真实集群的备份为例：
- 每个 TiKV 的 DB size：监控能看到，一般每个节点的 DB size 都差不太多，这里是 25GB per TiKV node；
- MVCC 保留了数据的多个版本：假设平均保留两个版本，那就是 DB size * 2
- 限速带宽：设置为 30MB/s，这个带宽不算大，不会是磁盘和网络瓶颈，因此可以全速运行
根据以上参数，估算耗时：25GB * 2 / 30MBps = 1700s = 28min

Fig. TiKV backup resource usage with br --ratelimit=30MB/s.

可以看到跟预估的差不多。资源销毁方面：
- CPU 利用率比平时翻倍；
- 其中两台机器的 CPU 数量比较少，所以会比其他节点更明显。
检查备份

如果是备份到 S3，可以用 s3cmd 或 web 控制台查看，
$ s3cmd du s3://{bucket}/<backup>/ 295655971082 18513 objects s3://{bucket}/<backup>/
290GB 左右，比监控看到的 DB size 大一倍，因为保留了 MVCC 多版本。大多少倍与 MVCC GC 间隔有密切关系，比如写或更新很频繁的场景，1h 和 3h 的 MVCC 数据量就差很多了。
br 恢复：将备份数据恢复到一个新的 JuiceFS TiKV 集群，
$ ./br-dev restore txn \ --ca /tmp/pki/root.crt --cert /tmp/pki/pd.crt --key /tmp/pki/pd.key \ --pd https://$pd_addr \ --s3.endpoint $s3_addr \ --storage $storage_path \ --log-file /var/log/tikv/br.log \ --ratelimit $bw_limit_per_node \ --log-level debug \ --check-requirements=false
可能的问题：ratelimit 好像不起作用，全速恢复，网络带宽打的很高。
JuiceFS client 挂载，验证恢复成功

用 juicefs 挂载目录，指定新 TiKV 集群的 PD 地址，
$ juicefs mount tikv://<new-pd-ip>:2379/<volume name> /tmp/test $ cd /tmp/test && ls # 原来 volume 内的文件都在

3.4 TiDB br 备份逻辑

感兴趣的可以看看 br 源码的备份逻辑，

3.4.1 RunBackupTxn() // tidb br/pkg/task/backup_txn.go // RunBackupTxn starts a backup task inside the current goroutine. func RunBackupTxn(c context.Context, g glue.Glue, cmdName string, cfg *TxnKvConfig) error { mgr := NewMgr(ctx, g, cfg.PD, cfg.TLS, GetKeepalive(&cfg.Config), cfg.CheckRequirements, false) client := backup.NewBackupClient(ctx, mgr) backupRanges := make([]rtree.Range, 0, 1) // current just build full txn range to support full txn backup minStartKey := []byte{} maxEndKey := []byte{} backupRanges = append(backupRanges, rtree.Range{ StartKey: minStartKey, EndKey: maxEndKey, }) // Backup req := backuppb.BackupRequest{ ClusterId: client.GetClusterID(), StartVersion: 0, EndVersion: client.GetCurrentTS(ctx), // gets a new timestamp (TSO) from PD RateLimit: cfg.RateLimit, Concurrency: cfg.Concurrency, StorageBackend: client.GetStorageBackend(), IsRawKv: false, } ranges, schemas, policies := client.BuildBackupRangeAndSchema(mgr.GetStorage(), cfg.TableFilter, backupTS, isFullBackup(cmdName)) // StartWriteMetasAsync writes four kind of meta into backupmeta. // 1. file // 2. schema // 3. ddl // 4. rawRange( raw kv ) metaWriter := metautil.NewMetaWriter(client.GetStorage(), metautil.MetaFileSize, false, metautil.MetaFile, &cfg.CipherInfo) metaWriter.StartWriteMetasAsync(ctx, metautil.AppendDataFile) // Start TiKV backup client.BackupRanges(ctx, backupRanges, req, 1, nil, metaWriter, progressCallBack) // Backup has finished metaWriter.Update(func(m *backuppb.BackupMeta) { m.StartVersion = req.StartVersion m.EndVersion = req.EndVersion m.IsRawKv = false m.IsTxnKv = true m.ClusterId = req.ClusterId m.ClusterVersion = mgr.GetClusterVersion(ctx) m.BrVersion = brVersion m.ApiVersion = client.GetApiVersion() }) metaWriter.FinishWriteMetas(ctx, metautil.AppendDataFile) metaWriter.FlushBackupMeta(ctx) }

几点说明：

KV 的 backup range 是全量（start/end key 都是空）；
MVCC 的 start/end version 分别是 0 和当前 PD 最新的 TSO；

3.4.2 调用栈 BackupRanges // make a backup of the given key ranges. |-mainBackupLoop := &MainBackupLoop | BackupSender: &MainBackupSender{}, | BackupReq: request, | Concurrency: concurrency, | GlobalProgressTree: &globalProgressTree, | ReplicaReadLabel: replicaReadLabel, | GetBackupClientCallBack: func(ctx , storeID uint64, reset bool) (backuppb.BackupClient, error) { | return bc.mgr.GetBackupClient(ctx, storeID) | }, | } |-bc.RunLoop(ctx, mainBackupLoop) // infinite loop to backup ranges on all tikv stores |-for { inCompleteRanges = iter.GetIncompleteRanges() // 还未完成备份的 key 范围 loop.BackupReq.SubRanges = getBackupRanges(inCompleteRanges) allStores := bc.getBackupStores(mainCtx, loop.ReplicaReadLabel) for _, store := range allStores { cli := loop.GetBackupClientCallBack(mainCtx, storeID, reset) loop.SendAsync(round, storeID, loop.BackupReq, loop.Concurrency, cli, ch, loop.StateNotifier) |-go startBackup(storeID, request, cli, concurrency, respCh) |-for i, req := range reqs { doSendBackup(ectx, backupCli, bkReq, ...) |-ctx, timerecv := StartTimeoutRecv(pctx, TimeoutOneResponse) |-bCli := client.Backup(ctx, &req) // protobuf grpc method |-for { |- resp := bCli.Recv() |- timerecv.Refresh() |- respFn(resp) |-} } } 3.4.3 tikv-server 备份代码 // components/backup/src/service.rs impl<H> Backup for Service<H> { fn backup( req: BackupRequest, mut sink: ServerStreamingSink<BackupResponse>, ) { if let Err(status) = match Task::new(req, tx) { Ok((task, c)) => { self.scheduler.schedule(task) } } let send_task = async move { let mut s = rx.map(|resp| Ok((resp, WriteFlags::default()))); sink.send_all(&mut s).await?; } ctx.spawn(send_task); } } /// Backup Task. pub struct Task { request: Request, pub(crate) resp: UnboundedSender<BackupResponse>, } // components/backup/src/endpoint.rs impl Task { /// Create a backup task based on the given backup request. pub fn new( req: BackupRequest, resp: UnboundedSender<BackupResponse>, ) -> Result<(Task, Arc<AtomicBool>)> { let speed_limit = req.get_rate_limit(); let limiter = Limiter::new(if speed_limit > 0 else f64::INFINITY }); let cf = name_to_cf(req.get_cf()) let task = Task { request: Request { start_key: req.get_start_key().to_owned(), end_key: req.get_end_key().to_owned(), sub_ranges: req.get_sub_ranges().to_owned(), start_ts: req.get_start_version().into(), end_ts: req.get_end_version().into(), backend: req.get_storage_backend().clone(), limiter, is_raw_kv: req.get_is_raw_kv(), dst_api_ver: req.get_dst_api_version(), cf, replica_read: req.get_replica_read(), resource_group_name: .get_resource_group_name().to_owned(), }), }, resp, }; } } // components/backup/src/endpoint.rs BackupRanges -> BackupWriterBuilder -> S3Uploader self.writer.put(&data_key_write, value) -> s3 put 参考资料

官方文档：元数据备份和恢复, juicefs.com

Checked

4 hours 30 minutes ago

ArthurChiao's Blog

URL

https://arthurchiao.github.io/

ARTHURCHIAO'S BLOG feed

ARTHURCHIAO'S BLOG

Managed ad