Aggregator
[译] 关于 AI 下半场的思考:技术/模型篇(2025)
本文翻译自 2025 年的一篇英文博客 The Second Half。 拆分了一些章节并增加标题,方便个人学习理解。
文章几个核心点:
-
Agent + Reasoning + prior knowledge,使得强化学习终于能泛化,一套组合拳能完成所有场景的任务, 因此专攻算法和模型变得没以前那么重要;
针对特定任务的新算法可能只能提高 5%, 而得益于预训练、强化学习和良好的泛化能力,下一代推理模型可以在不明确针对这个任务的情况下直接提高 30%。
-
模型已经在大多数任务上超越人类选手,但还并未对真实世界产生太大影响(例如,经济、GDP);
-
基于 1 & 2,认为 AI 发展进入中场时刻,需要做出方向性转变,
- 上半场:专注在算法和模型训练,但评估方式没有与现实世界对齐,因此对真实世界影响不够大;
- 下半场:应该从根本上重新考虑评估(evaluation)这个事情,让 AI 能更大程度影响真实世界,甚至通往 AGI。
水平及维护精力所限,译文不免存在错误或过时之处,如有疑问,请查阅原文。 传播知识,尊重劳动,年满十八周岁,转载请注明出处。
- 1 引言
- 2 上半场
- 3 下半场
- 原文致谢
最近几十年,人工智能领域主要致力于提出新的训练方法和模型(new training methods and models)。 这个方向是成功的,例如 AI 已经能:
- 在国际象棋和围棋中击败人类世界冠军,
- 在 SAT 和律师资格考试中超越大多数人类应试者,
- 在国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中获得金牌。
教科书中的一系列里程碑模型(DeepBlue、AlphaGo、GPT-4、GPT-o 系列)背后, 是人工智能方法的根本性创新:
- 搜索(search)
- 深度强化学习(deep RL)
- 扩展/规模(scaling)
- 推理(reasoning)
一切都在沿着这个方向不断进步。那么,现在为什么突然说要进入下半场了呢?
1.2 为什么说要进入下半场了?用一句话来回答:强化学习终于奏效了(RL finally works)。
1.2.1 游戏终结者:强化学习(终于能泛化了!)更准确地说:强化学习终于能够泛化了(RL finally generalizes)。
- 之前的一系列突破不断累积,使我们终于找到了一种统一的方式,只使用语言和推理(language and reasoning) 就能完成各种领域的强化学习任务(a wide range of RL tasks)。
- 即便在仅仅一年前,如果你跟任何 AI 研究者说,有一种统一的方式可以解决 软件工程、创意写作、数学、AI 自动使用鼠标和键盘、长篇问答等领域的任务,肯定都会得到无情的嘲笑。 这些任务每一个都极其困难,许多人在整个博士期间也只专注于其中的某个狭窄领域。然而,现在不一样了。
人工智能的下半场,重点将从解决问题(solving problems)转移到定义问题(defining problems)。 具体来说,
- 评估将比训练更重要(evaluation becomes more important than training);
- 原来是思考 “我们能训练一个模型来解决某某问题吗”,现在更应该思考:“我们应该训练人工智能做什么?如何衡量我们的进展?”
要在下半场取得成功,需要及时转变思维方式和技术储备 —— 也许要更多地像产品经理那样思考。
2 上半场 2.1 训练方法和模型要理解上半场,可以先看看它的赢家是谁。你认为到目前为止最有影响力的 AI 论文是什么?
我在斯坦福 224N 课程中做了调研,答案并不令人惊讶:Transformer、AlexNet、GPT-3 等等。
2.1.1 最有影响力的 AI 论文的共同点这些论文有什么共同点?
首先,都提出了一些根本性的创新,能训练出更好的模型。
其次,还有一个不那么明显的共同点:这些“赢家”都是训练方法或模型(methods or models),而不是基准测试或任务(benchmarks or tasks)。
- 即使是最有影响力的基准测试 —— ImageNet —— 其引用量也不及 AlexNet 的三分之一。
- 在其他地方,方法与基准的对比甚至更为悬殊。例如,Transformer 的主要基准测试是 WMT’14,其引用量约为 1300,而 Transformer 的引用量则超过了 16w。
这说明了上半场的游戏 专注于构建新的模型和方法,而评估和基准测试是次要的(尽管是论文系统正常运转所必要的)。
算法 vs. 任务:洞察力和工程能力为什么呢?一个很大的原因是,在人工智能的上半场,方法/算法比任务更难、更令人兴奋。
- 从零开始设计一个新算法或模型架构 —— 例如反向传播算法、卷积网络(AlexNet)、GPT-3 中使用的 Transformer —— 需要非凡的洞察力和工程能力。
- 相比之下,为人工智能定义任务往往感觉更简单直接: 我们只是把人类已经做的事情(比如翻译、图像识别或国际象棋)变成基准测试 —— 不需要太多洞察力甚至工程能力。
方法(methods)也往往比单个任务(task)更具通用性和普适性,这使得它们非常有价值。
例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)以及许多其他领域的进步 —— 远远超出了它最初证明自己的单一数据集(WMT’14 translation)。
一个伟大的新方法可以在许多不同的基准测试中不断改进提升,因为它简单且通用,因此其影响往往超出单个任务。
2.1.3 训练组合拳的质变时刻这种方式已经持续了几十年,并激发了很多改变世界的思想和突破 —— 体现在各个领域不断提高的基准测试性能上。
那么,为什么说此时到了一个分水岭了呢?因为这些思想和突破的积累已经产生质变(made a qualitative difference), 能让我们用一种新方式完成不同类型的任务。
训练组合拳包括什么呢?
- massive language pre-training
- scale (in data and compute)
- reasoning and acting
这些术语大家应该已经司空见惯了。 但为什么称它们为组合拳呢?可以通过强化学习(RL)来理解一下。
2.2 强化学习(RL)强化学习通常被认为是人工智能的“终极游戏” —— 毕竟, 从理论上讲,RL 能够完成任何任务,而且很难想象不用 RL 就能实现的超级人类系统(例如 AlphaGo)。
在 RL 中,有三个关键组成部分:
- 算法
- 环境
- 先验知识
长期以来,RL 研究者主要关注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……)—— 这是 agent 学习的智力核心 —— 而将环境和先验知识视为固定或最小化的。 例如,Sutton 和 Barto 的经典教科书几乎只关注算法,而几乎不涉及环境或先验知识。
2.2.2 深度 RL:环境因素非常重要,决定算法的效果在深度 RL 时代,从经验上说,环境很重要:算法的性能往往与其开发和测试环境高度相关。
如果忽视环境,你可能构建出来的就是一个只在 toy 设置中表现出色的“最优”算法。
2.2.3 深度 RL:OpenAI 的工程经验也就是说,我们需要先确定我们真正想要解决的环境,然后才能找到最适合它的算法。 这正是 OpenAI 最初的计划。
- OpenAI 先是构建了 gym,一个用于各种游戏的标准 RL 环境,
- 然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成一个游戏。
一旦我们将所有数字世界变成一个环境,就能用 RL 算法解决它 —— 最终我们就拥有了通用人工智能(AGI)。
计划是好的,但并不完全奏效。OpenAI 在这条道路上取得了巨大的进展,使用 RL 解决了 Dota、robotic hands 等问题。 但它从未接近解决 computer use 或 web navigation 问题,而且在不同领域工作的 RL agents 无法相互转移学到的知识。 中间似乎缺少了什么。
直到 GPT-2 或 GPT-3 出现后,才发现缺失的部分是先验知识。
- 你需要强大的预训练,将一般常识和语言知识提炼到模型中,
- 然后可以微调以成为 web agent (WebGPT) 或 chat agent (ChatGPT) (进而改变真实世界)。
事实证明,RL 最重要的部分可能不是 RL 算法或环境,而是先验知识, 这些可以通过与 RL 完全无关的方式获得。
预训练只对聊天场景比较有效(先验知识)预训练为聊天场景(chatting)创造了良好的先验知识,但并不同样适用于控制计算机或玩电子游戏。
为什么呢?因为这些领域与互联网文本的分布相距较远,而简单地在这些领域进行 SFT/RL 很难泛化。
2.3 顿悟时刻:模型需要像人类一样去【思考】我在 2019 年注意到了这个问题,当时 GPT-2 刚刚问世,我在其基础上进行了 SFT/RL,以解决基于文本的游戏 —— CALM 是世界上第一个通过预训练语言模型构建的 agent。 但该 agent 需要数百万次 RL 步骤才能学会一个游戏,而且无法转移到新游戏中。
尽管这是 RL 的典型特征,RL 研究者对此并不陌生,但我发现这很奇怪,因为我们人类可以轻松地玩一个新游戏,并且在零样本的情况下表现得更好。 然后我迎来了人生中的第一个顿悟时刻 —— 我们之所以能够泛化,是因为我们不仅可以选择“走到橱柜 2”、“用钥匙 1 打开宝箱 3”或“用剑打开地牢”等动作,还可以选择思考像“地牢很危险,我需要武器来战斗。没有可见的武器,也许我需要在锁着的箱子或宝箱中找到一个。宝箱 3 在橱柜 2 里,我先去那里打开它”这样的事情。
2.4 突破:AI 思考/推理思考,或者说推理,是一种奇怪的动作 —— 它并不直接影响外部世界, 而推理空间是开放的、无限组合的 —— 你可以去想一个词、一句话、一段文字, 或者 10000 个随机的单词,但你周围的世界并不会立即改变。
2.4.1 经典 RL:无法在开放、无限组合的推理空间做出决策在经典 RL 理论中,这是一个糟糕的事情,因为它导致无法做出决策。 想象一下,
- 如果你要在两个盒子中选择一个,其中一个盒子里有 100 万美元,另一个是空的。那你的期望收益将是 50 万美元。
- 如果在其中增加了无数个空盒子,你的期望收益将变为零。
But by adding reasoning into the action space of any RL environment, we make use of the language pre-training priors to generalize, and we afford to have flexible test-time compute for different decisions.
但是,往任何 RL 环境的 action space 加入 reasoning 能力之后, 我们就利用预训练的先验知识来泛化, 并且可以为不同的决策提供灵活的 test-time compute。
这是一件非常神奇的事情,我为不能在这里完全解释清楚而致歉,可能需要再写一篇文章来专门来解释它。 你可以阅读我的 paper ReAct 了解最原始的 agent 推理的故事,感受一下我当时的感受。
2.4.3 “选盒子游戏”的直观 vs. 抽象解释目前,我的直观解释是:即使增加了无数个空盒子,但你此生已经在玩过的各种游戏中都见过它们, 因此在任何给定的游戏中,你能尽量排除掉它们,仍然选出最有可能装了钱的那个盒子。
我的抽象解释是:agents 中,语言通过推理实现泛化(language generalizes through reasoning in agents)。
2.5 RL 小结:先验知识 > 环境 > 算法一旦我们有了正确的 RL 先验知识(语言预训练)和 RL 环境(将语言推理作为动作), 事实证明 RL 算法可能就是最不重要的部分了。
因此,我们有了 GPT-o 系列、DeepSeek R1、深度研究、computer-use agent ,还会有更多出现。
真是一个讽刺的转折!长期以来,RL 研究者一直最关注算法,然后才是环境,而没有人关注过先验知识 —— 所有 RL 实验基本上都是从头开始的。 我们经过了数十年的曲折才意识到,也许优先级应该完全颠倒过来。
但正如史蒂夫·乔布斯所说:You can’t connect the dots looking forward; you can only connect them looking backward。
这个发现正在彻底改变游戏规则。
3 下半场回顾上半场的游戏:
- 开发新的训练方法或模型,以在基准测试中不断提升性能;
- 创建更难的基准测试;
- 转 1,继续这个循环。
这个游戏现在玩不下去了,因为:
- 这种基准测试本质已经很标准化和工业化,不需要什么新算法就能实现性能提升 —— 你针对特定任务的新方法可能只能提高 5%, 而得益于预训练、强化学习和良好的泛化能力,下一个 o 系列模型可以在不明确针对它的情况下提高 30%。
-
即使创建更难的基准测试,很快(而且越来越快)它们也会被以上方式解决。 我的同事 Jason Wei 制作了下图,很好地可视化了这一趋势:
那么,在下半场还剩下什么呢?如果不再需要新方法,而更难的基准测试很快就会被解决,我们该怎么办?
3.1 从根本上重新思考 evaluation我认为,我们应该从根本上重新思考评估(evaluation)。
- 这意味着不仅要创建新的、更难的基准测试,
- 还要从根本上质疑现有的评估 setups 并创建新的 setups,迫使我们发明出更有效的评估新方法。
这很难,因为人类有惯性,很少质疑基本假设 —— 你把它们当作理所当然,而没有意识到它们是假设,而不是法则。
为了说明惯性,假设你基于人类考试发明了历史上最成功的评估之一。 这是一个在 2021 年非常大胆的想法,但 3 年后它已经饱和了。 你会怎么做?最有可能的是创建一个更难的考试。 或者假设你解决了简单的编程任务。你会怎么做?最有可能的是找到更难的编程任务来解决,直到你达到了 IOI 金牌水平。
3.2 效用问题:AI 已经在大量场合超越人类,但并未对真实世界(e.g. GDP)产生太大影响人工智能已经在国际象棋和围棋中击败了世界冠军, 在 SAT 和律师资格考试中超越了大多数人类,并在 IOI 和 IMO 中达到了金牌水平。但世界并没有因此而发生太大变化,至少从经济和 GDP 来看是这样。
我称这为效用问题,并认为这是人工智能最重要的问题。
这个问题我们也许会很快解决,也许不会。但不管怎样,这个问题的根本原因可能出人意料地简单: 我们的评估 setups 在许多基本方面与现实世界 setups 不同。
3.3 评估 setups 与现实世界 setups 不同举两个例子。
3.3.1 例子一:评估“应该”自动运行根据这个假设,通常 agent 接收任务输入,自主地做事情,然后接收任务奖励。
但在现实中, agent 必须在整个任务过程中与人类互动 —— 你不会给客户服务发一条超长的信息,等 10 分钟, 然后期望一个详细的回复来解决所有问题。
解决这类问题就需要提出一些新的基准测试,要么引入真人打分(例如 Chatbot Arena),要么引入用户模拟(例如 tau-bench)。
3.3.2 例子二:评估“应该”独立同分布(i.i.d.)如果你有一个包含 500 个任务的测试集,你会独立运行每个任务,平均任务指标,然后得到一个总体指标。
但在现实中,你是顺序解决任务,而不是并行解决。
- 谷歌的软件工程师(SWE)随着对代码库的熟悉程度越来越高,解决 google 问题的能力也越来越强,
- 但 SWE agent 在同一个代码库中解决许多问题之后,却无法获得这种熟悉感。
我们显然需要长期记忆方法(已经有了),但学术界没有合适的基准测试来证明这种需求, 甚至没有勇气质疑机器学习的基础假设 —— 独立同分布。
这些假设“一直”以来都是这样,而在人工智能的上半场,在这些假设下开发基准测试是可以的, 因为当智能水平较低时,提高智能通常会提高效用(when the intelligence is low, improving intelligence generally improves utility)。
3.4 下半场游戏规则下半场的游戏方式:
- 开发针对现实世界效用的新评估 setups 或任务;
- 用现在的训练组合拳(或引入新组件增强)去训练模型,在 1 的任务上不断提升性能;
- 转 1,继续这个循环。
下半场的游戏很难,因为大家对它还比较陌生,但它令人兴奋。
- 上半场的参与者解决了电子游戏和考试,下半场的参与者可以通过开发有用的 AI 产品,建立数十亿甚至万亿美元的公司。
- 上半场是渐进式的方法和模型,下半场则不一样了, 通用训练组合拳能轻松击败渐进式方法,除非你能提出新的假设来打破组合拳,那你就是在做真正改变游戏规则的研究了。
欢迎来到下半场!
原文致谢This blog post is based on my talk given at Stanford 224N and Columbia. I used OpenAI deep research to read my slides and write a draft.
[笔记] 关于 AI 下半场的思考:商业/应用篇(2025)
本篇笔记整理自 2025 年真格基金的一篇长文 从「没必要付费」到「非用不可」,AI 正在冲击人类历史上最快的增长纪录。 拆分了一些章节并增加标题,方便个人学习理解。
近日,真格基金展开了一场关于 AI 创业的深度对谈,核心点:
- 真正的技术突破,不依赖营销也能实现自发传播。DeepSeek 是个例子。
- AI 正在把我们带回那个凭产品力打动用户的时代。
- 新产品正在快速验证:只要创造了真实价值,就有机会跨越鸿沟(从少数走向大众)。
水平及维护精力所限,文中不免存在错误或过时之处,如有疑问,请查阅原文。 传播知识,尊重劳动,年满十八周岁,转载请注明出处。
- 1 看 AI 真正跨越鸿沟
- 2 对 AI 创业者的要求
- 3 AI 使得执行力不再稀缺,那以后工作的关键是什么
- 4 给用户创造了价值,就总有办法变现
- 5 在行业早期,奢谈终局都没有意义,唯有下场开始执行
- 6 当 AI 可以替你干活
- 7 AI 应用的价值分层
- 8 第一次,我们都可以当(AI 的)老板了
- 9 结束语:水到沸点,蒸汽时代即将来临?
24 年行业都在关注大模型公司的军备竞赛,大家都在问:训练大模型烧了这么多钱,应用什么时候落地,商业价值到底在哪? 而我们认为新技术的落地需要时间,就像送孩子上学,前期学费是投入,要等他长大才能赚钱。
和历史上其他创新技术相比,生成式 AI 的应用落地速度非常快,今年我们已经看到随着模型能力的飞速进展,不少 AI 应用开始有实打实的收入。
1 看 AI 真正跨越鸿沟 1.2 早期 Google:技术极为先进,界面极其简单99 年刚出来时的 Google:一个简单的输入框,用自然语言什么都可以问,问什么都有答案。
这是我对终极产品的向往:把极为先进的技术包装在超级简单的界面背后,像魔法一样让普通人具备非常强大的能力。
1.2 ChatGPT:AI 的 ‘Google’ 时刻虽然早期的大模型还不够聪明,也有很多幻觉,但 AI 不再只是在科研界的热议话题,而是真正能用起来的产品。
- 在生成式 AI 到来之前,虽然 AlphaGo 已经击败李世石和柯洁,特斯拉也已推出 FSD,但 AI 离普通人的生活还比较远。
- 当时谈 AI,还更多是在讲科技研发和未来愿景,跟大众产品还很有距离。
当 22 年底上线的 ChatGPT,就像 99 年的 Google。 它是一个真正的转折点,让 AI 变得人人可用,也真的好用。
1.3 ChatGPT:第一个跨越鸿沟的 AI 产品认知技术创新的框架「跨越鸿沟」:创新技术怎么从早期市场进入主流市场。
ChatGPT 可能是第一个能真正跨越鸿沟的 AI 产品。
2 对 AI 创业者的要求 2.1 创业者分类我们曾经把早期成功创业者分成四类:小天才、老司机、科学家、操盘手。
最近想,是不是还得区分「技术变革的早期」和「技术成熟期」,不同时期成功几率大的创业者画像和打法可能都不一样。
- 过去十年是移动互联网的成熟期,在下半场,容错率更低,经验和资源更重要,打过仗交过学费的连续创业者胜率更高。
- 现在的 AI,又回到了技术变革的早期。创业者需要对新技术很懂,对技术边际变化带来的机会很敏感,这就给年轻创业者带来了很多机会。
AI 也要通过成熟的形态如 App 或网站去落地,因此对创业者提出了更高的要求:既要懂前沿技术,又要有很强的产品执行力。
2.3 成熟的方法论(e.g. 投放)未必在 AI 领域有效与此同时,很多产业成熟期的方法论,比如 AB 测试、精细化投放等,在产业早期却未必最有效。
举个例子,AB 测试适合找到产品方案的细节差异,但技术早期往往是要在没有数据的情况下做选择,选对了就是 10 倍起步,选错就全盘皆输。
例如 Transformer 出现之后,BERT 和 GPT 哪个技术路线更好,OpenAI 不是 AB 测试出来的,是靠判断选出来、执行做出来的, 甚至在模型规模到达一定规模之前,BERT 反而是效果更好的方案。但这种选择的能力,反而是 AI native 创业者面对大厂的机会。
2.4 花一点小钱看未来,其实很值第一批吃螃蟹的人往往会得到不菲的奖励。例如
- 当年第一批做互联网创业的人,很多是最早买电脑、最早上网的;
- 第一批做移动互联网的人,也常常是最早买 iPhone 的。
现在 AI 产品其实已经很便宜,一个月可能只要花 20 美金,也就一顿饭的价格,但能帮助你先看到未来,也先抓住机会。
3 AI 使得执行力不再稀缺,那以后工作的关键是什么当执行力不再稀缺,我认为工作的关键变成:Agency & Taste。
3.1 你要做什么(主观能动性,Agency)这是人的主观能动性(Agency)。很关注创业者是不是那个真正行动的人,清楚自己要做什么,想办法推进,招人、找钱、做产品,遇到问题也能努力解决往前走。
【注释】zh.wikipedia.org
在哲学中,能动性(英语:Agency)是行动者在给定环境中行动的能力。 能动性可以被归类为无意识的、非自愿的行为,或有目的的、目标导向的活动(故意行为)。 能动者通常对他们的身体活动和活动旨在实现的目标有某种直接的认识。 在“目标导向行动”中,能动者对其自己的行为实施一种直接控制或指导。
3.2 你选择什么(品味,Taste)AI 可以创造很多选项,但是选择最后还是人来做。也就是所谓的 Taste(品味)。
- Midjourney 一次给你四张图,Vibe Coding 给你多个实现方案,你选哪个?
- 也许有一天 AI 的 taste 会比人更强,但现在,决定还得人来做。
Agency(主观能动性)和 Taste(品味),是 AI 时代人与人之间的关键分野。
4 给用户创造了价值,就总有办法变现已经有不少人在用 Cursor、Manus、Genspark 等工具给自己的工作 10x 提速,他们看到的是完全不一样的世界。但对于没有体验这些产品的人来说,世界没有什么变化。
技术扩散需要时间,所以才会有从创新者、早期采用者到大众市场的创新扩散曲线。现在,我们已经能直观地看到那道鸿沟的存在。
4.1 用户爱用但不知道怎么赚钱新技术驱动的产品,早期常常是「用户爱用但不知道怎么赚钱」。
Google 刚出来时是个基于先进技术,非常好用但没盈利模式的产品。那时候华尔街有很多质疑,说它不做广告,还鼓励用户尽快离开网站,这怎么赚钱?
2002 年,Google 通过 AdWords 和 Adsense 找到了商业模式,现在搜索引擎广告是互联网行业最很赚钱的印钞机之一。
4.2 商业的本质就是你为用户创造更多价值,并从中提取利润商业模式的完善需要时间。只要产品能给用户创造足够大的价值,总会有办法把价值提取转化出来变成收入。 不论是订阅、广告还是导流,商业的本质就是你为用户创造更多价值,并从中提取利润。
5 在行业早期,奢谈终局都没有意义,唯有下场开始执行在行业早期,奢谈终局都没有意义,唯有下场开始执行。比起终局,我更关注当下:谁在用,得到了什么价值,以及未来还会在哪些场景继续产生价值。
5.1 增长的关键不在投放,而是有没有「魔法体验」投放是移动互联网后期的必修课,然而现在很多 AI 应用的成功,投放不是重点,甚至根本不需要投放。
关键是能不能让用户有魔法般的体验产生自然传播。当用户突然遇到一个体验好十倍的产品,这时候,口碑和自然增长的力量,远比投放更管用。
DeepSeek 就是个例子,一上线火遍全球,但没花一分钱在营销上。过去几年,投放这件事被高度专业化,做增长的人越来越多,但技术范式一变,这些成熟方法不一定还管用。
5.2 AI 把我们带回了那个靠产品力打动用户的时代我很开心 AI 把我们带回了那个靠产品力打动用户的时代,需要产品经理用判断做选择,用体验打动人。
回头看互联网早期,投放还不是个显学,大家靠的是产品、内容和口碑本身。比如 Facebook,用户加了几个好友就会上头,呈现出非常好的留存,产品设计本身就很有利于病毒传播。
5.3 是否有场景能吸引到用户主动使用不靠补贴和投放。
5.4 产品进化的斜率是重点再说留存和新增的选择。做增长的人总说留存重要,但这有个隐含前提:产品够普世。
- 很多小众产品,比如豆瓣、即刻,用户留存都很好,还在用的人绝对是真爱,但是它不增长了。
- 技术革命早期,有明确的亮点,快速吸引用户才更重要。
- 在技术还不完善的时候,留存差一点也正常,技术本身还在演进。
回头看亚马逊刚起步的时候,能买的东西很少,体验也一般,但重点是产品进化的斜率高不高。
AI 时代,ChatGPT 就是典型。
- 一开始 ChatGPT 功能没那么强,很多人试完,觉得和 AI 瞎聊几句也没啥用,留存远没有现在好。
- 反倒是 C.ai 这样情感类的 AI 产品当时留存高,因为核心用户粘性强。
但你逐渐会发现,这类产品的用户群相对集中,大多数人没感觉。而 ChatGPT 的需求是更加普适的。哪怕一开始留存一般,但产品能力随着模型进步非常快,从 good to have 变成 must to have,走入了真实的高频场景。
所以比起留存,我现在更看重一个 AI 应用是否有吸引用户的亮点:
- 产品有没有在某个场景的吸引力,不靠补贴和投放,用户自己愿意来使用
- 产品是不是在快速变好,斜率是否够高。这可能就是技术革命早期和成熟期做增长最大的区别。
AI 可能会带来一种新的商业模式:虚拟雇佣。
6.1 你愿意在哪种程度上为它付费?过去我们对工具付费,通常想的是它的价值加上你的时间成本。但雇一个人不一样,本质上是买他的时间。工具和员工的定价机制是两套逻辑。
只要 AI 真的帮我创造了价值,比如它帮我节省或赚到了 100 块钱,我付他 20 块,可能是个很自然的决定。这已经不再是按月订阅,而是更像「给 AI 发工资」。
这种正向循环不仅可以突破人类的注意力上限,也有机会突破传统订阅的价格上限。现在像 Cursor、一些 AI 工具已经开始按使用量计费,帮你做了多少任务,系统自动算账。
6.2 如果有 100 个 Agent 并行干活,你到底想让它们做什么如果 AI 能直接帮你做事,想象空间就完全变了。有 10 个、100 个 agent 并行干活,真正的限制变成了:你到底想让它做什么?
6.3 模型吞噬应用 vs. 应用胜过模型应用或者是「套壳」到底有没有长期价值?
- 观点一:模型越来越强大,会吞噬应用的价值。
-
观点二:模型越强大,应用就越能够通过专有的上下文和环境来创造增量价值。
头部模型公司竞争激烈, API 的差距在不断缩小。如果应用公司始终能使用接近 SOTA 水平的模型 API, 那么加上好的产品设计、用户数据、使用习惯、品牌效应等,就可能做出更好的体验。
最底层是模型能力,这一层是相对通用和公开的,确实需要大模型公司通过开源模型或者闭源 API 的方式来提供。
7.2 上下文能力(public/organizational/personal)中间层是模型权重中并不直接具备的上下文(context),这里又可以细分成三层:
- 公开的上下文(public context),如用于搜索的新闻报道等;
- 组织专有的上下文(organizational context),比如说组织内的文件,流程,数据等;
- 用户私人的上下文(personal context),如用户和 AI 的交互记录,个人信息和偏好等。
1 & 2 可以建构壁垒。
7.3 环境(environment)环境层(environment),这里包括
- 模型可以调用的各种工具如 computer use,MCP,A2A 等协议,
- 模型可以改变迭代的 code base 等。
随着 AI 产品越来越完善,更多的价值创造会出现在上下文和环境这两层,这也就是 AI 应用的壁垒。
7.4 小结:思考 6-12 个月后 SOTA 模型的能力,做基于这个做准备应用创业者真正该做的,是去思考 6-12 个月以后 SOTA 模型会有哪些能力,再基于这个做准备。
正如乔布斯引用一位传奇冰球教练的话:「我永远滑向冰球将要去的地方。」
8 第一次,我们都可以当(AI 的)老板了能够自主完成任务的 Agent 的出现,意味着第一次我们每个人都可以当(AI 的)老板。
8.1 当好 AI 的老板不容易要当一个好老板不容易,也需要很多学习。
8.2 组织的 scaling law技术升级往往会带来组织的 scaling law。
- 一方面,新技术可以让更小的团队完成更多的工作,另一方面,新技术也可以让大公司管理更大更多的业务。
- 例如移动互联网革命中,既出现了 Instagram 这样被 10 亿美金收购时只有十来个人的 mini 公司,也出现了美团这样能够使用技术高效管理几百万骑手的超级公司。
AI 革命可能让组织的 scaling law 进一步发展。Sam Altman 预言我们很快就会看到一个人的独角兽公司。
9 结束语:水到沸点,蒸汽时代即将来临?AI 的发展有点像烧开水,在水已热但还没烧开之前可能只能泡咖啡,但一旦到达 100 度的沸点,将会解锁蒸汽机,带来各行各业巨大的生产力变革。