硅谷知名科技播客主持人 Dwarkesh Patel 近期探讨了人工智能的下一代训练模式。这位年仅 25 岁的播客主,凭借其 Dwarkesh Podcast 迅速成为 AI 领域的重要声音,采访过 Ilya Sutskever、Andrej Karpathy 等行业领军人物,并被 TIME 杂志列入 2024 年 TIME100 AI 名单。
Patel 在最新的播客中,将当前前沿 AI 实验室所关注的核心技术路线归结为 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)。该方法旨在通过让模型在大量能够自动判断对错的任务中反复尝试,来培养其规划、纠错、迭代和长期执行的能力。当前代码和数学等领域的显著进步,很大程度上得益于此思路。
然而,Patel 进一步追问:仅依赖这种“可验证任务训练”,是否足以支撑下一代 AI 的发展?他认为答案可能是否定的,因为任务除了“可验证”,还必须具备“可刷性”,即“grindability”。在 AI 训练的语境下,这意味着任务可以被大规模重复执行。代码和数学任务便属此类,它们可以被轻易复制、并行化,适合 RLVR 的训练模式。
Patel 提出了一个引人深思的问题:为何 AI 在“使用电脑”方面的进展相对缓慢?尽管电脑操作的结果(如订单是否成功、活动是否预订)同样可验证,但其难以被大规模复制和回放。例如,无法让成千上万个代理同时在真实网站上执行相同的结账流程,因为真实网站会识别并封禁自动化工具。即便可以创建模拟器,其成本高昂且扩展性差。
Patel 指出,AI 在特定领域进步迅速,不仅因为答案可验证,更因为这些领域能够被构建成可复制、可回放、可并行试错的训练环境。这解释了为何代码、数学和游戏成为 RLVR 的理想训练场,而许多现实世界任务却难以直接套用。
他将讨论引向更复杂的现实世界场景,例如训练 AI 从零开始创业、赢得官司、稳定获利或赢得选举。这些任务虽然有最终结果可衡量,但存在反馈周期长、变量多、环境不可重置且难以在数据中心复制的问题。创业可能耗时数年,政治竞选受地区、选民情绪等多种因素影响,法律案件也无法在同一起点进行大规模并行试错。这些环境类似于强化学习中的“reset-free”和“non-stationary”环境。
Patel 质疑,在可验证、可刷环境中训练出的 AI 代理,能否泛化到这些真实的复杂任务?他认为,真实世界中最有价值的知识往往不是以清晰、可验证、可重复的形式呈现,而是隐藏在模糊的客户反馈、失败的会议、组织内部的隐性流程中。模型要掌握这些,不仅需要“刷题”,还需要真正的样本效率。
这就引出了“learning back to the weights”(将学习回写到权重)这一核心观点。当前的大模型擅长 in-context learning,能在长上下文理解项目背景并临时适应需求,但这种学习往往停留在会话窗口内,对话结束后模型并不会真正“记住”。Patel 认为,这是一种巨大的资源浪费。模型最有价值的训练信号恰恰来自实际部署后的真实使用场景,包括用户反馈、组织运作、任务执行中的错误等。如果这些经验无法沉淀到模型权重中,就只是短暂的适应,而非能力的长期增长。
他以人类学习为例,员工的成长并非依赖于记住所有细节,而是将经历压缩为判断力、直觉和流程理解。模型也应如此,真正的持续学习(continual learning)并非无限扩展上下文,而是从真实经验中提炼有用的知识并压缩进权重。
Patel 提出了两种潜在的解决方案。第一种是 OPSD(on-policy self-distillation,策略内蒸馏)。这可以理解为让一个在长对话中积累了丰富经验的模型充当“教师”,然后训练基础模型,使其在没有完整上下文的情况下也能做出类似判断,从而将通过上下文学到的知识蒸馏回模型权重。与普通 SFT 不同,OPSD 不一定需要外部可验证奖励,且能提供更密集的监督信号,将稀缺经验压缩成更精准的权重更新。
第二种方向是“dreaming”(梦想)。AI 根据真实世界观察构建模拟环境,并在其中反复练习、尝试策略。这类似于 model-based RL,但将其置于大模型和真实部署的语境下。例如,AI 在观察到真实业务流程后,会构建该流程的“游戏版模拟环境”,并在其中测试不同策略,最后将所得经验压缩回模型。
如果这些方法得以实现,将可能开辟新的扩展维度。除了传统的 pretraining、RL 和 inference-time compute,未来可能新增“test-time training”或“dreaming”作为第四个扩展轴。模型将在推理和任务执行过程中,为特定用户、组织或项目构建模拟环境并进行自我训练。这与 David Silver 和 Richard Sutton 提出的“智能体从与环境的互动中获取经验”的观点相呼应。
Patel 设想,到 2027 或 2028 年,训练流程可能演变为:首先,RLVR 训练出基础 agent;随后,该 agent 被部署到真实世界执行任务,并与用户进行持续互动;一周后,用户评价将作为正面反馈,模型将此次任务中学到的经验通过 OPSD 或 dreaming 等技术蒸馏回基础模型。
一旦这条路径成功,AI 的能力边界将不再局限于最初的“可验证任务”。AI 可以通过 RLVR 学习基础技能,再通过真实部署学习更复杂的现实世界能力,并不断扩展到相邻领域。AI 能力提升的主要来源将从发布前的训练,转向发布后的持续学习。每一次与用户的交互、每一次真实项目执行、每一次失败与修正,都可能成为下一轮能力提升的素材。
因此,Patel 所指的“下一代训练范式”并非简单地追求更大的模型或更多的数据,而是标志着 AI 从“发布前训练”走向“发布后学习”,从“人类数据”转向“环境经验”,从“上下文里的临时适应”走向“权重里的长期能力”。未来最重要的 AI 训练数据,可能将是 AI 在真实世界中完成任务时自身积累的经验,而非仅限于互联网文本或实验室构建的可验证任务。

热门讨论
资深球迷
2026年5月22日 回复世界杯竞猜深耕流畅平台体验,随时随地畅享足球激情领域,用心服务每一位用户。
足球评论员
2026年5月23日 回复在权威赛事资讯,值得信赖的足球百科方面,世界杯竞猜提供贴心周到的支持。
数据分析师
2026年5月24日 回复世界杯竞猜以世界杯为核心,带来高效便捷的体验。