Dwarkesh Patel：下一代AI，可能是干活干出来的

主队	比分	客队	联赛	时间(北京)
第比利斯 2025	0:0	贝特莱米·凯达	格鲁吉亚联赛3	18:00
内盖勒·阿尔西	0:0	哈瓦萨·凯内马	埃塞俄比亚足球超级联赛	18:00

主队	比分	客队	联赛	时间(北京)
尼姆布尔克篮球俱乐部	—	帕尔杜比采篮球俱乐部	捷克国家篮球联赛	23:00
费内巴切篮球俱乐部	—	贝西克塔斯篮球俱乐部	土耳其篮球超级联赛	01:00
希洛纳戈拉篮球俱乐部	—	华沙莱吉亚	波兰篮球联赛	02:15
普瓦捷 86 篮球队	—	埃兰·贝阿奈斯	法国国家篮球联赛B	02:30
布兰普顿蜜獾队	—	尼亚加拉河狮队	加拿大精英篮球联赛	07:30
多伦多 tempo	77:102	亚特兰大梦想队	WNBA	03:00

主队	比分	客队	联赛	时间(北京)
费城费城人队	—	迈阿密马林鱼队	美国职业棒球大联盟	06:40
华盛顿国民队	—	堪萨斯城皇家队	美国职业棒球大联盟	06:45
辛辛那提红人队	—	纽约大都会队	美国职业棒球大联盟	07:10
圣路易斯红雀队	—	圣迭戈教士队	美国职业棒球大联盟	07:45

2026年5月15日赛事报道评论 (23)

如何全面整合赛事信息，为球迷提供最佳观赛体验

硅谷知名科技播客主持人 Dwarkesh Patel 近期探讨了人工智能的下一代训练模式。这位年仅 25 岁的播客主，凭借其 Dwarkesh Podcast 迅速成为 AI 领域的重要声音，采访过 Ilya Sutskever、Andrej Karpathy 等行业领军人物，并被 TIME 杂志列入 2024 年 TIME100 AI 名单。

Patel 在最新的播客中，将当前前沿 AI 实验室所关注的核心技术路线归结为 RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励强化学习）。该方法旨在通过让模型在大量能够自动判断对错的任务中反复尝试，来培养其规划、纠错、迭代和长期执行的能力。当前代码和数学等领域的显著进步，很大程度上得益于此思路。

然而，Patel 进一步追问：仅依赖这种“可验证任务训练”，是否足以支撑下一代 AI 的发展？他认为答案可能是否定的，因为任务除了“可验证”，还必须具备“可刷性”，即“grindability”。在 AI 训练的语境下，这意味着任务可以被大规模重复执行。代码和数学任务便属此类，它们可以被轻易复制、并行化，适合 RLVR 的训练模式。

Patel 提出了一个引人深思的问题：为何 AI 在“使用电脑”方面的进展相对缓慢？尽管电脑操作的结果（如订单是否成功、活动是否预订）同样可验证，但其难以被大规模复制和回放。例如，无法让成千上万个代理同时在真实网站上执行相同的结账流程，因为真实网站会识别并封禁自动化工具。即便可以创建模拟器，其成本高昂且扩展性差。

Patel 指出，AI 在特定领域进步迅速，不仅因为答案可验证，更因为这些领域能够被构建成可复制、可回放、可并行试错的训练环境。这解释了为何代码、数学和游戏成为 RLVR 的理想训练场，而许多现实世界任务却难以直接套用。

他将讨论引向更复杂的现实世界场景，例如训练 AI 从零开始创业、赢得官司、稳定获利或赢得选举。这些任务虽然有最终结果可衡量，但存在反馈周期长、变量多、环境不可重置且难以在数据中心复制的问题。创业可能耗时数年，政治竞选受地区、选民情绪等多种因素影响，法律案件也无法在同一起点进行大规模并行试错。这些环境类似于强化学习中的“reset-free”和“non-stationary”环境。

Patel 质疑，在可验证、可刷环境中训练出的 AI 代理，能否泛化到这些真实的复杂任务？他认为，真实世界中最有价值的知识往往不是以清晰、可验证、可重复的形式呈现，而是隐藏在模糊的客户反馈、失败的会议、组织内部的隐性流程中。模型要掌握这些，不仅需要“刷题”，还需要真正的样本效率。

这就引出了“learning back to the weights”（将学习回写到权重）这一核心观点。当前的大模型擅长 in-context learning，能在长上下文理解项目背景并临时适应需求，但这种学习往往停留在会话窗口内，对话结束后模型并不会真正“记住”。Patel 认为，这是一种巨大的资源浪费。模型最有价值的训练信号恰恰来自实际部署后的真实使用场景，包括用户反馈、组织运作、任务执行中的错误等。如果这些经验无法沉淀到模型权重中，就只是短暂的适应，而非能力的长期增长。

他以人类学习为例，员工的成长并非依赖于记住所有细节，而是将经历压缩为判断力、直觉和流程理解。模型也应如此，真正的持续学习（continual learning）并非无限扩展上下文，而是从真实经验中提炼有用的知识并压缩进权重。

Patel 提出了两种潜在的解决方案。第一种是 OPSD（on-policy self-distillation，策略内蒸馏）。这可以理解为让一个在长对话中积累了丰富经验的模型充当“教师”，然后训练基础模型，使其在没有完整上下文的情况下也能做出类似判断，从而将通过上下文学到的知识蒸馏回模型权重。与普通 SFT 不同，OPSD 不一定需要外部可验证奖励，且能提供更密集的监督信号，将稀缺经验压缩成更精准的权重更新。

第二种方向是“dreaming”（梦想）。AI 根据真实世界观察构建模拟环境，并在其中反复练习、尝试策略。这类似于 model-based RL，但将其置于大模型和真实部署的语境下。例如，AI 在观察到真实业务流程后，会构建该流程的“游戏版模拟环境”，并在其中测试不同策略，最后将所得经验压缩回模型。

如果这些方法得以实现，将可能开辟新的扩展维度。除了传统的 pretraining、RL 和 inference-time compute，未来可能新增“test-time training”或“dreaming”作为第四个扩展轴。模型将在推理和任务执行过程中，为特定用户、组织或项目构建模拟环境并进行自我训练。这与 David Silver 和 Richard Sutton 提出的“智能体从与环境的互动中获取经验”的观点相呼应。

Patel 设想，到 2027 或 2028 年，训练流程可能演变为：首先，RLVR 训练出基础 agent；随后，该 agent 被部署到真实世界执行任务，并与用户进行持续互动；一周后，用户评价将作为正面反馈，模型将此次任务中学到的经验通过 OPSD 或 dreaming 等技术蒸馏回基础模型。

一旦这条路径成功，AI 的能力边界将不再局限于最初的“可验证任务”。AI 可以通过 RLVR 学习基础技能，再通过真实部署学习更复杂的现实世界能力，并不断扩展到相邻领域。AI 能力提升的主要来源将从发布前的训练，转向发布后的持续学习。每一次与用户的交互、每一次真实项目执行、每一次失败与修正，都可能成为下一轮能力提升的素材。

因此，Patel 所指的“下一代训练范式”并非简单地追求更大的模型或更多的数据，而是标志着 AI 从“发布前训练”走向“发布后学习”，从“人类数据”转向“环境经验”，从“上下文里的临时适应”走向“权重里的长期能力”。未来最重要的 AI 训练数据，可能将是 AI 在真实世界中完成任务时自身积累的经验，而非仅限于互联网文本或实验室构建的可验证任务。

赛事分析师

立即加入世界杯2026FIFA官方网站，体验最激情的足球赛事，感受全球足球盛宴。

官方地址

联系电话

电子邮箱

⚽ 足球实时 (2)

🏀 篮球实时 (6)

⚾ 棒球实时 (4)

如何全面整合赛事信息，为球迷提供最佳观赛体验

专家观点

球迷评论

赛事分析师

热门讨论

资深球迷

足球评论员

数据分析师

发表您的看法

搜索赛事

热门资讯

赛事分类

官方社交媒体

精彩瞬间

⚽ 足球实时 (2)

🏀 篮球实时 (6)

⚾ 棒球实时 (4)

Dwarkesh Patel：下一代AI，可能是干活干出来的 - 世界杯下注

如何全面整合赛事信息，为球迷提供最佳观赛体验

专家观点

球迷评论

赛事分析师

热门讨论

资深球迷

足球评论员

数据分析师

发表您的看法

搜索赛事

热门资讯

赛事分类

官方社交媒体

精彩瞬间