《长安的荔枝》这个故事,讲述了小吏李善德如何克服重重困难,将鲜荔枝从岭南运往长安,其中涉及保鲜、驿站、路线和补给等一系列复杂环节。清华大学人工智能学院助理教授李一鸣认为,这个故事与当前“世界模型”领域的发展有异曲同工之妙。他指出,Physical AI(物理AI)所要解决的问题如同“鲜荔枝”的保鲜运输,需要构建一套从数据采集、模型研发到硬件部署的完整系统。
李一鸣在接受《智能涌现》采访时表示,“世界模型”并非核心,关键在于解决实际问题。他认为,“世界模型”仅仅是实现目标的一种技术手段,若脱离其他环节的配合,将毫无价值。他观察到,自2026年初回国后,国内AI领域存在对“世界模型”的普遍焦虑,这一概念也成为2026年最具争议和泡沫化的赛道之一。许多与仿真、物理相关的技术,如视频模型、3D模型或VLA(视觉-语言-行动)具身大脑,都试图归入“世界模型”的范畴。
相较于纠结于“世界模型”的定义,李一鸣认为更重要的是构建一套能让机器人在不同场景下泛化的系统。为此,他的团队提出了名为Physical AI Infra的解决方案,该方案以数据和物理双轮驱动,包含两个核心自研组件:
- 数据管线:旨在将数据采集规模从行业平均的几十万小时提升至百万至千万小时级别。
- 物理引擎:实现“Real-to-Sim-Real”的闭环,即利用真实世界数据构建仿真环境,供机器人进行物理世界强化学习,最终在真实世界执行任务。
“世界模型”在此系统中扮演着重要角色,既是数据采集后的预训练目标,也是机器人强化学习的仿真环境。这套基础设施能够训练机器人完成切割、旋拧、插拔、搅拌、按压、捏取、穿引等精细操作,并能跨不同类型的灵巧手和机械臂部署,适用于生产制造、零售服务、酒店运营、餐饮备料、医疗辅助等多种场景。
基于这套技术方案,成立于2026年4月的初创公司“厘清智能”在短短两个月内完成了多轮融资。据《智能涌现》独家获悉,厘清智能的种子轮融资额高达数亿元,投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等风险投资机构,以及智元机器人、灵心巧手、世纪金源等多方产业资本。
厘清智能获得资本青睐的原因在于其稀缺性。一方面,团队拥有软硬一体的复合型人才。李一鸣曾是英伟达的资深研究员,在空间感知、多模态推理、自动驾驶及具身智能领域拥有深厚背景,曾与AMI Labs联合创始人谢赛宁合作发表具身视觉推理研究,并与英伟达联合发表多篇CVPR和NeurIPS论文,获得2024年度英伟达奖学金。团队其余50余名成员多为清华学生,平均年龄23岁,李一鸣认为清华大学提供了优秀的人才平台。
另一方面,厘清智能选择了“重”的技术路线,即全栈自研,覆盖数据采集、模型训练到物理引擎。李一鸣认为,打通所有环节是确保信息流畅和协同优化的关键。他计划在2026年底前发布可跨B端场景的世界模型,并于2028年实现解决方案的规模化应用,最终为客户提供一套软硬一体的跨本体、跨场景解决方案。
李一鸣在与《智能涌现》的交流中,阐述了他对Physical AI的看法:
Physical AI 公司,不是本体公司,也不是模型公司
他强调,厘清智能提供的不是单一的世界模型,而是一套完整的系统,以解决Physical AI的实际问题为导向,而非技术路线。这套系统整合了数据、模型、硬件和基础设施,旨在构建一个能在实际场景中运行的“世界模型”。“世界模型”在此系统中扮演着预训练目标和后训练环境的角色。厘清智能的产品包含数据管线、世界模型和物理引擎,而“模型”只是其中的一个技术组件。
他认为,新一代的Physical AI团队应具备“全栈”能力,从数据采集设备、数据管线,到可微物理引擎和模型训练,都应自主研发。为此,他们自研了触觉手套等设备以实现数据规模化,并开发了实现“Real-to-Sim-Real”闭环的可微物理引擎,能够高效地进行强化学习后训练。基于广泛场景数据和物理引擎,他们自研的世界模型操作系统能够快速泛化并实现跨本体能力。
李一鸣提出,新时代的具身公司应是“World Model as Service”公司,而非本体或模型公司。未来,随着数据积累,公司将实现快速的跨本体泛化,并为客户提供即插即用的软硬一体系统,根据落地场景和预算匹配最优硬件方案。
他认为Physical AI的人才画像是“软硬一体”,并指出国内这类人才非常稀缺,因此团队会注重自主培养。他提到,清华大学为团队提供了良好的人才平台,团队成员平均年龄较低,甚至有大一学生。
不能只做数据采集,忽视物理规律
李一鸣认为,具身模型的参数量需要达到甚至超过语言模型,才能实现“智能涌现”,因为语言是压缩后的世界规则,而基于自然信号训练的具身模型需要更多数据和参数。
他发现,人类数据比真机数据更容易规模化,因为人数的扩展比机器数量或采集时长更容易。目前,公司已与工厂、酒店、物业、商场、厨房等场景方合作,以快速积累数据。
他强调,仅靠数据采集不足以构建完整的Physical AI Infra,必须结合物理规律。现实世界场景的差异性使得数据覆盖所有场景不现实,而物理规律(如牛顿定律)具有通用性,可以弥补数据不足。
厘清智能设计了一套满足物理约束的世界模型方案,能够利用少量真实数据校准世界模型的状态转移,从而让机器人在虚拟环境中进行高效学习,大幅减少真实世界的数据采集量。例如,机器人学习切苹果,过去需要切坏大量材料,现在只需真实操作十次,后续练习可在物理世界模型中完成。
VLA、视频模型、JEPA,都不是「原生世界模型」
李一鸣区分了世界模型与语言模型,认为前者负责机器与世界的交互,后者负责机器与人的交互。他指出,基于LLM的VLM和VLA模型与物理世界的适配性不强,因为语言模型是高度离散化的空间,充满人对世界的偏见,且许多事物无法用语言完全表达。他认为语言的本质是交流,是人机交互的界面,而非模态本身。
他认为,世界模型的训练需要SFT(监督微调)和RL(强化学习)结合。虽然物理数据量不足,但通过自采数据并建立标准,可以在物理世界中进行SFT。他强调,世界模型必须遵守物理规律,因此需要自研可微物理引擎,实现满足物理约束的后训练。他总结说,世界模型的训练是一个系统工程,需要联合预训练、后训练以及数据和硬件Infra协同。
他定义“原生世界模型”为能够打通感知、推理、决策、动作输出,并面向机器与世界交互任务设计的模型。他认为VLA因其离散的语言表征而非真实世界,JEPA因只能预测状态而无法输出动作,以及视频生成模型因其推理过程非原生且难以保证几何与物理一致性,均不属于“原生世界模型”。
他指出,训练“原生世界模型”的关键在于高效地将物理世界“tokenization”(表征化)。多模态观测(视觉、触觉、力觉)如何被压缩成模型可消化的Token序列,决定了模型的理解能力。他表示,厘清智能是少数能够高效实现表征端tokenization的公司,其视觉tokenizer效果已优于Meta的DINOv3。
他还强调了构建Physical AI Infra的重要性,包括设计高效的物理引擎来建模柔性物体和流体,以便机器人进行强化学习。他认为真正的Physical AI Infra应能提升数据效率,优化预训练和后训练效果,并支持从短程任务到复杂长程任务的泛化部署。
2028 年会是 Physical AI 规模化落地的 milestone
李一鸣认为,轮臂(带轮子的机械臂)是适配大多数操作场景的硬件形态,相较于人形机器人,其技术难度较低,能更好地执行需要较大力量和复杂操作的任务。
他表示,公司前期将积极与场景方合作,以实现数据的规模化和机器的后训练。合作模式为先B端后C端,先切入工业、物流以及生活类、消费类场景,这些场景具有替代性和重复性强的特点,客户有强烈的降本提效需求。他预测,当硬件成本低于人力成本时,规模化落地将加速。
他最终的目标是打造一款通用的Physical AI Infra,如同iOS之于移动应用,能够规模化开发和部署各类物理操作任务。他称之为“荔枝系统”,其核心能力来源于原生世界模型架构以及数据与物理双轮驱动的训练与评测基础设施。他预测,2028年将是Physical AI规模化落地的关键节点,届时数据采集规模和电机密度将实现跃升。

热门讨论
资深球迷
2026年5月22日 回复世界杯竞猜深耕流畅平台体验,随时随地畅享足球激情领域,用心服务每一位用户。
足球评论员
2026年5月23日 回复在权威赛事资讯,值得信赖的足球百科方面,世界杯竞猜提供贴心周到的支持。
数据分析师
2026年5月24日 回复世界杯竞猜以世界杯为核心,带来高效便捷的体验。