(来源:机器之心)
引言:近期 Runway 发布 GWM Worlds 和 GWM Robotics,将视频生成进一步推向可交互的「世界模拟」范式。这一动作也让「世界模型」的讨论重新聚焦:它究竟是一套面向创作与交互的 Interface,一台用于训练与评测的 Simulator,还是一种面向推理与决策的认知框架?
目录
01. 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变?
Sora 式像素级模拟更可靠,V-JEPA 式抽象表征预测更高效?...
02. 界面、模拟器还是认知框架,世界模型的定义依旧模糊?
世界模型输出的「世界」应是静态资产、实时帧序列,还是驱动预测与控制的 latent state?...
03. 重押还是凑数,国内外各厂商如何布局世界模型?
大厂布局世界模型,是在补充「数据引擎」,还是搭建「时空认知」的新框架?...
从 RL 分支到演化建模,世界模型这两年经历了怎样的转变?
1、当下的世界模型已经被业内认为是和 LLM 同级别的 AGI 路线,但如果把时间拨回 2024 年初,世界模型的定义其实是相对收敛的,更多集中在强化学习的语境中。[2-1]
① 当时的分析认为,世界模型是智能体的「内部环境模型」,本质上是一个从当前状态和某个状态动作来预测下一状态的函数。
② 它让智能体可以在内部展开想象和模拟,先预测动作后果再做决策,从而把大量试错成本转移到模型内部推演里,提高样本效率和规划能力。
2、同一时期也有更工程化的拆解,世界模型被定义为三类能力的组合:把高维感知压缩为可用表征、在时间上预测未来,以及利用预测进行规划和决策。[2-2]
① 在这个框架中,Transformer、自监督学习,以及把推理纳入世界建模的讨论开始出现,但整体依旧是强化学习语境的延展。
3、进入 2024 年,业内对于世界模型的理解开始延伸,有观点把它从强化学习的「针对具体子任务的动态模型」,外推到更通用的世界演化建模,并认为存在「语言生成→图像生成→3D 生成→世界生成(同时具备时序与空间序建模)」的趋势链条。[2-3]
4、但同时,世界模型的概念边界也变得更模糊,表征究竟是 video sequence 还是 3D representation,物理规律如何进入表征,输入关系如何组织等,都被认为是未收敛的开放问题。[2-3]
5、同年 2 月,OpenAI 把视频生成模型 Sora 称为 「world simulators」,强调它们在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化。[2-4]
6、几乎同一时间 LeCun 推出了 V-JEPA,强调世界模型不是去补全每个缺失像素,而是在抽象表示空间预测被 mask 掉的视频片段,允许丢弃不可预测信息来换取更高的训练效率。[2-5]
① 该路线下的训练方式也更强调自监督与未标注数据预训练,标签只在后期微调任务时使用。
7、因此,当时的主题已经不再是「要不要做世界模型」,而是「世界模型如何建模」。后者的争议在于究竟应当从像素层逐步抽象,还是直接在抽象空间跳过像素细节。[2-6]
① 支持视频预测的人士更倾向于「生成质量足够高就意味着掌握了部分物理规律」的看法,而批评者则强调「像素一致性并不等价于因果理解」。
8、但也有研究者认为当前的两条路线只学到了部分物理规律,距离「完整世界模型」还有差距,他们提出构成「连贯世界模型」还需要孤立对象的表征(representations of isolated objects)、跨时空的先验变化规律(a priori law of change across space and time)以及康德范畴(Kantian categories)。[2-7]
① 分析认为,Sora 的局限性在于忽略了先验变化规律和康德范畴,而这些缺陷无法通过扩大训练规模来弥补。V-JEPA 则学习了先验变化规律中和上下文相关的方面,但依旧没有理解康德的范畴并融入到经验中。
界面、模拟器还是认知框架,世界模型的定义依旧模糊?
1、进入 2025 年,世界模型被进一步被推到了和 LLM 同级的位置,有分析认为 Google DeepMind、Meta 和 Nvidia 都在从纯 LLM 转向 world models,目标是「Physical AI + 超级智能」,原因是 LLM 路线提升有所放缓。[2-8]
2、世界模型和现有生成式 AI 的差异在于,前者的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可以应用到无人机、自驾、机器人等领域。[2-9]
① 有外媒指出,当前的 LLM 更像启发式方法拼盘(bag of heuristics),离真正的世界模型还很远。[2-10]
3、而和更容易快速迭代、短期落地的 VLA 路线相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进。[2-11]
4、但发展到现在,世界模型出现了「概念同名但内核分裂」的现象:世界模型可以指代系统内部的 latent state,也可以指代给智能体训练用的类游戏模拟器,以及任何能生成可走动 3D 场景的内容管线。[2-12]
① 世界模型的融资热潮进一步放大了这种歧义,只要将产品贴上世界模型的标签,往往很少有人继续追问它到底是否支持预测、规划和泛化。
5、在 Entropy Town 2025 年 11 月的一篇分析文章中,Entropy Town 将世界模型重新划为了界面(interface)、模拟器(simulator)和认知框架(cognition)三条技术路线。[2-12]...
关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读