街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

(来源:机器之心)

GPT-5.2 更新的同时,主攻 AI 视频与多媒体生成技术的独角兽 Runway 也来了一波大的:一口气来了 5 个「激动人心的宣布」。

这一波更新之猛,甚至让人觉得他们是不是把过去半年的大招一次性全放了出来。Runway 这一波发布,不仅刷新了视频生成的各项指标,更重要的是,他们正式对外展示了其在通用世界模型(General World Models/GWM)上的野心。

如果说之前的竞争还在于谁生成的视频更清晰、谁的时间更长,那么 Runway 今天似乎想说:「我们不再只是生成像素,我们在模拟世界。」

此次发布的「全家桶」阵容豪华:

  • Gen-4.5:最新的旗舰视频生成模型,不仅画质惊人,更引入了原生音频生成与编辑功能。

  • GWM-1:Runway 的首个通用世界模型,这是理解物理世界运行规律的基石。

  • GWM Worlds:基于 GWM-1 的环境模拟器,让你在无限的数字世界中实时探索。

  • GWM Avatars:音频驱动的交互式视频模型,让数字人拥有了自然的灵魂。

  • GWM Robotics:打破物理瓶颈,为机器人训练提供合成数据的学习型模拟器。

更有意思的是,为了庆祝这一时刻,英伟达 CEO 黄仁勋还专门给 Runway 发来了一条特别的节日祝福。

话不多说,下面我们就来看看 Runway 到底要把我们带向一个怎样的未来。

Gen-4.5

作为 Runway 最新的旗舰视频模型,Gen-4.5 主打的是画面保真度和创意控制能力。

先来看看官方宣传片:

性能表现也很不错:

总的来看,Gen-4.5 的生成能力有以下特点:

1、精确遵循提示

Gen-4.5 实现了极高的物理精度和视觉精确度。物体以逼真的重量、动量和力量移动。液体以正确的动力学流动。表面细节以极高的保真度渲染。而发丝和材料纹理等精细细节在运动和时间中保持连贯。

提示词:A continuous shot with no scene cut.We see water coming out of a garden faucet filling up a rusty metal bucket.Right below the bucket is a perfect folded white paper boat with a small yellow flower.The boat rides down a small river of water and enters a house,ending the journey in front of a broken TV.

2、风格控制和视觉一致性

Gen-4.5 能够处理多种美学风格,从照片级真实感和电影感到风格化动画,同时保持连贯的视觉语言。

提示词:A cinematic scene highlights a young woman with striking features,captured in a close-up that emphasizes her intense gaze.The camera focuses on her face,showcasing her platinum blonde hair.

除此之外,Gen-4.5 现在也支持原生音频生成和原生音频编辑了!

也就是说,你不仅能够生成带有音频的新视频,还能根据自己的需求编辑现有视频的音频。

不仅如此,Gen-4.5 还引入了多镜头编辑功能。借助多镜头编辑,你可以对初始场景进行更改,并将该更改应用到整个视频中。 

不过,Runway 也坦言,Gen-4.5 仍有一些视频模型常见的局限:

  • 因果关系推理:有时结果会先于原因发生(例如,门在把手被按下之前就打开了)。

  • 客体恒存性:物体可能会在帧之间突然消失或出现(例如,一个杯子在被遮挡后消失)。

  • 成功偏差:行动的成功率高得不成比例(例如,一次瞄准不佳的射门仍然进球)。

Runway 表示,这些局限性在他们的世界模型研究工作中尤为重要,因为世界模型需要准确反映在环境中采取行动的结果。他们正在积极研究解决这些问题的方法。

目前,Runway 正在逐步开放对 Gen-4.5 的访问权限,它将在未来几天内向所有人开放。

GWM-1

这一次,Runway 还推出了自家的首个通用世界模型:GWM-1

据介绍,GWM-1 是基于 Gen-4.5 构建的,但有一个关键区别:它是自回归的。

也就是说,GWM-1 采用了逐帧预测的方式。这也意味着,在任何时刻,用户都可以根据应用场景进行干预,例如在空间中移动、控制机械臂或与智能体交互,模型都会模拟接下来发生的事情。

目前,GWM-1 有三种变体:

  • 用于可探索环境的 GWM Worlds

  • 用于对话角色的 GWM Avatars

  • 用于机器人操作的 GWM Robotics

Runway 表示:「目前这些是单独的后训练模型。我们正在努力将许多不同的领域和动作空间统一到一个单一的基础世界模型之下。」

他们认为:「世界模型处于 AI 进步的前沿。仅靠语言模型无法解决世界上最棘手的问题 —— 机器人技术、疾病、科学发现等。真正的进步需要模型像人类一样去体验世界,并从错误中学习。而这种试错过程在模拟环境中进行,比在现实世界中进行要快得多。世界模型为通用模拟提供了最为清晰的路径。」

有意思的是,英伟达 CEO 黄仁勋还专门给 Runway CEO & 联创 Cristóbal Valenzuela 发送了一条祝贺视频。(毕竟看到这些依赖英伟达硬件的 AI 公司不断进步,大概没有人比老黄更开心了。)

下面来简单看看 GWM-1 的三种变体。

GWM Worlds

GWM Worlds 是一个用于实时环境模拟的世界模型。

按官方的说法是:「你给模型提供一个静态场景,它就能在你穿梭其中时,实时生成一个沉浸式、无限且可探索的空间,其中包含几何体、光照和物理效果。你可以前往任何地点,无论是真实的还是想象的。你可以化身为任何角色,比如漫步城市的人、飞越雪山的无人机,或是穿梭于仓库的机器人。」

听起来很炫酷,下面是官方的宣传视频:

Runway 表示:让这一切得以实现的关键在于一致性(consistency)

这很容易理解,当你探索一个环境时,你期望这个世界保持连贯一致。转身时,你身后的事物依然存在。前后走动,你可以回到起点。

而 GWM Worlds 似乎在这方面表现不错,其能在长时间的移动序列中保持这种空间连贯性。而且由于它是一个模拟系统,环境可以做出反应。你可以通过输入指令来定义一个世界的物理规则,这个世界会做出准确的响应。

举个例子,如果你指令 agent 骑自行车,它会稳稳地行驶在地面上;如果你指令其飞行,它就能在天空中自由导航。这对于交互式体验、游戏、可探索的世界以及沉浸式环境都非常有用。

但对于训练 agent 来说,它同样重要。如果你想训练一个 AI 系统在现实世界中进行导航和行动,你需要一个模拟器来对其进行训练。GWM Worlds 可以充当这样的沙盒,一个让 agent 可以探索、犯错并学习的环境。

整体而言,从描述上看 GWM Worlds 与其它类似的前沿世界模型差别不大,但实际表现如何还有待观察。

GWM Robotics

GWM Robotics 是一个基于机器人数据训练而成的世界模型,它能够根据机器人动作生成预测视频序列。

该模型支持反事实生成,可以探索不同的机器人轨迹与结果。其特性包括:

  • 合成数据增强策略训练:利用世界模型生成合成训练数据,从多个维度扩充你现有的机器人数据集,包括新物体、任务指令以及环境变化。这些合成数据能在无需昂贵真实数据采集的前提下,显著提升策略的泛化能力与鲁棒性。

  • 策略模拟评估:无需部署到真实机器人上,你可以直接在 Runway 的世界模型中测试策略模型(如 OpenVLA 或 OpenPi 这类 VLA 模型)。这种方式更快、可复现性更强、安全性也更高,同时仍能提供逼真的行为评估。

Runway 还发布了一个 GWM-1 Robotics SDK。这是一款面向 Runway 机器人世界模型 API 的 Python SDK,可以基于机器人动作生成视频。该 SDK 支持多视角视频生成和长上下文序列,并提供了与现代机器人策略模型无缝衔接的接口设计。

GWM Avatars

GWM Avatars 是一个由音频驱动的交互式视频生成模型,可针对任意逼真写实或风格化的角色模拟自然的人类动作和表情。

该模型能在说话和倾听时呈现出逼真的面部表情、眼球运动、口型同步和手势动作,并且在长时间对话过程中也不会出现质量下降的问题。 

这个模型已经有着广泛的应用潜力,官方列出了一些例子:

  • 实时辅导与教育:让个性化导师鲜活起来。这些反应灵敏的角色能够讲解概念、回应问题,并以自然的表情和手势进行长时间对话,让学习感觉就像一场真实的交流。

  • 客户支持与服务:通过让交互有「脸」可寻,变革客户支持体验。一个反应灵敏、栩栩如生的角色,能倾听、回应并引导用户解决问题,它拥有真人客服般自然的表达和耐心,随时待命,服务规模不受限。 

  • 培训模拟:与能够自然回应、保持眼神交流并实时做出反应的逼真角色一起练习艰难的对话、谈判或高风险场景,在安全的环境中培养技能。

  • 互动娱乐游戏:让游戏角色和数字演员鲜活起来。有会倾听并回应的角色,有会根据你的选择做出反应的主持人,还有能进行真实对话的伙伴。让互动娱乐体验宛如一场真诚的交流。 

GWM Avatars 即将登陆 Runway 网页产品和 Runway API,以便用户集成到自己的产品和服务中。 

结语

Runway 今天的更新标志着行业正在跨越一个关键的临界点:从单纯的「视频生成」迈向了真正的「世界模拟」。

无论是 Gen-4.5 对物理细节的把控,还是 GWM-1 对环境与实体的构建,都表明 AI 不再仅仅是模仿像素的排列组合,而是开始理解物理世界的底层逻辑。

正如 Runway 所言,通往 AGI 的道路不能仅靠语言,AI 必须在一个可交互的模拟环境中去体验和学习。英伟达 CEO 黄仁勋的惊喜现身,也隐喻了算力与算法的深度绑定。对于创作者而言,这扇大门已经打开:未来的视频或许不再只是用来看的,更是用来交互的。

参考链接

https://runwayml.com/

https://runwayml.com/research/introducing-runway-gen-4.5

https://runwayml.com/research/introducing-runway-gwm-1

https://x.com/c_valenzuelab/status/1999240966885003295

https://x.com/runwayml/status/1999190924069400583

未经允许不得转载: 街坊秀 » Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了