当 OpenAI 的奥特曼还在到处买显卡、买算力,来支撑他的 Sora 2 视频生成模型。
李飞飞的实验室 The World Labs,用一张显卡就能运行一个世界。他们今天发布了一项名为 RTFM (Real-Time Frame Model) 的新技术,一个全新的实时世界生成模型。
和九月中旬发布的图生世界 Marble 不同,RTFM 不仅是用一张照片,生成一个我们可以自由漫步、探索的 3D 世界。最重要的是,它被设计为可以在单块 H100 GPU 上高效运行,并且实时生成。
目前,RTFM 已经作为研究预览版正式发布,并提供了 Demo 可以亲自去试试。
▲ RTFM Demo 链接:https://ift.tt/syUF5xA
意外地发现,这个 Demo 的名字叫做 FRAMEBOY,结合这个网页布局,我很快想到了年代久远的 Game Boy 游戏机。
这样一个拥有逼真的光影、反射和阴影的世界,并且这一切还在我们眼前实时发生,在某种程度上,何尝不是另一种玩游戏。
不止于生成,更在于实时互动
RTFM 的核心能力,就是能实时生成可供用户交互的视频。它可以从一张静态图片开始,渲染出一个可以自由探索的 3D 场景。
与许多世界模型不同,RTFM 能够学习并渲染出,极其复杂和真实的视觉效果。无论是光滑大理石地面的倒影、物体在阳光下的阴影,还是透过玻璃看到的景象,RTFM 都能准确地模拟。
RTFM 依靠的不是传统的图形学编程,而是让模型通过对海量视频数据的端到端学习,不断进化出来的。
支撑这项能力的,是设计 RTFM 背后围绕的三项核心原则。
效率 (Efficiency),要想把未来拉到眼前,世界模型的计算需求是最大的阻碍。
无论是像 Sora 这样的 AI 生成视频,还是 Google 尚未正式公开上线的 Genie 3, 都意味着巨大的计算挑战。有相关的研究提到,要实时生成 4K 60fps 的交互视频流,AI 模型每秒需要处理的 tokens 数量约等于一本《哈利·波特》的文字量。
而如果要在超过一小时的交互中,保持这些生成内容的持续性,需要处理的上下文,将超过 100M 个 token。这对于当下的计算基础设施而言,既不现实,也难以负担。
李飞飞团队的目标是「在今天硬件上,运行的明天模型,并提供最高保真度的预览。」
他们通过对架构、模型蒸馏和推理过程的极致优化,以及整个系统的重新设计。RTFM 成功地实现了,仅使用单个 H100 GPU,就可以交互式帧率进行推理,实时生成。
可扩展性 (Scalability),从视频模型,能直接到世界模型。
传统的 3D 引擎,用的是三角网格、高斯点云、体素渲染等显式结构,完全依赖于一些复杂的计算机图形学知识。每个物体都要建模、上材质、打光、烘焙阴影。这和我们之前介绍的混元 3D 世界,所采用的方法类似,它们主打的是实现 3D 全管道的生成。
传统 3D 方式(左)和 RTFM 方式(右)
World Lab 选择的路和混元不同, RTFM 不会构建任何显式的 3D 模型。它使用了类似 Sora 的「自回归扩散 Transformer」,直接从视频帧序列中学习世界规律。
举个例子,模型不再需要知道「这是一堵墙」或「那是一盏灯」,它只通过成千上万段视频的学习,学会了什么是「空间感」,学会从输入的 2D 图像序列中,预测出下一个新的视角画面。
和生成 3D 资产的路线不同,RTFM 能够更好地利用不断增长的数据和算力,从而实现无限扩展。
持久性 (Persistence),让世界模型像 nano banana 一样保持一致。
大部分的视频生成模型有一个天生缺陷,就是它们没有记忆。即便现在 Sora 一次性,能生成 25 秒的震撼画面,但视频生成结束后,世界就结束了,并不能提供持续的交互。
而如果要记住所有场景,计算负担势必又会随着探索的深入而无限累积。
RTFM 试图解决的,就是让生成的世界具备持续存在的能力。它引入了一个叫「spatial memory(空间记忆)」的机制。它为生成的每一帧画面,都赋予了在 3D 空间中的精确「姿态」(位置和方向)。
在生成新画面时,模型会采用一种「上下文杂耍」 (context juggling) 的技术,只调用新画面附近位置的帧作为参考,而不是全局内容。
这使得 RTFM 能够做到,让我们反复进入这个世界,离开再回来,而不会增加计算负担。
目前,RTFM 的 Demo 体验时间只有 3 分钟,3 分钟后,它还是会不记得这个世界。我在那个 Demo 里面拖动左右两个摇杆,玩了很久,想到了李飞飞之前说,空间智能才应该是 AGI 的下一个方向。
未来是否真的有机会,像头号玩家一样,让现实世界和虚拟世界之间,产生明确的联系,光看现在的世界模型,要加载的内容还有太多。
毕竟,即便单个 H100 GPU,售价也大约在 25000 美元以上。但是当算力的价格下降,当算法再快一点;我们或许能看到,真正意义上的世界模型「大更新」,是现实,被完整生成的那一天。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
from 爱范儿 https://ift.tt/FinvgAJ
via IFTTT
没有评论:
发表评论