OpenAI Sora官方技术报告:《作为世界模拟器的视频生成模型》2

发布时间:2024-02-16 22:45:27 浏览次数:2438

扩展生成视频

Sora不仅具备生成视频的能力,更能在时间维度上实现向前或向后的无限扩展。以下三个视频便是从同一生成视频片段出发,逐步向后扩展的示例。尽管它们的起始部分各异,但结局却出奇地一致。

视频:这些视频的起始部分各异,但结局几乎相同

这充分展示了Sora在时间扩展方面的强大功能,甚至能创造出无缝的无限循环视频。





视频:Sora甚至可以创造出无限循环视频

视频到视频编辑

随着扩散模型的发展,我们已经开发出多种方法来编辑基于文本提示的图像和视频。在此,我们将其中一种名为SDEdit 32的技术应用于Sora。这项技术赋予了Sora转换零拍摄输入视频风格和环境的能力,为视频编辑领域带来了革命性的变革。





视频的无缝连接

更令人惊叹的是,Sora还能在两个截然不同的输入视频之间实现无缝过渡。通过逐渐插入技术,我们能够在具有完全不同主题和场景构图的视频之间创建出流畅自然的过渡效果。

图片生成能力

Sora的出色能力不止于数据处理和分析,它现在还能生成图像!这一创新功能的实现得益于一种独特的算法,该算法在一个精确的时间范围内,巧妙地在空间网格中排列高斯噪声补丁。 值得一提的是,Sora的图像生成功能不仅限于特定大小的图像。它可以根据用户需求,生成可变大小的图像,最高可达惊人的2048 × 2048分辨率。

图注:一个女在秋天的特写肖像,每一个细节都被捕捉得淋漓尽致,浅景深的应用使得主体脱颖而出

图注:充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物

新的模拟能力

在大规模训练过程中,我们发现视频模型展现出了许多令人兴奋的新能力。这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。值得注意的是,这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差,而是纯粹通过模型的尺度扩展而自然涌现的。 3D一致性:在3D一致性方面,Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。

视频:人物和场景元素在三维空间中始终保持一致

较长视频的连贯性和对象持久性:视频生成领域面对的一个重要挑战就是,在生成的较长视频中保持时空连贯性和一致性。Sora,虽然不总是,但经常能够有效地为短期和长期物体间的依赖关系建模。例如,在生成的视频中,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。同样地,Sora能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。

与世界互动:Sora有时还能以简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触。随着时间的推移,一个人吃汉堡时也能在上面留下咬痕。

图注:Sora能以简单的方式模拟影响世界状态的行为

模拟数字世界:Sora还能够模拟人工过程,比如视频游戏。它可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。这些功能都无需额外的训练数据或调整模型参数,只需向Sora提示“我的世界”即可实现。

这些新能力表明,视频模型的持续扩展为开发高性能的物理和数字世界模拟器提供了一条充满希望的道路。通过模拟生活在这些世界中的物体、动物和人等实体,我们可以更深入地理解现实世界的运行规律,并开发出更加逼真、自然的视频生成技术。

局限性与展望

尽管Sora在模拟能力方面已经取得了显著的进展,但它目前仍然存在许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,如玻璃破碎等。此外,在某些交互场景中,比如吃东西时,Sora并不能总是产生正确的对象状态变化。我们在发布页面中列举了模型的其他常见故障模式,包括在长时间样本中发展的不一致性或某些对象不受控的出现等。





然而,我们相信随着技术的不断进步和创新,Sora所展现出的能力预示着视频模型持续扩展的巨大潜力。未来,我们期待看到更加先进的视频生成技术,能够更准确地模拟现实世界中的各种现象和行为,并为我们带来更加逼真、自然的视觉体验。

关注公众号,获取最新AI工具和教程:

qrcode_for_gh_108117e9d937_344.jpg


评论 0

温馨提示 ×
商品已成功加入购物车!
购物车共 0 件商品
去购物车结算
微信 ×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

链接 ×
复制