Sora 生成视频质量较 Pika、Runway 具有显著优势。相较于 Pika、Runway 等之前的 AI文生视频工具,Sora 除了拥有视频向前扩展、视频拼接等功能外,还可以通过多镜头等方式生成相较于其他AI 文生视频工具更加复杂的视频,同时在时长、流畅度以及逻辑性方面表现出了显著的优势,并且初步具备了理解和模拟真实物理世界的能力。OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度。Sora 的发布也意味着 AGI有望加速到来,是 AGI实现过程里的重大里程碑事件,而不仅仅只是视频生成。


突破视频时长及镜头切换限制:由于受到 AI算法和学习能力的限制,RunWay、Pika等之前的头部AI文生视频工具,无法完成镜头切换后的衔接,因此生成的作品往往都局限于10秒内的单一镜头视频。而 Sora 不仅可以实现不同镜头之前流畅的切换,还能生成 60 秒的超长视频。
更加自由的视频尺寸:基于 OpenAI公布的 Sora 技术报告,Sora 模型可以生成1920x1080与1080x1920 之间所有尺寸的视频。而 Runway Gen2,仅支持长宽比为4:3、3:4、16:9、9:16、1:1、21:9的视频。

背景角色稳定:过往的 AI文生视频工具通常会出现背景角色不稳定的情况,即在背景中有许多的人或动物的情况下,画面经常出现失真、混乱的情况。而这个问题在 Sora 的视频中也得到了改善,以'东京漫步的女士”视频为例,在 Runway 中输入同样的提示词后,背景人物会做出一些怪异的走路姿势,而 Sora 视频中背景角色表现非常稳定。


理解和模拟真实世界:由于 Sora 初步具备了理解和模拟真实世界的能力,因此 Sora 生成的视频通常具备一些新兴特征,主要包括 3D 一致性、物体持久性、模拟物理交互等,这些特征也使得 Sora 生成的视频更加的生动、逼真。

1)3D一致性:Sora 可以生成带有动态摄像机运动的视频。基于Sora 在 3D动态理解和再现的能力当相机移动时,场景中的人物和物体会以符合三维空间的一致方式进行移动。

2)远程相关性和物体持久性:Sora通常能够有效地对短期和长期依赖关系进行建模。因此当物体被遮挡时,物体仍然能够被完整的显示。当切换角度、物体离开画面后重新出现,物体仍然能保持前后一致。

3)模拟物理交互:基于OpenAI公布的视频,Sora 目前已经初步展现出学习并模拟物理规律的能力如画家在画布上留下笔触,或者人物在吃食物时留下痕迹。以 OpenAI发布的“穿过东京郊区的火车窗外的倒影”视频为例,随着车窗内外光线环境和物体的变化,车窗上倒影的变化也几乎被按照现实世界的物理规律完美还原了出来。然而基于 OpenAI发布的技术报告,Sora 还无法准确模拟一些交互的物理过程,如玻璃破碎以及其他类型的交互。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部