在过去一周里,Sora成为了全球关注的热点,其热议程度超越了ChatGPT,尽管它还未向公众全面开放。Sora的出现不仅展示了视觉冲击力超越文字的力量,也引发了人们对于AI发展深一层的思考:在2024年,以Sora为代表的生成式AI或将引领我们迈向更加不可思议的未来。
不同于单纯的视频生成工具,Sora被视作一种“世界模型”。尽管AI生成视频并非新技术,但Sora在视频的长度与质量上实现了飞跃,超越了现有的文生视频模型,如Runway、Stability AI的产品,以及曾经引起轰动的Pika。
Sora的技术实力体现在六个关键方面: - 根据文本生成长达60秒的高质量视频,忠实地呈现用户指令。 - 能够生成包含复杂场景、角色互动、特定运动及精细背景的视频,增强叙事的真实感。 - 深入理解语言,准确把握提示内容的情感,使生成内容紧密贴合指令。 - 支持单个视频中多个镜头的创作,保持风格统一,适用于多视角展示。 - 能够基于静态图像生成动态视频,或扩展已有视频内容。 - 模拟物理世界运动,包括物体移动、相互作用等,体现了对现实世界的理解。
OpenAI在介绍Sora时,特别强调其“世界模型”的特性,这在以往模型发布中是首次。然而,这一提法也引起了科技界的广泛讨论,特别是围绕Sora是否真正理解物理世界,以及“世界模型”的确切含义。
一些专家,如英伟达的Jim Fan,认为Sora是一个可学习的物理模拟器,即“世界模型”。但图灵奖得主杨立昆则指出,仅凭生成逼真视频并不意味着理解物理世界,强调真正的“世界模型”应具备基于当前状态预测未来状态的能力,而Sora目前的自回归生成方式尚不足以完全达到这一标准。