Sora2:迈向AI视频的GPT-3.5时刻
背景与发布
2025年10月1日,OpenAI正式推出了新一代视频生成模型Sora2,以及与其配套的AI视频社交App “Sora”。这一发布引起了广泛关注,尤其是因为OpenAI CEO奥尔特曼(Sam Altman)在各类AI生成视频中的“出镜”,使得这一技术迅速成为热点话题。
技术进步
相比初代Sora,Sora2在多个方面都有显著提升:
- 物理逻辑:Sora2在物理上更加精准、逼真,能够完成初代Sora难以实现的任务,如奥林匹克体操动作、在桨板上的后空翻等。
- 画面一致性:Sora2在画面一致性上有了显著改进,能够生成更加连贯、自然的视频。
- 真实感:Sora2在真实感上有了显著提升,能够生成具有高度真实感的声音效果和背景音。
用户体验
用户可以通过上传图片并结合文字提示,或者使用“Cameo”功能,基于自己或朋友的形象生成视频。Sora2的镜头语言丰富,对话有想象力,音频输出方面口型与发音一致。然而,生成一个10秒的视频仍需等待数分钟,且分辨率不高。
社交基因
Sora采用邀请制免费使用,用户注册后可以裂变出4个邀请码,分享给朋友。这一机制不仅促进了用户的链式传播,还形成了好友网络。有人将Sora称为“AI版抖音”,其主页是垂直视频流,用户可以上下滑动浏览不同用户发布的视频。
优点与缺点
- 优点:
- 数字人的物理效果和唇型驱动效果很好。
- APP的使用交互设计友好,从注册就让用户在“验证”过程中完成素材内容的录制。
- 输出效果自然,对用户友好。
- 缺点:
- 录入人脸输出的视频并不完全像本人,有“似像非像”的效果。
- 在事实逻辑上仍有错误,如灭火器喷雾的出口不准确。
- 中文支持较差,出现凭空生造的文字。
GPT-3.5时刻到了吗?
OpenAI在官方博客中将Sora2定义为“可能直接跳到了GPT-3.5的时刻”。然而,AIGC创作领域的KOL@尾鳍Vicky认为,对于创作者来说,这一时刻尚未到来,因为Sora2仍无法彻底解决一致性和物理问题。但对于大多数普通受众来说,玩AI视频已经变得很简单且有趣。
市场竞争
尽管Sora2在技术上有所突破,但其技术并未达到代差领先。谷歌的Veo3、Nano banana以及世界模型Genie3在多模态方面同样强悍。国内的可灵、即梦也能与之一战。高飞认为,OpenAI在打造互联网产品方面领先于其他公司,其产品玩法更值得关注。
总结
Sora2的发布标志着AI视频生成技术的重大进步,尽管仍存在一些技术和逻辑上的问题,但其在用户体验和社交互动方面的创新值得肯定。随着技术的不断迭代和优化,AI视频生成有望在未来带来更多的欢乐、创造力和联系。