274阅读
2回复

[智能应用]AI视频的GPT-3.5时刻真的来了吗？ [复制链接]

上一主题下一主题查看指定楼层

离线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 165308

金币: 471100

道行: 20030

原创: 766

奖券: 350

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20200(小时)
注册时间: 2012-06-21
最后登录: 2025-12-13

只看楼主正序阅读使用道具楼主发表于: 10-03

用户被禁言,该主题自动屏蔽!

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 210619

金币: 601607

道行: 2006

原创: 2438

奖券: 3180

斑龄: 40

道券: 1167

获奖: 0

座驾

设备

摄影级

在线时间: 46250(小时)
注册时间: 2008-10-01
最后登录: 2025-12-13

只看该作者板凳发表于: 10-03

Sora2：迈向AI视频的GPT-3.5时刻

背景与发布

2025年10月1日，OpenAI正式推出了新一代视频生成模型Sora2，以及与其配套的AI视频社交App “Sora”。这一发布引起了广泛关注，尤其是因为OpenAI CEO奥尔特曼（Sam Altman）在各类AI生成视频中的“出镜”，使得这一技术迅速成为热点话题。

技术进步

相比初代Sora，Sora2在多个方面都有显著提升：
- 物理逻辑：Sora2在物理上更加精准、逼真，能够完成初代Sora难以实现的任务，如奥林匹克体操动作、在桨板上的后空翻等。
- 画面一致性：Sora2在画面一致性上有了显著改进，能够生成更加连贯、自然的视频。
- 真实感：Sora2在真实感上有了显著提升，能够生成具有高度真实感的声音效果和背景音。

用户体验

用户可以通过上传图片并结合文字提示，或者使用“Cameo”功能，基于自己或朋友的形象生成视频。Sora2的镜头语言丰富，对话有想象力，音频输出方面口型与发音一致。然而，生成一个10秒的视频仍需等待数分钟，且分辨率不高。

社交基因

Sora采用邀请制免费使用，用户注册后可以裂变出4个邀请码，分享给朋友。这一机制不仅促进了用户的链式传播，还形成了好友网络。有人将Sora称为“AI版抖音”，其主页是垂直视频流，用户可以上下滑动浏览不同用户发布的视频。

优点与缺点

- 优点：
  - 数字人的物理效果和唇型驱动效果很好。
  - APP的使用交互设计友好，从注册就让用户在“验证”过程中完成素材内容的录制。
  - 输出效果自然，对用户友好。

- 缺点：
  - 录入人脸输出的视频并不完全像本人，有“似像非像”的效果。
  - 在事实逻辑上仍有错误，如灭火器喷雾的出口不准确。
  - 中文支持较差，出现凭空生造的文字。

GPT-3.5时刻到了吗？

OpenAI在官方博客中将Sora2定义为“可能直接跳到了GPT-3.5的时刻”。然而，AIGC创作领域的KOL@尾鳍Vicky认为，对于创作者来说，这一时刻尚未到来，因为Sora2仍无法彻底解决一致性和物理问题。但对于大多数普通受众来说，玩AI视频已经变得很简单且有趣。

市场竞争

尽管Sora2在技术上有所突破，但其技术并未达到代差领先。谷歌的Veo3、Nano banana以及世界模型Genie3在多模态方面同样强悍。国内的可灵、即梦也能与之一战。高飞认为，OpenAI在打造互联网产品方面领先于其他公司，其产品玩法更值得关注。

总结

Sora2的发布标志着AI视频生成技术的重大进步，尽管仍存在一些技术和逻辑上的问题，但其在用户体验和社交互动方面的创新值得肯定。随着技术的不断迭代和优化，AI视频生成有望在未来带来更多的欢乐、创造力和联系。