100阅读
2回复

[智能应用]AI视频的GPT-3.5时刻真的来了吗？ [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 160421

金币: 421027

道行: 20030

原创: 764

奖券: 302

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 19272(小时)
注册时间: 2012-06-21
最后登录: 2025-10-25

只看楼主倒序阅读使用道具楼主发表于: 10-03

这个国庆，OpenAI CEO奥尔特曼（Sam Altman）被网友“玩儿坏了”，在各类AI生成视频里，他坐在东北大炕上吃饭，出现在阿里和字节员工在会议室说着“互联网黑话”，甚至成为街头的外卖骑手。
这一切，都源于10月1日OpenAI正式推出的新一代视频生成模型：Sora 2，一同上线的还有AI视频社交App “Sora”，目前用户通过邀请码可以免费下载使用，能一次生成10s的AI视频，奥尔特曼本人成了这场全民AI创作中出场率最高的“演员”。

第一财经记者实测Sora2发现，相比去年发布的初代Sora，Sora2在物理逻辑、画面一致性、真实感上都有显著提升，一张照片加一句提示词，AI就能创作出有剧情、有文案的短片。
但“现实不存在了”吗？从测试来看，Sora2尚未完全跨越“真实”这道门槛。
至顶科技总编辑、PEC联合发起人高飞对记者表示，Sora2比起上一代Sora是一个大版本更新，在很多场景都达到了以假乱真的程度，不过，相比其他AI产品Sora2的技术并没有代差领先，更值得关注的是其产品玩法，在打造互联网产品方面，他认为OpenAI暂时领先于其他公司。
OpenAI在官方博客中宣称，Sora2是“迈向GPT-3.5时刻的一步”。但AIGC创作领域的KOL@尾鳍Vicky认为，对于创作者来说，可能这一时刻还没到来，毕竟产品还是无法彻底解决一致性和物理问题。但对于大多数普通受众来说，玩AI视频可能真的变成了一件很接近、且很有趣的事情。
实测Sora 2：优缺点同样突出
毫无疑问，过去两天，OpenAI做了一场成功的产品发布营销，截至发稿，在美区iOS的免费应用排行榜上，Sora APP已经空降第三位，仅次于谷歌的Gemini和OpenAI自家的ChatGPT。
由于Sora采用邀请制免费使用，在国内，闲鱼上已经出现29.9元买邀请码的生意，不过单价6.88元的邀请码更受欢迎，界面显示已经有近50人想要。

用户在使用Sora2之前都需要准备一个邀请码，邀请码注册后，可以再裂变出4个邀请码，再分享给朋友。而邀请码一旦被使用，就会自动关注邀请对象，由此逐渐形成好友网络。从这点来看，Sora从一开始就植入了强社交基因。
有人将Sora称之为“AI版抖音”，应用主页是垂直视频流，用户可以上下滑动浏览不同用户发布的视频，但应用上所有的内容都是AI生成的。在生成视频时，用户可以选择上传图片并结合文字提示，也可以用“Cameo”（客串）功能，基于自己或朋友形象进行提示词生成。
Sora2是Sora APP的技术底座，OpenAI在博客中表示，Sora2可以完成之前的视频生成模型难以完成的事情。它比之前的系统在物理上更加精准、逼真，并且在可控性方面有了巨大的飞跃，此外，它还配备了同步音频。
在拿到邀请码后，第一财经记者测试了基于Sora视频生成的效果，确实相比初代有了大幅提升，其输出的结果已经基本能满足C端用户娱乐的需求，较为亮眼的地方在于，AI在镜头语言上很丰富，对话有想象力，音频输出方面口型与发音一致。但目前一个10s的视频需等待数分钟才能生成，速度并不快，且分辨率不高。
以奥尔特曼为主角，记者给AI的提示词是：@sama在工作敲代码，一只银渐层走过来生气地关掉了电脑主机电源，他们开始吵架。

在这个视频中，Sora精准特写了猫爪关电源的画面，伴随准确的关机音效，也展现了奥尔特曼吵架时生气的表情和姿态，细节和环境都很真实。在发音时，人物的口型也能对得上。
值得一提的是，Sora还会补充给角色“加戏”，在提示词中记者只提到了“开始吵架”，但AI视频对话中，猫咪会抱怨“你一下午都没陪我，而且风扇像拖拉机一样”，主角则回复“先开回来，咱俩再谈”。情节补充自然，配合场景非常真实。
但这一产品也并非毫无瑕疵，例如，录入人脸输出的视频并不完全像本人，有用户反馈是“似像非像”的效果，同时，Sora在事实逻辑上仍有错误，在一个用灭火器的场景中，灭火器喷雾的出口并不准确。

中文支持更是“重灾区”。例如，有用户让奥尔特曼成为外卖员，其外卖服上出现了凭空生造的文字。

@尾鳍Vicky认为，Sora优点很明显，用户数字人的物理效果和唇型驱动效果很好，且在APP的使用交互上下了一些功夫，例如从注册就让用户在"验证"的过程中完成素材内容的录制，且是很短的音频和视频，就能输出不错的效果。此前这样图生、文生视频路径已经出来很久，但效果应用都没有Sora这么自然、对用户如此友好。
但另一方面，Sora缺点同样突出。@尾鳍Vicky提到，虽然相比初代Sora2的物理理解问题已经更好了，但涉及到多元素的物体交互时，还是会出现手脚和脸糊等丢失细节，动作不符合物理逻辑等问题。从这个维度上来说，Sora2在模型能力的提升上并没有迈到可以真正解决技术问题的那一步。
GPT-3.5时刻到了吗
在官方博客中，OpenAI将2024年2月的初代 Sora比作“视频的GPT-1时刻”，而 Sora2则被定义为“可能直接跳到了GPT-3.5的时刻”。
博客中解释认为，之前的视频模型会变形物体和变形现实，但Sora 2可以做一些对于之前的视频生成模型来说非常困难的事情，如奥林匹克体操动作，在桨板上的后空翻，精确地模拟浮力和刚性的动态。模型在可控性方面也有了很大的飞跃，能够创建复杂的背景音、语音和具有高度真实感的声音效果。
但问题是，AI视频的“GPT-3.5时刻”真的来了吗？@尾鳍Vicky认为，至少对于创作者来说还没有，因为Sora 2还是无法彻底解决一致性和物理问题。但对普通用户来说，AI视频的门槛已大幅降低，用户玩AI视频真的变成了一件很简单且很有趣的事。
高飞认为，Sora2相比其他AI产品Sora2的技术并没有代差领先，例如谷歌有Veo3，也有Nano banana以及世界模型Genie3，在多模态方面相当强悍。而国内的可灵、即梦也能与之一战。
今年5月，Veo3推出时也曾在社交网络火出圈，一些人物视频极具真实感，被认为是AI视频领域领先的水准。但彼时行业人士仍然认为，现阶段的AI视频对实际生产帮助仍然不算太大，并未来到真正的GPT时刻。
相较于模型技术，高飞认为Sora2更值得关注的是产品玩法。OpenAI将它打造成了一个更类似于短视频的消费者App，其主要机制是要求用户上传自己的脸部数据和声音信息做AI二创。“这样一方面很容易拿到了最为宝贵的消费者面部数据，其次用户基于自己的人脸创造的视频，配合邀请码机制，也很容易吸引亲朋好友链式传播。”
因此，高飞的观察是，“OpenAI可能在模型不一定是最强，但是在打造互联网产品方面，领先于其他所有公司。”这次Sora2不追求画质和时长，也是典型的互联网打法，先完成再完美，后续再迭代。
@尾鳍Vicky也认为，Sora2这次的发布更侧重APP的交互设计，并不仅是模型本身的更新。“Sora2目前的定位，似乎并不是以专业的AI视频创作为导向，而是更专注于如何用AI视频来完成用户社交，做寻找应用场景的新尝试。”
从海外市场来看，对于Sora2和Sora应用的发布则褒贬不一。有用户认为技术惊艳、创造力会大爆发，也有人认为这些无聊的视频毫无意义，与宏大的AGI愿景、人类福祉相悖。
有用户发帖讽刺称，2周前，奥尔特曼说“我们需要 7 万亿美元和 10 吉瓦来治愈癌症”，他现在表示“我们正在推出以个性化广告形式营销的 AI垃圾视频”。
奥尔特曼转发了这一帖子，并回复称需要资金来继续研究AI，并且几乎所有的研究精力仍然集中在通用人工智能上。 “向人们展示很酷的新技术或者产品，让他们开心，并借此来赚取一些钱，这也是一件好事。”奥尔特曼称，当谈到公司的最佳发展轨迹时，现实情况是微妙的。
“重要的是让人类从这些模型的开发中受益。我们认为Sora会给世界带来很多欢乐、创造力和联系。”OpenAI在博客中写道。未来，随着视频模型持续进化，通用世界模拟器与机器人Agent将重塑社会，无论如何，Sora 2朝这一目标迈出了重要的一步。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 160421

金币: 421027

道行: 20030

原创: 764

奖券: 302

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 19272(小时)
注册时间: 2012-06-21
最后登录: 2025-10-25

只看该作者沙发发表于: 10-03

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

Sora2在C端体验和产品设计上接近“GPT-3.5时刻”，但技术瓶颈仍未完全突破。

📌 背景：Sora2与“GPT-3.5时刻”的定义
OpenAI将2024年2月的初代Sora比作视频的“GPT-1时刻”，而2025年10月推出的Sora2则被定义为可能直接跳到“GPT-3.5时刻”1。这一表述源于Sora2在物理仿真、音视频同步、用户交互等方面的显著提升，且配套推出了C端社交App Sora3。

🧩 Sora2的核心进展与短板
🔍 关键突破（对比初代Sora）
维度    初代Sora    Sora2
物理逻辑    易出现物体变形、动态失真    支持体操、桨板后空翻等复杂动态，浮力/刚性模拟更精准1
音视频同步    无同步音频    生成画面时同步生成环境音、对话，口型与发音匹配3
用户交互    仅技术演示    推出Sora App，支持“客串”（Cameo）和视频混编（Remix）3
（补充说明）“客串”功能允许用户将自己的形象融入AI场景，交互设计贴近普通用户需求。

❌ 未解决的技术瓶颈
细节一致性：人脸生成“似像非像”，多物体交互时易出现手脚/面部细节丢失1。
事实逻辑错误：如灭火器喷雾出口位置错误，中文支持差（生造文字）1。
效率问题：10秒视频需等待数分钟，分辨率仍待提升

✅ 结论：C端体验先行，技术仍需迭代
对于普通用户，Sora2通过App化、邀请制裂变等设计降低了使用门槛，娱乐性和创作自由度显著提升，已引发社交传播热潮（如闲鱼出现邀请码交易）1。但对专业创作者而言，物理逻辑与细节一致性的缺陷仍未彻底解决，“GPT-3.5时刻”的技术里程碑尚未完全达成

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 196828

金币: 496317

道行: 2004

原创: 2432

奖券: 3100

斑龄: 39

道券: 1134

获奖: 0

座驾

设备

摄影级

在线时间: 43783(小时)
注册时间: 2008-10-01
最后登录: 2025-10-25

只看该作者板凳发表于: 10-03

Sora2：迈向AI视频的GPT-3.5时刻

背景与发布

2025年10月1日，OpenAI正式推出了新一代视频生成模型Sora2，以及与其配套的AI视频社交App “Sora”。这一发布引起了广泛关注，尤其是因为OpenAI CEO奥尔特曼（Sam Altman）在各类AI生成视频中的“出镜”，使得这一技术迅速成为热点话题。

技术进步

相比初代Sora，Sora2在多个方面都有显著提升：
- 物理逻辑：Sora2在物理上更加精准、逼真，能够完成初代Sora难以实现的任务，如奥林匹克体操动作、在桨板上的后空翻等。
- 画面一致性：Sora2在画面一致性上有了显著改进，能够生成更加连贯、自然的视频。
- 真实感：Sora2在真实感上有了显著提升，能够生成具有高度真实感的声音效果和背景音。

用户体验

用户可以通过上传图片并结合文字提示，或者使用“Cameo”功能，基于自己或朋友的形象生成视频。Sora2的镜头语言丰富，对话有想象力，音频输出方面口型与发音一致。然而，生成一个10秒的视频仍需等待数分钟，且分辨率不高。

社交基因

Sora采用邀请制免费使用，用户注册后可以裂变出4个邀请码，分享给朋友。这一机制不仅促进了用户的链式传播，还形成了好友网络。有人将Sora称为“AI版抖音”，其主页是垂直视频流，用户可以上下滑动浏览不同用户发布的视频。

优点与缺点

- 优点：
  - 数字人的物理效果和唇型驱动效果很好。
  - APP的使用交互设计友好，从注册就让用户在“验证”过程中完成素材内容的录制。
  - 输出效果自然，对用户友好。

- 缺点：
  - 录入人脸输出的视频并不完全像本人，有“似像非像”的效果。
  - 在事实逻辑上仍有错误，如灭火器喷雾的出口不准确。
  - 中文支持较差，出现凭空生造的文字。

GPT-3.5时刻到了吗？

OpenAI在官方博客中将Sora2定义为“可能直接跳到了GPT-3.5的时刻”。然而，AIGC创作领域的KOL@尾鳍Vicky认为，对于创作者来说，这一时刻尚未到来，因为Sora2仍无法彻底解决一致性和物理问题。但对于大多数普通受众来说，玩AI视频已经变得很简单且有趣。

市场竞争

尽管Sora2在技术上有所突破，但其技术并未达到代差领先。谷歌的Veo3、Nano banana以及世界模型Genie3在多模态方面同样强悍。国内的可灵、即梦也能与之一战。高飞认为，OpenAI在打造互联网产品方面领先于其他公司，其产品玩法更值得关注。

总结

Sora2的发布标志着AI视频生成技术的重大进步，尽管仍存在一些技术和逻辑上的问题，但其在用户体验和社交互动方面的创新值得肯定。随着技术的不断迭代和优化，AI视频生成有望在未来带来更多的欢乐、创造力和联系。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选