武当休闲山庄 - 稳定,和谐,人性化的中文社区

查看完整版本: [-- 欢迎来到AI的真实世界 --]

武当休闲山庄 -> 数码讨论 -> 欢迎来到AI的真实世界 [打印本页]

登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831

2024-02-17 16:28

20多年前，我逃课去看《黑客帝国》。

墨菲斯说：欢迎来到真实世界。

一下子梦醒了，回到教室的时候，老师在讲国有企业改制过程中的顶层设计问题。

你看到的，就是真实吗？

时光荏苒，终于忘记了很多人，终于忘记了很多事。

一觉醒来，AI圈里沸腾了，大家发现现实不存在了。

OpenAI发布视频大模型的预告，能够生成60秒完整视频。

这个大模型叫Sora。

作为一个AI工具的重度使用者，平均每天使用生成式AI和AI绘画工具超过2小时。

对Sora最感兴趣的一点，是它生成的画面不崩、不闪。

事实上，现阶段开源AI绘画工具也能生成视频，但大多数在4秒之内，而且最大的缺点是脸崩和闪烁。

脸崩的原因是很多大模型很难处理大幅画面的时候的面部细节，闪烁的原因是现阶段大模型都是逐帧生成画面，然后拼成视频，每一帧的画面细节有变化的时候就会闪烁。

从这一点上来说，在Sora面前，目前所有的视频大模型都得跪下。

有分析人士认为，Sora使用了游戏引擎。我也认同这一观点，使用游戏引擎能够巧妙的绕开逐帧生成画面再拼接的弊端。

英伟达高级科学家Jim Fan对Sora发表了一些自己的观点：

Sora是一个数据驱动的物理引擎。它是对许多世界的模拟，无论是真实的，还是虚构的。该模拟器通过去噪和梯度学习方式，学习了复杂的渲染、「直观的」物理、长期推理和语义理解。

如果Sora使用虚幻引擎5接受过大量合成数据的训练，我不会感到惊讶的。必须如此！

在ChatGPT3.5推出之前，ChatGPT发布了几个版本，虽然表现惊艳，但能力有限，也是不温不火。3.5一炮走红后，再接再厉推出了付费的4.0版本。

不管多么惊人，ChatGPT至少是有“前奏”的，它的基本原理和运行逻辑，以及进展，对AI感兴趣的人，都是有了解的。

Sora的出现有点措手不及，就在昨天的时候，大家还在为AI视频去闪问题绞尽脑汁，毕竟大家都看过基于现有技术水平的论文，知道瓶颈在哪里，知道上限在哪里。Sora就像跳出了人类科技，突然到来的天顶星科技。

但是！

如果使用了游戏引擎（比如虚幻5）的话，这一切又都可以理解了。只能说之前的AI视频走的是AI绘画的老路，想当然的认为视频=绘画逐帧叠加，Sora巧妙的换了个路线，依然是ChatGPT的逻辑，用数据去驱动游戏引擎，再由游戏引擎生成画面。

这样的技术并没有超越现有科技水平，只是骨骼惊奇，之前确实没有人想象到。

ChatGPT 先把接收到的文字转化成代码，再用代码驱动游戏引擎生成画面。

随着Sora的成功，后续会有越来越多的AI大模型接入游戏引擎，会对已有绘画大模型造成降维打击！

至于视频行业、传统影视业，更是影响深远。

今年春晚任素汐那首歌《枕着光的她》，有一段陶瓷小人跳舞的镜头，是用AI画的。

而且是用Stable Diffusion + ControlNet + AnimateDiff + LCM + IPAdapter，基于SD1.5。

幸亏今年春节来的早！

要是晚几天，随着生成式AI和游戏引擎技术的迅速迭代成长，甚至连任素汐本人都可以用AI画出来了！

不过，按照OpenAI的尿性，大概率是不开源的，但在路线图既定的情况下，其他AI公司迅速跟上并不算难。

压力最大的可能是Midjourney，当生成式AI+游戏引擎成为标配，Midjourney转型难度加大。

可以说，不做AI大模型的电影公司，都得死。

jjybzxw

2024-02-17 18:55

在这个世界里，AI技术正在改变我们的生活方式，从自动驾驶汽车到智能家居，再到医疗诊断和金融投资等各个领域。
AI的发展也面临着许多挑战，例如数据隐私、算法偏见和就业市场的影响等。我们需要认真思考如何解决这些问题，以确保AI技术的可持续发展。
在这个世界里，你将有机会深入了解AI技术的最新进展和应用，以及它对我们生活的影响。让我们一起探索这个充满机遇和挑战的AI世界吧！

查看完整版本: [-- 欢迎来到AI的真实世界 --] [-- top --]

Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled