查看完整版本: [-- Meta推出视频模型Movie Gen,既能生成1080P视频还能配音乐[4P] --]

武当休闲山庄 -> 数码讨论 -> Meta推出视频模型Movie Gen,既能生成1080P视频还能配音乐[4P] [打印本页] 登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831 2024-10-06 15:14

当地时间 10 月 4 号,Meta 公布了一款强大的 AI 视频生成系统,名为 Movie Gen。
从其演示效果来看,可称得上是OpenAI 所开发的文生视频大模型 Sora 的“头号劲敌”。
Meta 的 CEO 马克·扎克伯格(Mark Zuckerberg)通过一段健身视频,展示了这项新技术。
在视频中,他的腿部训练器械不断变换造型,从赛博朋克到古罗马风格,再到金色火焰特效,甚至一度将负重变成了炸鸡块,展现了 Movie Gen 强大的视频编辑能力。

图 | 扎克伯格展示 Movie Gen 的视频编辑能力(来源:Instagram)
这种前所未有的演示方式,不仅展示了技术的创新性,更凸显了其在日常场景中的应用潜力。
不过,与 Sora 类似,目前普通用户还不能使用 Movie Gen,只能通过演示视频和官方演示视频来“解解馋”。
值得一提的是,在 AI 领域竞争加剧和日渐封闭的今天,Meta 颇有诚意地发布了 Movie Gen 的论文,长达 92 页,很符合它一直以来所提倡的开放精神。
让我们先来看看它究竟能生成什么样的视频:
提示词:雨水倾泻在悬崖和人身上,配上背景音乐。
提示词:全地形车的引擎轰鸣加速,伴随着吉他音乐。
提示词:一曲美妙的管弦乐,给人一种奇妙的感觉。
提示词:轮子旋转着,滑板落在水泥地上发出砰的一声。
据介绍,Movie Gen 是一个包含四个核心模型的 AI 系统:30B 参数的视频生成模型、13B 参数的音频生成模型、个性化视频生成模型,以及精确视频编辑模型。
这套系统最大的特点是:只需一张照片,就能创建逼真的个性化视频。
它不仅可以生成最长 16 秒、1080P 的高清视频,还能为视频配上同步的音效和背景音乐,这是目前 AI 视频生成领域的一个突破。
与此同时,该系统的音频生成能力能够延伸至 45 秒,为创作者提供了更大的创作空间。
在技术层面,Movie Gen 采用了创新的“流匹配”(Flow Matching)技术,这种方法相比传统的扩散模型,具有更高的效率和稳定性。
该技术的一个显著优势是具有零终端信噪比,这意味着它不需要特定的噪声调度(参数)就能保持稳定输出,从而提供更一致和更高质量的视频内容。
此外,无论是在训练还是推理阶段,流匹配技术都表现出了更高的效率,这使得系统能够更好地适应不同规模的模型需求。
在训练数据方面,Movie Gen 的规模令人印象深刻。
该系统的训练数据包含了超过 1 亿段视频和 10 亿张图像。通过观看这些视频,它可以学习和理解物理世界的视觉规律。
在音频模型方面,训练使用了超过 100 万小时的音频内容,基于此系统能够准确把握声音与视觉元素之间的联系。
然而,关于这些训练数据的来源和使用授权问题,仍存在争议。目前,一些创作者已经发起了集体版权侵权诉讼。
作为综合性的创意工具,Movie Gen 的功能十分全面。
据 Meta 相关资料,它不仅能通过文字提示生成全新的视频内容,还能对现有视频进行精确编辑,包括更改特定元素、添加特效、更换背景等。
这种编辑能力的精确性和灵活性,允许创作者在保持原有视频重点内容的同时,更精确地修改部分片段。

图 | Meta 展示 Movie Gen 根据文字指令修改视频(来源:Meta)
在音频方面,系统可以生成环境音效、配音和背景音乐,并确保与视频内容完美同步。
特别值得一提的是,它能生成拟声音效(Foley sound),比如布料摩擦声或脚步回声等日常生活中常见的声音,从而增强视频的真实感。
在性能评测方面,Meta 声称,Movie Gen 在人类评估测试中超越了类似的模型。例如,OpenAI 的 Sora、Runway 的 Gen-3 和快手的可灵等。
这种评估主要基于视频的连贯性和动作的自然度等方面。
今年 5 月,虽然谷歌也展示了名为 Veo 的类似模型,但 Meta 的新系统似乎在多个方面都具有领先优势。
就演示视频来看,这种优势主要体现在视频生成的质量、编辑的精确性,以及音频同步的自然度等方面。
然而,这项技术也引发了广泛的担忧,尤其是其个性化视频创作功能,它本质上似乎是一种深度伪造(Deepfake)技术。
其通过单张照片就能生成相关人物的视频内容,因此这种功能很可能被滥用,用于制作虚假的历史场景和令人不适的色情视频。
虽然目前 Movie Gen 还不能生成语音(目前只支持配乐),但这种技术的发展正在让真实与虚构的界限变得越来越模糊。
这种情况下,如何确保技术被负责任地使用成为了重要议题之一。

图 | Meta 公布的测试结果,Movie Gen 略胜 Sora 一筹(来源:Meta)
Meta 计划于 2025 年在Instagram 平台上推出 Movie Gen,这将使高级视频创作工具更加普及。
作为 Facebook 和 Instagram 的母公司,Meta 在社交媒体领域拥有庞大的用户基础,这使得 Movie Gen 的潜在影响力更加显著。
该公司强调,Movie Gen 的目标是“增强而非取代人类创作者”的工作。其计划与电影制作人和创作者合作,进一步完善这项技术。
不过,考虑到 2023 年美国演员工会的警告和业内人士的不同反应,这种合作可能会面临一些挑战。
Movie Gen 的开发是 Meta 在生成式 AI 领域的第三个重要里程碑。
它建立在该公司此前 Make-A-Scene 视频生成器和 Emu 图像生成模型的基础上,体现了 Meta 在多模态 AI 技术发展方面的持续投入和长期规划。
该公司对媒体表示,将继续优化 Movie Gen 的性能,包括提高视频生成速度和整体质量。
据该公司设想,未来这项技术潜在的应用场景包括社交媒体平台的日常生活视频创作,或生成个性化的动画生日祝福等。
展望未来,期待 Movie Gen 或 Sora 的正式上线早日到来,让普通用户也能够亲身体验 AI 生成的新工具。

jjybzxw 2024-10-06 22:35
  Meta公司最近公布了一款名为Movie Gen的强大AI视频生成系统,它能够根据文本提示生成高质量的视频和音频,并且支持对现有视频进行精确编辑。这个系统由四个核心模型组成:一个30B参数的视频生成模型、一个13B参数的音频生成模型、个性化视频生成模型和精确视频编辑模型。Movie Gen的最大特点是只需一张照片,就能创建逼真的个性化视频。

  Movie Gen能够生成最长16秒、1080P的高清视频,并为视频配上同步的音效和背景音乐,这是AI视频生成领域的一个突破。此外,该系统的音频生成能力能够延伸至45秒,为创作者提供了更大的创作空间。

  技术层面上,Movie Gen采用了创新的“流匹配”技术,相比传统的扩散模型,具有更高的效率和稳定性。该技术的一个显著优势是具有零终端信噪比,这意味着它不需要特定的噪声调度参数就能保持稳定输出,从而提供更一致和更高质量的视频内容。

  在训练数据方面,Movie Gen的规模令人印象深刻,训练数据包含了超过1亿段视频和10亿张图像。在音频模型方面,训练使用了超过100万小时的音频内容。

  尽管Movie Gen目前还未向公众开放,但Meta计划于2025年在Instagram平台上推出这项技术,旨在增强而非取代人类创作者的工作。这项技术的潜在应用场景包括社交媒体平台的日常生活视频创作,或生成个性化的动画生日祝福等。

  然而,这项技术也引发了关于个性化视频创作功能被滥用的担忧,尤其是其通过单张照片就能生成相关人物的视频内容,可能会被用于制作虚假的历史场景和不适的色情视频。因此,如何确保技术被负责任地使用成为了重要议题之一。



查看完整版本: [-- Meta推出视频模型Movie Gen,既能生成1080P视频还能配音乐[4P] --] [-- top --]


Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled


沪ICP备:05041533号