1362阅读
0回复

[智能应用]只需3秒就能复制你声音的AI，是全新的AI蓝海吗？ [复制链接]

上一主题下一主题查看指定楼层

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 116673

金币: 8582

道行: 19524

原创: 29525

奖券: 18275

斑龄: 203

道券: 10562

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 24942(小时)
注册时间: 2007-11-29
最后登录: 2025-12-17

只看楼主倒序阅读使用道具楼主发表于: 2023-01-15

— 本帖被兵马大元帅执行加亮操作(2023-01-31) —

2022年属实是AI大年。

从年初年中的AI绘画，到年尾的AI作者，好像这个AI已经实实在在的刷了一整年的存在感了。

先是画图——画好图——画黄图，再到写文——写好文——写黄文，我不知道AI的制作者们抱着什么样的伟大信念制作出来这些新颖的好东西，但只要落到网友们的手里，这些数据模型肯定会被灌满奇怪的东西。

就拿我群里最近疯狂转发的AI绘画最新训练成果来说，在我不知不觉间，这小机器人已经可以精准的拿捏我的XP了。

不过今天要介绍的并不是这两个已经被玩坏的AI，而是微软最新出品的AI成果——语音合成模型 VALL·E。

它可不是那些影视剧讲解里的那些 “注意看，这个男人叫小帅”的固定语气语调的AI念稿人，而是号称“3秒钟”就可以复制你的声音的赛博卡卡西。

根据我查来的说法，VALL·E相比传统的AI语音模型采用 “梅尔频谱”提取特征，它转换了思路与赛道，将语音合成这个步骤改为 “语言模型”的任务。

以前走音素→梅尔频谱（mel-spectrogram）→波形的流程，被VALL·E改变成了音素→离散音频编码→波形。

——当然，尽管这些东西是我写出来的，但我完全看不懂官方说的是什么，我放张图也只是显得文章没有那么空而已。

在我能看懂的介绍里，让我觉得最值得发出来给大家讲讲的，就是这个VALL·E，不只是能用过数据模仿出采样人的音色，它连语气和语速都模仿的非常到位。

除此之外，包括采样者的背景音和话语中的情绪，VALL·E都能通过学习慢慢掌握。

一个音色、语气、语调、语速、情绪甚至是背景里的环境音被训练到极致的语音AI，说出的话可能真的和本人差别不大了。

搭配上“AI作者”和“AI绘画”，好家伙，已经可以组织起一个公司会议上的赛博PPT了，等哪天“AI动画”出来了，我们没准还能看见机器人自己拍的电影。

不少网友也评论，继画家和作者失业后，这股海克斯狂潮终于轮到配音演员身上了。

像其他 AI 新技术一样，这个尚未开源的VALL-E在安全、伦理等方面也引发不少人的担忧，尽管微软发布了关于使用 VALL-E 的道德声明，但未来的事儿谁又说得准呢。

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]只需3秒就能复制你声音的AI，是全新的AI蓝海吗？ [复制链接]