武当休闲山庄 - 稳定,和谐,人性化的中文社区

查看完整版本: [-- 对生成式AI“下毒”？艺术家们可能会反受其害 --]

武当休闲山庄 -> 数码讨论 -> 对生成式AI“下毒”？艺术家们可能会反受其害 [打印本页]

登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831

2023-10-30 20:01

对着电脑点几下鼠标、或是在手机上输入“帮我画一幅xx主题的画”，很快一幅“全新”的、“原创”的画作便呈现在了面前。

大家都知道，这便是近来大红大紫的“生成式AI”所能提供的、最典型的用用场景。特别是在最新一代、具有强大AI加速能力的硬件平台上，部分生成式AI更是已经可以做到脱机运行，即便没有网络，也只需借助本机算力就能很快完成各种绘图、背景替换、文字总结等富有“创意”的工作。

然而，如果有那么一天，当你依然习惯于命令AI去作画、去撰写文章的时候，可能会惊讶地发现，它们突然“性情大变”。明明想要的是可爱的小猫小狗图片，可AI画出来的却变成了遍布眼球和触手的克苏鲁怪物；明明只想要一篇发“小红薯”的短文，AI却洋洋洒洒写了一篇全是文言文的颂歌。

难道这是AI突然觉醒，终结者要到来了吗？显然并非如此，可能只是你使用的生成式AI“中毒”了。

生成式AI的原理，让一部分人不爽了

生成式AI是怎么起作用的？简单来说，它其实就是模仿人类学习的过程，先要学习个几万、几十万，甚至几百万现有的文章和画作，然后才能形成可用的“文风”和“画风”。之后，这些AI便可以正常“工作”了。

讲道理，这种先学习、模仿，然后逐渐生成自己风格的过程，其实与人类的学习并没有太大区别。但问题就在于，生成式AI目前其实还存在三大短板。

其一，是生成式AI所需的学习样本量通常都相当大。以作画为例，往往要学个上千万、甚至上亿张画，才能变得可用。这么大的学习样本，显然不可能让AI公司自己去找人画出来，所以在这个学习的过程中，难免就会出现使用未授权画作的问题。

可能有人会说，人类学画、学写作文的时候，不也是会去模仿名家作品吗？我们一样不可能得到这些知名画家、画师、作家或博主的授权。而且法律上也有规定，基于学习目的去复制原作是可以豁免的，难道这对于AI不适用吗。

问题就在这里。生成式AI的剩下两大短板就在于，它即便是经过了大量的“学习”，实际上也往往很难真正生成自己的风格，而是会“学什么像什么”。特别在绘画方面，现有的生成式AI普遍表现得像是一个“技术精湛的模仿犯”，虽然画的体裁可以有创新，但画风通常一眼就能看出模仿的痕迹。

在这个基础上，生成式AI这项技术本身从探索到转向商用的步伐，也确实快了点。特别是随着目前在PC、智能手机上的大量部署，就让不少画家、作家感觉到了危机感。或者说得更直白一点，也可能是受到了嫉妒。

针对AI的“投毒”，吸引了众多关注

正是因为目前生成式AI的蓬勃发展，让大量的创作感到了不安，也促使了一部分研究者开始投身于“对抗”生成式AI的特殊工具上。

比如就在近日，芝加哥大学的一位教授就公布了他所在团队研发的一种“数据中毒工具”Nightshade。当创作者决定在网上公开发布他们作品的低清数字版时，就可以用这个工具，向画作中插入像素级别的微小改动。

大模型里混入的中毒图像越多，AI画出的画就会越离谱

对于人类来说，这些改动几乎不会被察觉到，也不会影响到欣赏画作，但对于AI来说，这些按照特定规律排布的“混淆像素”，却会使得AI错误地认知画作中的内容，比如把猫认成狗、把城市认成树木之类。

一旦这些包含有错误认知元素的画作被AI学习后，就会增加AI后续在“创作”时出现诡异错误的概率。“带毒”的画作被AI模型学习得越多，模型出错的概率就会越大。而要想排除这种影响，背后的公司便不得不通过人工审阅，一幅幅地去排查语料库里的画作，这会极其费时费力，而且很可能还解决不了问题，甚至在最坏的情况下会导致整个大模型全部废掉，变得不再可用（因为此时出错的概率会变得高到不可接受）。

Glaze处理后的图像人看不出什么问题，但AI则会完全无法识别

不仅如此，这个团队还研发出了另外一款相对“温和”的投毒工具Glaze。虽然同样是基于特殊的像素混淆技术，只不过它并不会导致AI“学坏”，而是会让AI什么也学不到。也就是说，AI将不能从Glaze处理过的画作中学习到任何新的作画风格和技巧，这张画作将会白白浪费大模型学习的时间和成本，却不能起到作用。

投毒或许短期有用，但却很难换来真正的公平

为什么研究者要开发针对生成式AI的“投毒”技术？根据他们自己的说法，是希望这些工具“有助于将权力平衡从AI公司转向艺术家”。

是的，我们不能否认，现在的AI大模型在训练、生成的过程中，很大程度上是利用了前文所讲到的、法规上对于“学习他人作品”的豁免条款。因为生成式AI确实不是直接改编现有的作品，而是通过学习他人风格之后进行“再创造”。所以相关公司从理论上来说，确实是不需要为这种学习行为去申请许可、甚至不需要付费。

但很现实的问题就在于，一方面生成式AI学习之后的画风往往与“原作”太像，另一方面它们也确实已经开始威胁到了一部分艺术家的生存状况。所以会有研究者推出类似的数据投毒工具，希望帮助艺术家增强与AI企业进行版权谈判时的话语权，其实也不难理解。

可问题在于，这种“投毒”真的可以解决问题吗？恐怕很难。

一方面，无论是与研究者、还是艺术家相比，AI大模型背后的企业显然都处于绝对的技术优势地位。也就是说今天研究团队可以推出数据投毒工具，过段时间保不齐相关企业就能开发出“抗毒”的新款大模型、新款算法，从而令“投毒”无效化。

另一方面，就算“投毒工具”本身难以被攻破，但生成式AI技术已经发展了这么长时间，很多大模型早已成熟。就算它本身还需要进一步学习、迭代，也未必就非得要靠外部的数据抓取了。毕竟对于AI来说，“自己训练自己”早已不算是什么新闻。

况且，如果针对AI的投毒工具真的被广泛采用，那么最坏的情况下，它甚至可能会直接倒逼生成式AI技术普遍“进化”，大家都不再需要靠抓取外部的作品来学习。这样一来，本意是为了增强艺术家话语权的新技术，最终却反而可能会堵死了艺术家们好不容易的赚钱路子。

毕竟巨大的技术力差距客观存在，而这显然不是靠一两个“投毒工具”就能够解决的。

查看完整版本: [-- 对生成式AI“下毒”？艺术家们可能会反受其害 --] [-- top --]

Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled