切换到宽版
  • 680阅读
  • 1回复

[智能应用]AI搜索花式翻车,谷歌居然又栽在了数据清洗上[6P] [复制链接]

上一主题 下一主题
离线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
106547
金币
14
道行
19523
原创
29307
奖券
17354
斑龄
191
道券
10129
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 20258(小时)
注册时间: 2007-11-29
最后登录: 2024-12-26
— 本帖被 兵马大元帅 执行加亮操作(2024-05-29) —

此前在5月15日举行的I/O开发者大会上,谷歌CEO纳德拉向外界正式介绍了AI搜索功能AI Overviews(AI概览)。在谷歌Gemini大模型de 驱动下,AI Overviews能够在谷歌搜索的页面顶部总结提炼用户查询内容的概要。在许多业内人士看来,AI Overviews无疑是谷歌搜索引擎上线25年以来最大的一次革新,以至于谷歌方面敢于宣称该功能将重新定义搜索体验。

但遗憾的是,抢先体验了AI Overviews的美国用户对于“重新定义搜索体验”持不同意见。例如The Verge的记者Kylie Robison就在文章中讽刺了AI Overviews的翻车。她在文中举了一个例子,就是当用户查询如何将芝士和披萨饼胚粘在一起的时候,AI Overviews的回答是,“加点胶水”。尽管胶水确实可以解决粘连问题,但这极有可能是Gemini出现了“幻觉”(Hallucination)所导致的结果。
AI大模型会出现“幻觉”,这如今几乎是人尽皆知的事情,谷歌公司发言人Meghann Farnsworth似乎也是按照Gemini因“幻觉”翻车来解释的。他表示,“这些错误来自通常非常罕见的查询,不能代表大多数人的体验”。但神通广大的网友很快给出了AI Overviews会回答“在披萨上涂胶水”的理由,因为这个回答实际上来源于一个名为“fucksmith”的Reddit用户在11年前发的帖子。

AI Overviews会采纳Reddit用户的帖子来作为回答并不奇怪,因为谷歌与Reddit在AI搜索上是有合作的。
AI Overviews的前身是Search Generative Experience(SGE),它是谷歌推出的一种实验性版本的搜索引擎。在美国谷歌选择了Reddit作为合作伙伴,为用户提供更精准、及时的搜索解答。其实使用Reddit的数据并不奇怪,可问题是谷歌为什么会采信这种明显出现常识错误的数据。
所以最有可能的解释,是谷歌在数据清洗上出现了纰漏,以至于让“有毒”的数据进入了Gemini的数据集。如果事实果真如此,那么在某种意义上就证明了谷歌为了在AI赛道追赶OpenAI,已经急功近利到走火入魔的地步。因为在此之前,谷歌在大模型的数据清洗上已经翻车过一次。
去年年末、也就是Gemini上线不久后,就有国内网友发现用中文向Gemini Pro提问时,Gemini Pro会直接表示自己是百度的文心一言。紧接着在更多的网友提问下,Gemini Pro一会认为自己是小爱同学,一会又承认自己是悟道大模型开发团队北京智源做的。

对此,当时业内人士的主流观点,是谷歌在训练数据上大概率使用了百度文心一言的输出结果,以此来蒸馏自家的Gemini Pro。要知道,OpenAI已经证实了大模型的“幻觉”问题和数据质量息息相关,数据投毒攻击(Data Poisoning Attack)也已经是一个AI领域不可回避的问题。
根据研究人员在HITCon安全会议上的演讲显示,只需要“污染”不到0.7%数据就可以完全绕过防御,进而全面降低大模型输出内容的准确率。用谎言去验证谎言得到的一定是谎言,如果数据集中的参数本身就有问题,那么得到的回答自然就会是错漏百出。因此数据清洗一直以来都是AI厂商最为重要的工作之一,几乎所有的大模型都会加入数个纠错和屏蔽措施,避免数据库遭受有毒信息的污染。

更为关键的是,谷歌可是做搜索引擎起家的,而搜索引擎的核心技术就包括了数据清洗,将爬虫抓取的数据中存在的缺失值、异常值(离群点)、重复值去除,就都是数据清洗的一部分。结果他们在AI业务上却接二连三地因为数据清洗问题翻车,这显然不是个正常的现象。
反常背后必然有原因,在许多海外网友看来,谷歌从AI赛道领跑者的位置滑落,进而不得不追赶OpenAI的现实,可能导致了他们变得如此急躁。
过去一年间,AI初创企业Perplexity就被视为是谷歌的挑战者,而这家公司被投资者看中的原因也很简单,因为它做的是AI搜索。并且就在此次I/O开发者大会举行前,OpenAI也被曝出将要做AI搜索来挑战谷歌,因此AI Overviews更像是谷歌对于Perplexity和OpenAI的回击。或者说在此次I/O开发者大会上,谷歌无论如何都得展现出自己对AI搜索的态度,即便没有AI Overviews、也得有AI abstract。

只不过急功近利必然是有代价的,用户使用搜索引擎是希望寻求答案,可AI Overviews给出的答案却是偏颇的,这无疑就是在动摇大众对于谷歌搜索的信任。作为这家公司最为核心的产品,谷歌搜索应该是稳健的,但现在谷歌却把一个实验性质的功能直接推向数以十亿计的用户,这不是急功近利又是什么?
1条评分金币+32
兵马大元帅 金币 +32 优秀文章,支持!n神马都是浮云 05-27
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
112520
金币
1181722
道行
1965
原创
2211
奖券
2223
斑龄
29
道券
602
获奖
0
座驾
设备
摄影级
在线时间: 27200(小时)
注册时间: 2008-10-01
最后登录: 2024-12-27
只看该作者 沙发  发表于: 05-27
在上文提供的信息中,谷歌在I/O开发者大会上推出了AI搜索功能AI Overviews,这是一个基于谷歌Gemini大模型的功能,可以在搜索结果顶部提供查询内容的概要。这个新特性被认为是谷歌搜索引擎自上线以来的最大革新之一。然而,一些美国用户在实际使用后对它的效果持有不同的看法。例如,The Verge的记者Kylie Robison在一篇文章中批评了AI Overviews的表现,并举了一个例子:当用户查询如何将芝士和披萨饼胚粘在一起时,AI Overviews建议的答案是“加点胶水”。

这个答案很可能是由于AI模型的“幻觉”现象导致的,即模型在处理信息时可能会产生错误或荒谬的结果。谷歌发言人Meghann Farnsworth对此表示,这些错误是罕见情况,不代表大多数用户的体验。据指出,AI Overviews的回答可能来源于Reddit用户的帖子,因为谷歌与Reddit有合作关系,以提高搜索的准确性和及时性。

然而,出现常识性错误的答案表明,在数据清洗过程中可能存在疏漏,这可能是因为谷歌急于在AI领域追赶上OpenAI而造成的问题。类似的问题在谷歌的另一个大模型——Gemini Pro中也曾经出现过。

综上所述,虽然AI Overviews是一个尝试重新定义搜索体验的创新功能,但在实际应用中出现了错误和荒谬的答案,这表明谷歌在大模型的数据处理和准确性方面还有待加强。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个