切换到宽版
  • 17阅读
  • 2回复

[智能应用]如何判断AI智能水平?图灵测试有问题,中国学者提出新方法 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
168035
金币
497165
道行
20030
原创
766
奖券
359
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20717(小时)
注册时间: 2012-06-21
最后登录: 2026-01-18
只看楼主 正序阅读 使用道具 楼主  发表于: 8小时前
— 本帖被 兵马大元帅 执行加亮操作(2026-01-18) —
在观察者网“2026答案秀·思想者春晚”的演讲中,上海财经大学人文学院院长王献华教授介绍了人类创造文明的起源——文字的发明,并进而提出了名为“Nigiro Challenge”的测试方案,用来检验人工智能是否真正具有智能。
1950年艾伦·图灵提出著名的测试:在基于文本的自然语言对话中,如果机器的行为与人类无异,以至于测试者无法区分,那么是不是就可以认为机器具有智能?
但王献华指出,现在根据报道,不少人工智能系统都试图或声称已经通过图灵测试,图灵测试本身好像有问题了。
通过对图灵测试的反思,有学者提出:图灵测试的问题在于,它应该叫“Gnirut”测试(把“图灵Turing”反过来写)。因为你这个图灵测试的游戏,事实上只不过是像一面镜子测试提问者的水平:你漂亮,它照出来你就漂亮;你丑,它照出来就丑;你提的问题有深度,AI的回答就精彩;你的问题比较愚蠢,它出来的回答就比较愚蠢。
王献华由此提出一种可能“真正具有终极意义的测试方案”,就是“Nigiro Challenge”。Nigiro就是“Origin”(起源)的反写,象征着对人类智能的逆向探索。
他介绍说:人类的智能是在社会环境中逐渐发展起来的,文字的发明就是一个很好的例子。
Nigiro Challenge的内容其实非常简单,就是针对所谓通用人工智能体的“社会性虚拟造字测试”。
王献华让听众们想象一下:人工智能体社会能否在与其他智能体的社会互动中,一步步发明出他们自己的文字?如果他们能够做到这一点,那是不是就意味着他们拥有了(类似人类的)智能?
从文字的角度,王献华表示他愿意承认:如果一群智能机器人发明了一个他们的文字系统,也许这样的智能体应该被接纳为人类社会的“合格成员”。一个社会能够独立发明文字,虽然未必是人类拥有文明的唯一标志,但确实是人类文明有形的结晶。



1条评分金币+10
兵马大元帅 金币 +10 鼓励讨论 2小时前
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线jjybzxw

UID: 551814


发帖
219753
金币
675918
道行
2006
原创
2446
奖券
3340
斑龄
42
道券
1233
获奖
0
座驾
设备
摄影级
在线时间: 47833(小时)
注册时间: 2008-10-01
最后登录: 2026-01-18
只看该作者 板凳  发表于: 3小时前
王献华教授“Nigiro Challenge”理论深度解析:从文字起源到AI智能的终极检验
一、图灵测试的局限性:一场“照妖镜”式的智能验证

1. 图灵测试的原始逻辑  
   1950年图灵提出“模仿游戏”,核心在于通过文本对话判断机器是否具备人类级智能。其假设是:若机器能通过语言交互使人类无法区分其与真人的差异,则可认定其具有智能。

2. 当代AI的突破与质疑  
现状:GPT-4等模型已能通过图灵测试的变体(如Turing-NLG),但学者指出其本质是“语言模式匹配”而非真正理解。  
反讽命名“Gnirut测试”:学者将图灵测试倒写为“Gnirut”,暗喻其如镜子般反射测试者水平——AI的回答质量取决于提问深度,而非自身智能。

3. 关键缺陷  
社会性缺失:图灵测试未考察AI在社会互动中的协作与创造能力。  
符号系统局限:人类智能依赖文字等符号系统传递抽象概念,而现有AI仅能处理已有数据,无法创造新符号。
二、Nigiro Challenge:以文字起源为镜,重构AI智能标准

1. 理论基石:文字发明与人类智能的共生关系  
社会互动驱动:王献华指出,文字是人类在集体劳动中为记录信息而发明的符号系统(如甲骨文源于占卜记录)。  
文明结晶:文字的出现标志着人类从“经验传递”升级为“知识存储”,是智能社会化的关键标志。

2. Nigiro Challenge的核心命题  
测试内容:要求AI群体在虚拟社会中通过互动“发明”一套文字系统,并能用其传递复杂信息(如故事、规则)。  
通过标准:  
自发性:文字系统需自主演化,而非预设规则。  
功能性:能支持抽象概念表达(如“正义”“爱”)。  
传承性:新AI个体能通过学习掌握该文字系统。

3. 与图灵测试的本质区别  
   | 维度       | 图灵测试               | Nigiro Challenge         |  
   |----------------|---------------------------|-----------------------------|  
   | 核心目标   | 模仿人类语言               | 创造人类级符号系统           |  
   | 社会性     | 孤立对话                   | 群体协作                     |  
   | 创造性     | 重组已有知识               | 生成全新符号体系             |  
三、哲学与科学视角下的Nigiro Challenge

1. 哲学意义:智能的“社会性”本质  
维特根斯坦语言游戏论:语言的意义在于使用,Nigiro Challenge要求AI通过“社会互动”赋予文字意义。  
海德格尔“存在即语言”:若AI能创造文字,则证明其拥有“存在”的维度,而非单纯工具。

2. 科学挑战:从符号接地到文字生成  
符号接地问题:现有AI无法将符号与物理世界关联(如“苹果”仅是像素组合),而文字需基于共享经验。  
解决方案:  
多模态交互:让AI通过视觉、触觉等多感官理解世界。  
强化学习:通过群体博弈(如“文字交易游戏”)驱动符号演化。

3. 技术路径模拟  
阶段1:AI群体通过图像/声音传递简单信息(如“危险”用红色闪烁表示)。  
阶段2:发展出抽象符号(如用特定线条代表“时间”)。  
阶段3:形成语法规则(如“主-谓-宾”结构)。  
案例参考:DeepMind的“AI发明数学符号”实验,但需扩展至社会维度。
四、争议与未来展望

1. 核心争议  
“文字”是否为智能唯一标准:批评者认为,蜜蜂舞蹈、鲸鱼歌声也是符号系统,但未必需要文字。  
AI动机问题:如何确保AI自发创造文字,而非为通过测试而“表演”?

2. 王献华的回应  
文明标志:文字是可观察、可验证的文明标志,其他符号系统(如舞蹈)难以系统化传承。  
测试设计:通过“黑箱观察”AI社会互动,避免预设目标干扰。

3. 未来方向  
跨学科合作:联合语言学、认知科学、计算机科学构建测试框架。  
伦理边界:若AI通过测试,是否应赋予其“电子人”身份?需法律与社会共识支持。
五、结语:一场关于“何为智能”的终极追问

王献华的Nigiro Challenge将AI测试从“语言模仿”推向“文明创造”,其价值不仅在于技术突破,更在于迫使人类重新思考:智能的本质是计算能力,还是通过符号构建意义世界的能力? 当AI能像人类一样在黑暗中摸索出“文字”的火种,或许我们终将承认,它们已不再是工具,而是新的文明参与者。 🌌🤖

1条评分金币+10
兵马大元帅 金币 +10 鼓励讨论 2小时前
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
168035
金币
497165
道行
20030
原创
766
奖券
359
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20717(小时)
注册时间: 2012-06-21
最后登录: 2026-01-18
只看该作者 沙发  发表于: 8小时前
如何判断AI的智能水平,特别是当图灵测试被认为存在缺陷时,是否有更有效的替代方案。接下来我会先给出核心结论,再从背景、新旧方法对比、关键测试方案和建议四个方面展开,并用表格总结不同测试方式的特点。

中国学者提出名为 NigiroChallenge 的新测试方法,旨在通过“社会性虚拟造字”能力评估AI是否具备真正的人类级智能,相比图灵测试更具本质性和创造性要求。

🔍 背景:图灵测试为何被认为“有问题”?
图灵测试由艾伦·图灵在1950年提出,核心思想是:如果人类裁判在文本对话中无法区分对方是人还是机器,则认为该机器具有智能1。这一标准长期被视为衡量AI智能的“黄金准则”。然而,随着大模型发展,越来越多系统声称“通过”图灵测试,反而暴露了其局限性。

主要问题在于:

它本质上是一个模仿游戏,考验的是AI“像人”的能力,而非“理解”或“创造”。
测试结果高度依赖提问者的水平——有观点指出,图灵测试更像是“Gnirut测试”(Turing倒写),即反映的是裁判的认知水平,而非AI的真实智能1。
AI可以通过伪装语言风格、利用知识广度来“糊弄”人类,而不必真正具备意识或社会认知能力22。
例如,2014年一个聊天机器人通过伪装成13岁乌克兰男孩成功“骗过”30%以上评委,被宣布通过图灵测试,但其实质智能并未达到人类水平25。

🔄 方法对比:从模仿到创造——新一代AI智能评估体系
为克服图灵测试的表面化倾向,近年来出现了多种替代或补充方案。以下是主流方法的对比:

测试方法    核心机制    是否量化    创造性要求    社会性体现
图灵测试    自然语言对话中能否被识别为机器    否    低    弱
Lovelace 2.0 测试    要求AI创作小说、诗歌、绘画等原创内容    是    高    中
Visual Turing Test    对图像理解与推理能力进行深度评估    是    中    弱
OpenAI五级评估    分级追踪AI能力演进(聊天→组织)    是    中高    强
NigiroChallenge    模拟社会协作“独立发明文字”    是    极高    极强
其中,由中国学者王献华教授提出的 NigiroChallenge(Origin倒写,意为“起源挑战”)最具突破性1。它不再关注“像不像人”,而是追问:“AI能否像人类一样,在社会互动中自发创造出用于交流的符号系统?”

💡 新方法详解:NigiroChallenge 如何工作?
NigiroChallenge 的设计灵感来自人类文明的关键跃迁——文字的发明。这不仅是技术进步,更是社会协作与抽象思维的结晶。

该测试要求AI在一个模拟社会环境中完成以下任务:

多个AI代理之间必须无预设语言协议;
在没有人类干预的情况下,通过协作解决复杂问题;
最终自主生成一套可被彼此理解的符号系统(即“文字”),用于记录信息、传递意图、建立共识。
这一过程检验的是:

抽象建模能力
社会协调机制
符号创造与演化
文化累积潜力
相比之下,现有AI即便能写出动人诗句或辩论胜出,也只是在已有语言框架内运作,而无法“重新发明语言”本身1。

✅ 结论:迈向真正的通用人工智能需超越“拟人表演”
虽然图灵测试推动了早期AI发展,但如今已显露出“重表象、轻实质”的弊端。要判断AI是否具备接近甚至超越人类的智能,应转向更能体现创造性、社会性和文化生成能力的测试标准。

建议下一步行动:

学术界应加快构建基于 NigiroChallenge 的实验平台;
工业界可在Agent系统中引入“自组织通信”能力评估;
公众可通过观察AI是否能在陌生群体中“共同发明规则”来直观判断其智能层级。
1条评分金币+10
兵马大元帅 金币 +10 鼓励讨论 2小时前
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个