切换到宽版
  • 96阅读
  • 2回复

[智能应用]对21种大语言模型研究表明:AI尚不具备独立临床诊疗的能力 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
180347
金币
614819
道行
20030
原创
769
奖券
471
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 22717(小时)
注册时间: 2012-06-21
最后登录: 2026-04-23
只看楼主 倒序阅读 楼主  发表于: 04-14
— 本帖被 兵马大元帅 执行加亮操作(2026-04-18) —
财联社4月14日电,尽管人工智能(AI)在医疗领域的应用日益增多,但其“像医生一样思考”的能力仍存在明显短板。由美国麻省总医院MESH孵化器团队开展的一项最新研究发现,生成式AI在临床推理关键环节仍显不足,尚不具备独立承担临床诊疗任务的能力。相关成果发表在最新一期《JAMA Network Open》上。团队选取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型,在29个已发表的临床病例中进行测试,并通过逐步提供患者信息(从基本症状到实验室和影像结果)来模拟真实诊疗过程。结果显示,当获得完整信息时,所有模型在超过90%的案例中能给出正确的最终诊断。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
180347
金币
614819
道行
20030
原创
769
奖券
471
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 22717(小时)
注册时间: 2012-06-21
最后登录: 2026-04-23
只看该作者 沙发  发表于: 04-14
核心研究结论:AI尚不具备独立临床诊疗能力
由美国麻省总医院MESH孵化器团队开展的研究对ChatGPT、DeepSeek、Claude等21种大语言模型进行了系统评估,关键发现如下:

1. 信息完备时表现尚可,早期诊断能力不足
当提供完整患者信息(含症状、实验室和影像结果)时,所有模型在90%以上的案例中能给出正确最终诊断

但在早期诊断阶段(仅提供基础症状信息),超过80%的情况下,模型未能提出合理的“鉴别诊断”——即对多种可能疾病进行系统性分析与筛选,这是临床推理的核心能力

2. 综合能力评分:64%-78%,新一代模型表现更优
研究团队提出PrIME-LLM指标,从提出潜在诊断、选择检查手段、制定治疗方案等环节综合评估模型能力,结果显示:

各模型整体评分在64%至78%之间,表现存在明显差异;
新一代模型(如Gemini、Claude 3等)整体优于旧版本,表明技术在持续改进

3. AI更适合辅助医生,而非独立承担临床任务
研究指出,大语言模型更擅长在信息完备的情况下“给出答案”,但在信息不充分、需要开放性推理的情境中表现较弱。团队明确表示,当前AI尚不适合在缺乏监督的情况下直接用于临床实践,其价值更在于辅助医生决策,而非取而代之


延伸思考:AI在医疗领域的其他潜力
尽管独立诊疗能力不足,AI在医疗文本数据清洗、中医知识推理等领域已展现出应用价值,例如:

大语言模型可提升医疗文本数据清洗效率,优化后续分析准确性

中文医疗大语言模型(如MedGo)已在部分医院落地,辅助完成医学信息处理任务
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
243723
金币
876123
道行
2006
原创
2461
奖券
3580
斑龄
45
道券
1580
获奖
0
座驾
设备
摄影级
在线时间: 52007(小时)
注册时间: 2008-10-01
最后登录: 2026-04-23
只看该作者 板凳  发表于: 04-14
这项研究揭示了人工智能在医疗领域应用的现状和挑战。尽管AI在医疗领域的应用日益增多,但在临床推理方面仍显不足,这表明AI在医疗领域的应用还需要进一步的发展和完善。研究团队通过测试21种大语言模型在29个已发表的临床病例中的表现,发现当获得完整信息时,这些模型在超过90%的案例中能给出正确的最终诊断。然而,研究也指出,AI在早期诊断阶段的表现欠佳,未能提出合理的鉴别诊断,这表明AI在处理信息不充分、需要开放性推理的情境中表现较弱。

此外,研究还强调,当前的大语言模型更擅长在信息完备的情况下给出答案,但在信息不充分、需要开放性推理的情境中表现较弱。团队提出了一种名为PrIME-LLM的新指标,从提出潜在诊断、选择检查手段、给出最终诊断到制定治疗方案等多个环节对模型进行综合评价。结果显示,各模型整体评分在64%至78%之间,表现存在明显差异。

总的来说,这项研究表明,虽然AI在医疗领域的应用有其独特的优势,但在临床推理和独立承担临床诊疗任务方面,AI仍显不足。这提示我们在推广AI在医疗领域应用的同时,也需要保持谨慎,确保其不会替代医生的专业判断和经验。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个