96阅读
2回复

[智能应用]对21种大语言模型研究表明：AI尚不具备独立临床诊疗的能力 [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 180347

金币: 614819

道行: 20030

原创: 769

奖券: 471

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 22717(小时)
注册时间: 2012-06-21
最后登录: 2026-04-23

只看楼主倒序阅读楼主发表于: 04-14

— 本帖被兵马大元帅执行加亮操作(2026-04-18) —

财联社4月14日电，尽管人工智能（AI）在医疗领域的应用日益增多，但其“像医生一样思考”的能力仍存在明显短板。由美国麻省总医院MESH孵化器团队开展的一项最新研究发现，生成式AI在临床推理关键环节仍显不足，尚不具备独立承担临床诊疗任务的能力。相关成果发表在最新一期《JAMA Network Open》上。团队选取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型，在29个已发表的临床病例中进行测试，并通过逐步提供患者信息（从基本症状到实验室和影像结果）来模拟真实诊疗过程。结果显示，当获得完整信息时，所有模型在超过90%的案例中能给出正确的最终诊断。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 180347

金币: 614819

道行: 20030

原创: 769

奖券: 471

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 22717(小时)
注册时间: 2012-06-21
最后登录: 2026-04-23

只看该作者沙发发表于: 04-14

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

核心研究结论：AI尚不具备独立临床诊疗能力
由美国麻省总医院MESH孵化器团队开展的研究对ChatGPT、DeepSeek、Claude等21种大语言模型进行了系统评估，关键发现如下：

1. 信息完备时表现尚可，早期诊断能力不足
当提供完整患者信息（含症状、实验室和影像结果）时，所有模型在90%以上的案例中能给出正确最终诊断
。
但在早期诊断阶段（仅提供基础症状信息），超过80%的情况下，模型未能提出合理的“鉴别诊断”——即对多种可能疾病进行系统性分析与筛选，这是临床推理的核心能力
。
2. 综合能力评分：64%-78%，新一代模型表现更优
研究团队提出PrIME-LLM指标，从提出潜在诊断、选择检查手段、制定治疗方案等环节综合评估模型能力，结果显示：

各模型整体评分在64%至78%之间，表现存在明显差异；
新一代模型（如Gemini、Claude 3等）整体优于旧版本，表明技术在持续改进
。
3. AI更适合辅助医生，而非独立承担临床任务
研究指出，大语言模型更擅长在信息完备的情况下“给出答案”，但在信息不充分、需要开放性推理的情境中表现较弱。团队明确表示，当前AI尚不适合在缺乏监督的情况下直接用于临床实践，其价值更在于辅助医生决策，而非取而代之
。

延伸思考：AI在医疗领域的其他潜力
尽管独立诊疗能力不足，AI在医疗文本数据清洗、中医知识推理等领域已展现出应用价值，例如：

大语言模型可提升医疗文本数据清洗效率，优化后续分析准确性
；
中文医疗大语言模型（如MedGo）已在部分医院落地，辅助完成医学信息处理任务

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 243723

金币: 876123

道行: 2006

原创: 2461

奖券: 3580

斑龄: 45

道券: 1580

获奖: 0

座驾

设备

摄影级

在线时间: 52007(小时)
注册时间: 2008-10-01
最后登录: 2026-04-23

只看该作者板凳发表于: 04-14

这项研究揭示了人工智能在医疗领域应用的现状和挑战。尽管AI在医疗领域的应用日益增多，但在临床推理方面仍显不足，这表明AI在医疗领域的应用还需要进一步的发展和完善。研究团队通过测试21种大语言模型在29个已发表的临床病例中的表现，发现当获得完整信息时，这些模型在超过90%的案例中能给出正确的最终诊断。然而，研究也指出，AI在早期诊断阶段的表现欠佳，未能提出合理的鉴别诊断，这表明AI在处理信息不充分、需要开放性推理的情境中表现较弱。

此外，研究还强调，当前的大语言模型更擅长在信息完备的情况下给出答案，但在信息不充分、需要开放性推理的情境中表现较弱。团队提出了一种名为PrIME-LLM的新指标，从提出潜在诊断、选择检查手段、给出最终诊断到制定治疗方案等多个环节对模型进行综合评价。结果显示，各模型整体评分在64%至78%之间，表现存在明显差异。

总的来说，这项研究表明，虽然AI在医疗领域的应用有其独特的优势，但在临床推理和独立承担临床诊疗任务方面，AI仍显不足。这提示我们在推广AI在医疗领域应用的同时，也需要保持谨慎，确保其不会替代医生的专业判断和经验。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]对21种大语言模型研究表明：AI尚不具备独立临床诊疗的能力 [复制链接]