武当休闲山庄 - 稳定,和谐,人性化的中文社区

不知道大家有没有这种感觉：和AI机器人短时间聊天的话还行，时间一长，就感觉对话开始变的前言不搭后语、逻辑不通。

其实这种感觉并不是错觉。

最近，微软发表的一项研究证实，即使是目前最先进的大语言模型，在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析，揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示，这些模型在单次提示任务中的成功率可达 90%，但当同样的任务被拆解成多轮自然对话后，成功率骤降至约 65%。

研究指出，模型的核心能力仅降低约 15%，但“不可靠性”却飙升 112%。

也就是说，AI 大模型仍然具备解决问题的能力，但在多轮对话中变得高度不稳定，难以持续跟踪上下文。

研究人员进一步分析了造成性能下降的行为机制。

首先是“过早生成”。模型在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设，模型后续便会在该错误的基础上继续推理，而不是随着新信息的加入进行修正，从而导致错误逐步放大。

其次是“答案膨胀”。在多轮对话中，模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”，这些内容随后被纳入对话的持续上下文，从而进一步影响后续推理的准确性。

令人意外的是，即使是配备了额外“思考词元”（thinking tokens）的新一代推理模型，如 OpenAI o3 和 DeepSeek R1，也未能显著改善在多轮对话中的表现。

研究人员指出，现有的基准测试主要基于理想的单轮场景，忽略了模型在真实世界中的行为。

因此，对于那些依赖 AI 构建复杂对话流程或智能体的开发者而言，这一结论意味着未来将要接受严峻挑战。

再来看看其他消息。

微软日前测试 Windows 11新版“画图”（Paint）应用，重点引入“自由旋转”功能。

根据微软官方描述，用户现在可以全方位角度调整形状、文本框以及任何活动的图像选区。用户选中对象后，其上方会出现一个“旋转手柄”，用户只需拖动该手柄即可向任意方向自由旋转对象，从而实现更自然的构图和布局。

除了直观的手动拖拽，微软还为需要高精度编辑的用户提供了解决方案。在“旋转”菜单下新增了“自定义旋转”选项，用户可以在此输入具体的角度数值，实现精确到 1 度的微调。