姚念达:在历史研究中应用人工智能,仍然存在若干难以突破的瓶颈。这些瓶颈并不只是因为技术尚未成熟,而是更深层地反映了当下人工智能技术与历史研究之间的结构性不匹配。首先,人工智能难以与人类社会形成真正的情感共鸣。克罗齐曾指出,一切历史都是当代史。一个有生命力的历史研究选题,往往能够回应当下的社会问题,并在现实生活中引发读者的情感共鸣。因此,历史研究的重要一步,在于判断哪些历史问题在当下具有意义,为什么值得被提出和反复讨论。这种判断高度依赖研究者对现实社会的感知、对公共议题的敏感度以及对人类经验的共情能力。人工智能虽然可以总结既有讨论,却不足以真正理解某一历史议题与人类生活实践之间的情感联结,也无法判断其现实价值所在。
其次,人工智能在分析历史文本时,面临难以回避的语义漂移问题。当前多数语言模型主要基于当代语料训练,若直接用于历史文本分析,容易以当代语义和语言习惯误读过去的语言实践。即便如苏黎世大学团队尝试使用历史语料训练模型,其效果仍然受到现存历史文本不完整和不均衡的限制,其数据质量和覆盖范围难以与当代语料相比。
与此同时,人工智能的价值判断也并非中立,而是不可避免地受到训练语料中主流规范与当代价值观的影响。当这些模型被用于历史研究时,可能在无意中以当代标准衡量过去,从而弱化历史语境。这些因素叠加在一起,或许会在历史叙事层面推动一种并非出于研究者本意的当代化倾向。
最后,一个尤为关键的瓶颈在于人工智能的“黑箱性”。在许多情况下,人文学者难以清楚解释人工智能是如何得出某一结论的。对于以可解释性、可讨论性为基本规范的人文学科而言,如果研究者无法说明分析过程,也就难以为研究结论承担必要的学术责任。
易晋铭:在文本分析方面,人工智能目前主要被应用于那些保存数量较多且已实现数字化的史料类型,比如契约和通信,而在其他史料领域的应用仍然相对有限。这一局限主要源于两方面原因。其一,人工智能模型的训练高度依赖大规模的、可读性较强的语料数据,例如2024年瑞士伯尔尼大学法比奥·加蒂团队针对佛罗伦萨商人银行通信网络的研究调用了超过6000封信件,然而,中世纪许多史料尚未形成如此规模和质量。其二,中世纪文献普遍存在字迹复杂、缩写繁多和保存状况不佳等问题,增加了文本识读与转写成本。尽管Transkribus等手写文本识别平台在一定程度上提升了大规模识读的可能性,但其训练和校对仍需投入人力与时间,因此研究者往往更倾向于直接利用已经整理完成的史料数据库开展研究。目前,中世纪史领域中数字化程度最高、数据库建设最完善的正是契约类文献,例如早期英格兰文献数据集(包含约4.4万份契约)和中世纪勃艮第文献集(包含约2.9万份契约),这也进一步强化了人工智能研究在此类史料上的集中趋势。
王思婕:如上所述,语料不均衡会影响人工智能的使用范围。另一个类似的问题在于通用大语言模型的训练数据主要来自英语世界,这使得人工智能在历史叙事中常沿用西方主流视角。人工智能在小语种史料的语义识别、长句及复合句理解方面,仍存在明显不足。此外,英美档案的数字化和开放获取优势明显,有些数据库直接提供应用程序编程接口(API),方便历史研究者进行自动化批量抓取与深度加工。上述“数字鸿沟”在跨国史研究中尤为突出,研究者往往倾向于使用易获取且结构化程度高的英美史料,从而影响了对历史事件全貌的还原。
训练数据的地区不平衡,导致大语言模型叙事的欧美中心化。全球南方的文本在现有数字化语料库中的占比极低,其历史经验在通用模型中被系统性地边缘化。由于模型依赖概率预测来生成文本,缺乏特定语境数据时,会倾向于用它所熟悉的西方概念框架去“填补”空白,产生所谓的“幻觉”或刻板印象。例如在探究有关冷战时期地区冲突的问题时,模型会套用美英官方叙事逻辑,将复杂的地区冲突简化为美苏对抗的注脚,从而强化了西方中心主义的知识再生产。