主持人:近年来人工智能技术飞速发展,各学科的学者们纷纷探索其在自身研究领域的应用潜力,世界史研究也不例外。请各位结合自己所从事研究领域,谈谈人工智能在具体研究中是如何发挥作用的?
王思婕:就我所从事的德国史研究而言,中外德国史学界对人工智能的应用,目前主要集中于历史手稿、档案的光学字符识别与转写,以及借助主题建模、文本重用检测等技术开展文本内容挖掘。同时,人工智能也显著推动了既有数字史学工作的深化,例如在社会网络分析中识别档案中隐含的人物关系与中介节点,通过推理弥补地理信息的缺失等。尽管数字史学研究者很早就借助编程语言,通过词频统计、词项共现等,识别潜在主题,初步实现了对大规模历史语料的内容挖掘。然而,此类方法多局限于词项层面的统计关联,难以有效捕捉语义演化、修辞差异等深层次的历史表征。尤其在长时段比较中,术语使用的代际更替常引发主题追踪的中断。近年来,基于深度学习的预训练语言模型,可将文本转化为能反映上下文语境的向量结构,从而识别出不同表述下的同一历史主题,同时通过与大语言模型进行集成,语义嵌入也更加精细,并能直接生成解释性摘要或标签。
姚念达:在国际美国史学界,人工智能的应用不局限于大语言模型,而是涵盖以自然语言处理和机器学习为核心的一整套计算分析方法。该路径通过将报纸、政府文件乃至影音材料等多样化史料转化为可量化分析的对象,运用主题建模、文本嵌入和语义分析等手段,在宏观层面揭示语言、观念与政治话语的长期变化,为历史解释提供新的问题线索与证据基础。相关研究多以计算语言变化为切入点。斯坦福大学尼基尔·加尔加团队将20世纪大规模语料转化为词向量,量化分析了语言中性别与族群刻板印象的变迁,并将其与社会结构的转型相联系。另有美国学者梅丽莎·李分析了19世纪报纸与国会辩论语料,利用自然语言处理工具追踪“合众国”一词从复数用法向单数用法的转变。研究指出,这一表述在南北战争前常被理解为由各州组成的联合体,而战后则逐渐被视为一个统一国家,由此反映了美国人对国家主权理解的变化。这类研究并不等同于单纯的“远读”,也不是对传统方法的替代,而是强调计算分析与文本细读的结合。
易晋铭:近年来,中世纪欧洲史与人工智能的结合主要集中在利用人工智能技术对中世纪史料进行自动转写、补全和结构化分析,从而提高古文献的可读性、可检索性和可分析能力。首先,通过手写文本识别、版面分析等计算机视觉方法,将中世纪手稿和档案影像自动转写为可检索文本。其中,Transkribus是目前欧洲学界中最常用的手写文本识别工具之一。其次,通过知识图谱和语义网技术,把分散在特许状、账簿、书信等史料中的人物、地点与制度关系结构化为可查询的数据网络。2025年,多位西班牙学者组成的研究团队提出建立一个关于中世纪特许状的知识图谱,通过结合专家标注、社区贡献与溯源机制,将分散的特许状数据结构化为可查询的知识网络,从而支持对中世纪社会、法律与经济关系的系统化分析。最后,大语言模型也被用于拉丁铭文的文本补全。例如,Aeneas是一款基于约20万条拉丁铭文训练的专用大型语言模型,可通过分析残缺文本或图像来补全古代和早期中世纪的铭文内容,并推测其年代、地点及相关信息,从而帮助学者更有效地解读受损或缺失的历史铭文。
主持人:历史学者们借助人工智能强大的数据处理能力,能够快速梳理海量的档案文献等史料,挖掘出难以发现的历史信息与关联。这是否意味着,人工智能技术拓展了已有的研究边界,或者“重塑”传统研究领域?
王思婕:人工智能虽然在方法论层面为德国史研究提供了新的分析工具,但尚未实质性拓展研究边界,因为它既缺乏问题意识,也高度依赖研究者的前期工作与解释性判断。爱沙尼亚学者卡雷尔·西克以14世纪末德意志地区针对瓦尔登派信徒的异端审判为研究对象,将数百份供词中涉及人物关系、地点与时间的信息进行数据化处理,进而揭示出审判官的调查策略,也呈现了宗教审判从信息收集到裁决的运行机制。原本散落于零碎供词中的细节,被纳入一个动态的信息处理过程之中,这显然突破了传统研究的叙事模式。然而,整个研究始终离不开历史学常规的前置工作:哪些供词应被纳入分析、日期如何校定、隐含地点信息如何推断、缺失材料在何种程度上影响结论,这些关键问题都必须由研究者判断。事实上,西克也明确承认,现有算法在处理中世纪语境中的信息歧义时仍有局限,同时历史事件本身的偶然性也会干扰算法的推理过程。
姚念达:从现有研究来看,人工智能对美国史研究的影响并非颠覆性的,也没有形成范式革命。但在若干关键层面上,它确实拓展了既有研究边界,并在一定程度上影响了研究的实践方式。世界史研究以增进跨区域、跨文化理解为目标,但长期受研究者掌握的材料规模、语言能力与时间成本限制。人工智能的引入,使研究者得以在可控成本下处理大规模多语种史料,从而在实践层面拓展研究的广度与精度。其在概念史研究中的潜力尤为突出:借助文本嵌入模型和计算分析,研究者可以在全球尺度上追踪重要概念的跨时空与跨语境传播,而不再局限于少数经典文本。例如,美国学者艾玛·罗德曼的研究利用词向量模型分析美国政治语料,通过比较不同时期政治概念的语义和语义关联,从而追踪其在历史语境中的含义变化,这为概念史研究提供了新的路径。
易晋铭:关于中世纪欧洲史,人工智能对传统研究领域的影响更为突出。在中世纪欧洲,契约是数量最多、连续性最强的书面记录类型。它们通常是法律行为的书面见证,例如土地赠予、买卖契约和城市自治特许等。在数字化时代之前,这类研究基本围绕单份或单组文书,常常以特定王朝、地区或机构为研究单位,社会网络重建主要依赖人工比对。数据库与文本检索技术的出现,为大规模结构分析提供了重要前提。但是,数据库通常预先定义字段(日期、地点、人物),无法适应多样化研究的需求。人工智能可以帮助研究者训练符合自己研究所需的语义抽取模型,从而使研究从“预设字段的统计分析”转向“模式发现与结构建模”。2022年,多位欧洲大陆学者合作开发了一款自动识别中世纪拉丁语契约结构(如前言、正文和结尾)的模型。该模型不仅推动了中世纪欧洲契约的自动化索引与信息检索,也为文本结构化分析提供了有效工具。