在互联网时代,以话语为呈现方式的海量信息全部依靠人工分析是不现实的,要实现大规模文本数据的自动语义处理,就必须搞清楚话语的语义特征、表征规律等。人工智能拓宽了话语语言学研究的路径和领域。随着机器计算和存储能力的大幅提升,特别是以神经网络为基础的深度学习应用到自然语言处理,计算机对语言的处理不再停留在词、句层面,而是有能力处理话语层面的语义信息。话语是由连续的语句构成,形式上相衔接,语义上相连贯,具有一定交际目的和功能的语言使用单位,也称为语篇或文本。一般来说,话语是大于句子,具有一定交际功能的语义单位,其表现形式为故事杂文、新闻报道、社交信息、访谈文字等。
近年来,自然语言处理作为人工智能的重要领域之一,在词性标注、命名实体识别、句法分析等方面取得了可喜成果,但在语用层面的自动语义处理方面还处于起步阶段。从长远来看,机器能像人类一样自如地理解自然语言,是这个领域的短板,也是走向强人工智能的关键。为此,话语研究者可围绕语言使用过程中的语义问题,深入探讨以下几个问题。
首先,话语生成和理解过程中大脑神经认知机制研究。话语是人们在社会交往过程中对语言系统的使用,它既是认知对象又是认知过程,表现为语言使用者如何感知、理解、记忆、评价语言单位,以及如何表达交际意图。认知科学在解释话语的可计算性、话语意义表征、语篇知识和语境知识相互作用等方面作出了贡献;认知心理学在研究语言生成理解方面提出了很多模型,为话语计算奠定了基础。然而,话语理解过程中的神经系统是如何操作的仍然是一个黑箱。神经网络对于输入的信息会有一个输出结果,但在高维空间的计算过程很难得以解释。例如,人脑做决定是一种思维活动,至于决策是如何生成的,以及决策过程是怎样进行的却难以解释。加强话语生成和理解的机制研究,不断探索人类语言使用过程中的大脑神经活动规律,将有助于研发自适性强,可分析推理,具有自主学习等特点的机器学习新理论。
其次,跨语言、多语类文本语义表征的结构化规律。通用型语义结构模型是提高话语计算质量、让机器理解人类自然话语的重要环节。近年来,搜索引擎、舆情监控、自动文摘等应用领域对话语的自动语义分析提出了迫切需求。然而,目前自然语言处理的大部分研究局限在句级单位以下。有些语义问题在句法层面是解决不了的,它存在于文本的字里行间,存在于句与句、段落与段落之间,要想让计算机真正理解话语的意义,必须研究句间的连贯关系,研究整体话语的形式化结构,从而实现由表面结构到内部意义的映射,真正理解交际意图。话语的表现形式多种多样,将表层非结构化的文字序列转化成深层有结构的语义表征,刻画出各个部分之间的语义关联绝非易事。探索多语种、适用于各种语类文体的通用型语义结构模型,能使其融合话语内部信息和话外背景知识,进而更好地理解话语的主旨和意图,正是话语研究者在人工智能时代需要解决的重大问题。
最后,多语种、跨模态的语料库和语料资源建设,尤其是标记文本层面宏观语义关系的语料库建设。深度学习在自然语言处理方面的应用解决了词汇形态、句法结构等很多问题,但标记宏观语义关系的语料资源相当短缺。基于神经网络的深度学习依赖于大规模有标注信息的丰富语料,在训练过程中学习和掌握话语的结构性特征,如连贯关系、语篇结构、情感倾向等。然而,由于语料资源的匮乏以及语篇关系分析任务本身的复杂性,迄今为止,汉语语篇关系和结构识别研究尚处于初级阶段,这在一定程度上制约了自然语言处理向纵深方向发展。此外,研制开发语篇的宏观结构关系语料库,有助于解决自然语言理解过程中的语义推理问题,这是认知智能需要解决的另外一个问题。
话语的计算研究既是语言学自身发展需要,也是人工智能对语言学提出的必然要求。人们的话语意图、主要观点、情感态度、舆论立场只有从话语整体层面才能得以准确地获取和分析。如何做到让计算机真正理解人类话语,实现从表层结构到深层语义的映射,达到图灵所说的像人类一样理解语言,是认知智能领域未来的方向。