语义角色标注(SRL)是语义识别的关键研究方向之一。语义角色标注是一种浅层语义分析技术,以句子为单位,分析句子的谓词-论元结构,具体来说,语义角色标注的任务就是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述他们之间的关系。语义角色标注在问答系统、机器翻译和信息抽取等方面得到了成功地应用[1]。在过去使用深度学习处理新闻信息的案例中,Bi-LSTM模型在语义角色标注上取得了较大的成功[2]。然而,过去在新闻处理中应用的语义识别方法存在几个问题。首先是Bi-LSTM+CRF的方法模型计算复杂度较高,其次是过去基于BIO文本标注方法的模型,必须要给定谓词,而且无法准确的识别出同一个句子中多个谓词以及它们所对应的论元之间的关系,而且还存在一个严重的限制—无法预测多谓词-论元的重叠区域的信息。 本文介绍了一种新的方法,一种端到端的联合预测多个谓词组合的方法[18],克服了以上所说的限制。在LSTM结构中加入了Highway [3]结构,能够有效的缓解梯度消失的问题。并且应用了今年来兴起的大型预训练语言模型来进一步获得句子中的语义信息,本文使用ELMo进行实验[4]。这对于人民网在内容语义识别上能发挥重要的作用。
关键词:语义角色标注,SRL,语义识别,深度学习,Bi-LSTM,CRF,highway,ELMO
一、 引言
社会媒体的快速发展使得世界的联系越来越紧密,新闻已经成为了人们获得信息的重要途径。近年来,新闻行业数字化发展迅猛,新闻网络平台的普及,极大地满足了人们“足不出户而知天下事”的心愿。人民网作为大型网络新闻媒体,更是成为了民众的焦点平台,成为了获取时事信息的重要途径。
随着社会发展,新闻的数量也在与日俱增,面对日益增加的新闻,如何更好的处理、展示新闻信息就成了一个重要的研究课题。语义识别技术,能够捕捉到新闻句子中的语义信息,语义角色识别作为语义识别的重要研究方向,更是可以很好的分析出句子中的谓语以及相对应的角色信息,对于筛选、处理以及更好的展示新闻中的关键信息有着重要的意义,这也正是本文的研究意义所在。
二、 研究背景以及现状
(一) 研究背景
在当今社会,大量信息不断出现,这无疑给信息的分析等工作造成了巨大的困难。语义角色标注技术的出现,帮助不同用户理解并获取知识,围绕知识搜集、描述、组织、检索和使用构建知识库与用户模型。知识组织 SRL 模型及其可行性方案的实现将会解决知识获取、求精和结构化等问题。目前,SRL 技术已经被成功地应用于问答系统、信息抽取、自动文摘、文本蕴涵、词义消歧、信息检索、 指代消解、机器翻译、生物信息学等领域。
然而,过去在新闻处理中应用的语义识别方法存在一些问题。传统的语义角色标注方法只能根据特定领域,不能准确的捕捉到新闻信息的语义信息,而且可移植性低,不适合大型信息平台使用。深度学习兴起后,出现了一些具有时代意义的处理模型。然而,经常使用的Bi-LSTM+CRF的方法模型计算复杂度较高,其次是过去基于BIO文本标注方法的模型,必须要给定谓词,而且无法准确的识别出同一个句子中多个谓词以及它们所对应的论元之间的关系,而且还存在一个严重的限制—无法预测多谓词-论元的重叠区域的信息。本文介绍了一种方法,在降低特征提取模型的复杂度的基础上,克服了不能预测多谓词-论元的重叠区域的信息的限制,在LSTM结构中还加入了Highway结构[3],能够有效的缓解梯度消失的问题。对于新闻平台处理信息的工作具有极大的意义。
(二) 传统的SRL方法
1. 基于依存句法关系的SRL
依存关系可以是句中词与词之间的句法关系,也可以是语义关系。依存句法使用了不同的信息组成 方式,信息重组对于本地化特定谓词的语义角色非常有用。通过依存关系,依存树可以直接对与谓词节点相连的语义角色结构进行编码。英文方面,HACIOGLU[5]首次采用基于依存分析的方法来实现 SRL; LAFFERTY等[6]在研究自然语言处理曾应用过此机器学习方法。相比基于句法成分的英文 SRL,中文基于依存关系的标注对词汇的依赖性较弱,鲁棒性较高。
2. 基于特征向量的SRL
比较文本信息中不同特征,以基本的特征和语料数据资源为基础,筛选便于识别和分类的特征进行SRL. DING等[7]提出了一种层次化特征选择策略,XUE等[8]在GILDEA标准特征集合的基础上尝试了组合特征,BOXWELL等[9]提出一种基于丰富特征的SRL方法。目前的研究一般将基本的特征加以组合来降低特征空间的维度,提高 SRL 的性能;人工智能知识表示中的“框架-槽”、模式识别中的“特征”、多媒体数据库中的“特征向量”等已经开始应用此技术。
3. 基于最大熵分类器的SRL