近年来,网络新闻的“震惊体”文不对题现象层出不穷,为保证更加高效准确的信息检索及用户体验,本文探讨图结构、编解码器、注意力机制下编解码器以及指针生成器四种方法应用于新闻标题生成任务中的可行性。指针生成器模型根据原文词先验分布抽取及高维语义信息生成两种方式联合所生成的新闻标题在语义上较为完整,表达较为准确。
关键词:“震惊体”,自然语言生成、新闻标题、编解码器
一、引言
随着web2.0的快速发展,以人民网、微信、微博为代表的新兴媒体加速崛起。此前,国家新闻出版广电总局印发的《关于进一步加快广播电视媒体与新兴媒体融合发展的意见》提出要大力推广传统广电媒体与新兴互联网媒体深度融合、一体共生。在这样的时代背景和政策导向引导下,人们发布和获取新闻内容的途径发生了天翻地覆的变化,逐渐由传统媒体转向网络新兴媒体。同时大量的新兴媒体的普及也引发了互联网媒体上的新闻内容爆炸式增长。
人民网作为世界十大报纸之一《人民日报》建设的以新闻为主的大型网上信息发布平台,每日收稿量巨大。然而,这些稿件新闻内容质量良莠不齐,其中不乏一些选取华丽标题却缺乏实质内容的“标题党”文章浪费了审稿人员大量的时间精力,如何快速的获取文章的真实主旨成为了审稿人员的重要能力。除了人工的加强审稿能力外,人工智能技术,尤其是自然语言处理技术将极大的助力新闻主旨检索。本文讨论通过标题再生成的方法,生成最贴切新闻文章内容的新闻标题,未来希望通过此方法来减少人工排查“标题党”的时间。
目前的新闻检索大多采用搜索引擎加关键字权重的方法,忽略了文章的内涵。因此,如何根据新闻内容生成言简意赅的新闻标题是一项具有挑战性的研究课题。近年来,随着国内外学者在自然语言处理领域的不断深入研究,相关理论体系和实作方法论的不断进步,使得对文本的智能理解和挖掘技术愈加成熟。文本摘要就是一类运用自然语义处理方法,帮助机器理解冗长自然语言文本内容,并生成一些简短、精炼高度概括文本内涵的句子的技术。除了直接呈现文本摘要结果给用户阅读外,文本摘要技术还在很多下游任务中充当着重要角色,如长文本情感分析、搜索引擎、推荐系统等。相比于直接使用原文,使用好的摘要能够在提升性能的同时又尽少的造成信息损失。新闻标题生成可以看成文本摘要技术的一种应用场景。由于新闻结构的特点、标题一般而言都是非常简练、甚至有点抽象、高度概括文章内容的句子。文本摘要技术作为一种重要的自然语言处理技术,对于快速获取和更好展示新闻内容具有重要的意义,这也是本文的研究意义所在。
二、研究现状
随着自然语言处理技术的进步,越来越多的研究在自然语言生成任务(NLG)上取得了明显进步。根据输入信息的不同,NLG可分为:数据到文本的生成、文本到文本的生成、意义到文本的生成、图像到文本的生成等。 因本文意在讨论根据新闻文本生成新闻标题的NLG技术,属于“文本-文本”生成,故下文着重讨论此技术相关方法。文本-文本生成技术用于智能聊天、文章自动摘要、文章自动生成标题等问题都有着广阔前景。近年来,许多优秀的研究着力于提升文本生成的准确、流畅程度。文章标题是精炼的文章内容,其使用最简短的语言最大限度的反应文章的主要内容。标题自动生成算法根据其选择、组织语言的方式可分为抽取式方法和生成式方法。
抽取式方法依据文本的统计信息提取关键的词、句的排序并重新组合成为标题,Luhn[1]是最早使用主题词法的研究员之一,他们使用频率阈值来定位文档中的描述性词语并表示文档主题。Dunning[2]提出了一个更高级的概念,他们使用对数似然比检验来识别解释性词语,在总结文献中称之为“主题签名”。利用主题签名词作为主题表示非常有效,提高了新闻领域多文档摘要的准确性[3]。Vanderwende等人[4]提出一个名为sumbaic的系统,该系统仅使用单词概率权重的逐步迭代方法来确定句子的重要性,进而生成标题。TFIDF权重在单词概率基础上进行改进,利用词频和反转词向量计算重要性,具有计算简单、快速的优点。工作[5-7]的共组基于这种方法取得了不错的效果。Gong等[8]提出了一种基于lsa的新闻领域单文档和多文档摘要高排名句子选择方法,该方法对每个主题都选取一个最高得分的句子,最后根据所需要生成的限定长度保留主题的数量。Henning等人[9] 提出一种将句子映射到本体概念的句子提取方法。通过考虑本体特征,可以提高句子的语义表达,有利于总结句子的选择。