来自 娱乐 2020-11-11 16:29 的文章

大规模、结构化新冠知识图谱如何实现?

大规模、结构化新冠知识图谱如何实现?

图片来源@全景视觉

文丨学术头条

2019 年末,一场突如其来的新型冠状病毒肺炎疫情迅速蔓延,并造成全球大流行,截止 5 月 18 日全球累计确诊病例达 470 万。全世界的科研人员、医疗人员、政府工作人员和公众渴望获得开放、全面的新冠知识以对抗新型冠状病毒。

为此,清华大学 AMiner 和智谱.AI 团队收集整理了前期人工整理的 COVID-19 开放知识图谱,并进一步融合,构建了一个大规模、结构化新冠知识图谱(COKG-19)。

COKG-19 旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。目前,COKG-19 包含了 505 个概念、393 个属性、26282 个实例和 32352 个知识三元组,覆盖了医疗、健康、物资、防控、科研和人物等。此外,COKG-19 是一个中英文双语知识图谱。

与此同时,联合团队还进一步收集了开放新冠论文数据(例如 CORD-19),以构建一个更为全面、细粒度的新冠知识图谱。

1.COKG-19 第一版构建

大规模、结构化新冠知识图谱如何实现?

图 1 COKG-19 第一版构建流程

1.1 Schema 层融合

疫情爆发初期,OpenKG(openkg.cn)公布了新冠知识专题,其中包括了 8 个独立的人工或半人工整理的知识图谱,涉及健康、防控、流行病、百科、人物、医疗、物资、事件、科研等方面。然而这些知识图谱规模不一,质量不一,且存在重叠和不一致等情况。

团队通过语义匹配和排岐方法,将相同含义的概念进行合并,将同名不同义的概念进行区分;其次,根据相关专家的意见对排歧合并后的概念间关系进行修正和补充,例如删除冗余概念,细分病毒等专业子类,修正疾病的子类等;最后得到的 COKG-19 概念层共包含 505 个概念,其中顶层概念为22个(疾病、症状、药物、医疗设备、病毒、防控等),大致可划分为生物学、流行病学和通用百科三个方向。对于属性的排歧与合并也采取类似的语义融合方法处理,并将不同 domain 和 range 的概念进行区分,共包含 393 个属性。

1.2 实例数据层的融合

将原有知识图谱的全部实例进行归纳并进行语义排歧,并根据融合后的图谱 Schema,修正其中的错误数据。同时,根据原有图谱中实例与概念间的关系,将实例与已构建好的概念层进行关联,最后筛选出 26282 个实例。

1.3 知识图谱的存储与发布

团队将构建好的 Schema 与实例数据进行合并,并利用专业翻译工具将概念、属性和实例进行翻译得到对应的英文数据。然后,根据已有数据将概念和实例数据组合成知识三元组(实体-关系-实体、实体-属性-值),输出三种不同的知识图谱存储格式:JSON-LD 文件、OWL/RDF 文件、以及 Neo4j 图数据库文件。

JSON-LD 文件:根据以组合好的知识三元组,按照 JSON-LD 的规则进行存储。

OWL/RDF 文件:利用 rdflib python 第三方包将已经构建好的 JSON-LD 文件转换为 OWL 文件(RDF 书写规则)。

Neo4j 图数据库:利用 py2neo python 第三方包将组合好的三元组数据填充的创建好的 Neo4j 数据库中。

2.COKG-19 与 CORD-19 数据融合

首先,利用专用实体识别工具(例如 PubTator,https://www.ncbi.nlm.nih.gov/research/pubtator/)对 CORD-19 论文数据进行实体识别,共识别出 Gene、Virus、Chemical、Disease 等 18 种类型实体。其次,根据概念的英文名称和已构建好的 COKG-19 概念层进行语义合并和去重。最终,CORD-19 与 COKG-19 概念合并后共包含 510 个概念,比 COKG-19 第一版增加了 Compound(化合物), SNP(单核苷酸多态性), BiologicalProcess(生物过程)等 5 个概念和相关属性。

在实例数据进行融合阶段,团队利用了 WikiData 百科数据作为辅助知识,实现对异构和跨语言实例的对齐。例如两个实例能够链接到同一 WikiData 页面,则认为是相同实体并将其合并。此外,经过分析 CORD-19 数据中抽取的部分实例所属概念分类粒度不够细的问题(如:大量病毒被分类为生物或组织概念),将其进行整理并全部分到对应的细粒度概念下。

经过合并、去重之后,COKG-19 中共包含 510 个概念,414 个属性和 76 万实例。此外,我们利用 CORD-19 数据集中提供的 PMID(PubMed 的文章唯一标识)信息将融合后 COKG-19 中的实例数据与 CORD-19 中的论文数据进行了关联,论文数据包括(题目、作者、关键词等信息)。构建流程:

大规模、结构化新冠知识图谱如何实现?

图 2 COKG-19 第二版构建流程

3.COKG-19 疫情图谱应用

COKG-19 的应用除了可作为基础的科研用知识数据库之外,还可以提供实体链接和知识检索等功能。

3.1实体链接

基于 COKG-19 图谱,团队利用 lattice LSTM 和 Scispacy 等模型和工具,实现了基于知识图谱的中英文双语文本实体链接工具。

大规模、结构化新冠知识图谱如何实现?

图 3 基于 COKG-19 的实体链接工具

该实体链接工具已经应用于 AMiner 知识疫图智能驾驶舱(https://covid-dashboard.aminer.cn)系统的事件文本数据语义分析固件中,为全球疫情风险指数的分析提供了坚实的知识基础和工具。

3.2知识检索

针对 COKG-19 中知识的检索可基于实体排岐和全文索引等简单实现。

大规模、结构化新冠知识图谱如何实现?

图 4 基于 COKG-19 的知识检索

3.3 知识分析

融合多种知识数据之后,COKG-19 本身就为更深层次的知识挖掘提供了非常丰富的知识数据基础。例如,研究者可以方便地获得一些关键实体(基因、药物等)间的关联关系,从而为新冠肺炎治疗药物的潜在化合物筛选提供帮助。

大规模、结构化新冠知识图谱如何实现?

图 5 COKG-19中包含的关键实体间关联关系

大规模、结构化新冠知识图谱如何实现?

图 6 指定实体间的关联路径分析

总结

COKG-19 知识图谱的构建充分利用了开源社区(OpenKG 等)和领域专家的力量,同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理和机器学习算法,充分展现了 AI+ 大数据技术在快速应对疫情过程中的广泛作用。

关于清华大学AMiner

科技情报大数据挖掘与服务系统平台 AMiner,由清华大学计算机系研发,系统 2006 年上线,吸引了全球 220 个国家/地区 1000 多万独立 IP 访问,数据下载量 230 万次,年度访问量超过 1100 万,已成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

AMiner 项目团队与中国工程科技知识中心、微软学术搜索、ACM、IEEE、DBLP、美国艾伦研究所、英国南安普顿大学等机构建立了良好的合作关系、共享数据及技术资源。项目成果及核心技术应用于中国工程院、科技部、国家自然科学基金委、华为、腾讯、阿里巴巴等国内外 20 多家企事业单位,为各单位的专家系统建设及产品升级提供了重要数据及技术支撑。

关于智谱.AI

智谱.AI 是由清华大学 (Tsinghua University) 孵化出的人工智能(AI)科技公司,旨在打造先进的认知计算引擎,为研究和创新领域提供强大的数据支持和后台服务。智谱.AI 致力于通过利用其在超大规模网络分析、深度隐含语义挖掘和认知推理等技术方面的优势,帮助解决研究机构及政府机构当前面临的学术挑战及社会热点问题。

参考资料:[1] https://allenai.github.io/scispacy/

[2] 新冠健康知识图谱,http://www.openkg.cn/dataset/covid-19-health

[3] 新冠防控知识图谱,http://www.openkg.cn/dataset/covid-19-prevention

[4] 新冠流行病知识图谱,http://www.openkg.cn/dataset/covid-19-epidemiology

[5] 新冠百科知识图谱,http://www.openkg.cn/dataset/covid-19-baike

[6] 新冠人物知识图谱,http://www.openkg.cn/dataset/covid-19-character

[7] 新冠医疗知识图谱,http://www.openkg.cn/dataset/covid-19-medical

[8] 新冠物资知识图谱,http://www.openkg.cn/dataset/covid-19-goods

[9] 新冠事件知识图谱,http://www.openkg.cn/dataset/covid-19-event

[10] 新冠科研知识图谱,http://www.openkg.cn/dataset/covid-19-research