百度宋勋超:百度大规模知识图谱构建及智能应
不到现场,照样看最干货的学术报告!
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第十一期“信息检索与知识图谱”专场已于2019年11月24日下午在中科院举行。百度宋勋超为大家带来报告《百度大规模知识图谱构建及智能应用》。
宋勋超,现任百度知识图谱部主任研发架构师。毕业于浙江大学,参与了百度知识图谱设计及构建的整体流程,具有丰富的知识图谱实践经验。目前主要负责知识图谱应用、语义理解、图谱架构等技术,同时负责百度行业知识图谱相关工作。研发成果在百度搜索、信息流、DuerOS,行业图谱产品等多项产品中广泛应用。
报告内容:知识图谱当前已经成为工业界开展下一代人工智能应用的重要基础,应用前景广阔。知识图谱作为一种数据形态、一种工具、一种方法论,为人工智能、大数据等应用提供基础支撑作用,在搜索引擎、智能推荐、智能对话等业务场景,知识图谱技术更是大展拳脚,大幅提高了业务效果。宋勋超老师报告的主题为百度大规模知识图谱构建及智能应用,将从大规模工业实践的角度,分享百度知识图谱部门过去几年所做一些工作,介绍百度实际工业生产中是如何应用知识图谱技术的。报告主要分为两部分,首先是从技术以及应用两方面对百度知识图谱进行概述,第二,介绍百度知识图谱技术的最新进展。
百度大规模知识图谱构建及智能应用
首先,宋勋超老师从百度知识图谱部门的发展历程出发向大家作以简要介绍。百度知识图谱部源于搜索、服务于搜索,同时多年来随着自身技术不断迭代和进步,将知识图谱技术应用到了搜索以外的场景。
百度知识图谱发展历程主要分为四个阶段。第一阶段是2013年以前,称为为Pre—KG阶段,用定制化的方式生产结构化数据,因为知识图谱本身是高度结构化的知识语义网络体系,所以在这个阶段的结构化数据,并不是真正意义上知识图谱,搜索结果以竖向联动方式将满足用户搜索的各种维度信息综合起来,形成创新的知识满足产品样式。
第二阶段是2014—2015年,称之为领域知识图谱,指知识图谱的架构、策略、算法的目标是面向于垂类或者细分领域,例如金融是垂类,金融下面保险、银行等是细分垂类。落地场景有搜索阿拉丁、推荐、智能摘要、度秘初期垂类检索。
第三阶段是2016—2017年,工作重点是通用知识图谱,这个阶段关注统一融合知识图谱的构建与应用技术,以及深化建设多个特色的领域知识图谱,例如百度汉语知识图谱,将传统国学,汉语教育相关的海量数据转化构建为知识图谱。应用落地主要是搜索智能问答,这是下一代搜索引擎所应具备的核心能力,也是下一代搜索引擎核心要大力发展的一个方向,此外还有Feed信息流推荐场景的广泛落地。
第四阶段是近两年,称之为行业知识图谱+多元异构图谱发展阶段,我们关注多元、异构图谱,以及多媒体知识,事件、时序等复杂知识,行业知识如何进行图谱化构建。应用落地上除了规模化搜索首位精准满足、Feed内容理解及智能内容建设,还输出到了百度外的众多行业,例如客服、法律、医疗、金融等。
截至到目前,百度内部积累知识图谱规模已经达到亿级实体和千亿级属性关系,是中文领域最大的知识图谱,知识图谱服务规模从2014年到现在增长了490倍。
接下来宋勋超老师简单介绍了四个发展历程里,百度核心产品线业务的赋能情况。首先是智能搜索,目前百度搜索结果里,首位直接满足用户搜索请求的比例达到57%。这背后依赖的是百度人工智能技术,其中比例非常大的一部分是百度知识图谱技术的赋能,知识图谱每天能够满足数亿次检索请求,有如下几种类型:一是各种形态的知识图谱问答卡片,二是将实体各个维度信息进行聚合展示的实体知识大卡,三是依托于知识图谱本身的语义关系,在用户搜索行为发生同时,给予多种维度的关联知识推荐。
第二是智能对话。从去年开始,百度智能音箱跃居销售量第一的位置。知识图谱为智能对话系统DuerOS提供全方位信息满足服务。
第三是Feed信息流。百度是双擎驱动移动生态布局,信息流推荐场景我们基于千亿级的通用知识图谱,构建了大规模用户关注点和兴趣点的图谱,通过图谱挖掘文章背后所蕴含知识关联和内容关联,增强了用户兴趣推荐模型的可解释性和知识关联性,分发效率和多样性取得了非常大的提升。
过去六年以来百度知识图谱沉淀并积累了包括从知识获取到整合、补全、扩展、知识图谱认知、知识图谱应用在内的全栈技术,以及知识图谱相关的架构平台和知识图谱模型。
接下来宋勋超老师介绍了百度知识图谱研究的最新进展,分为两部分。第一部分是知识图谱构建,主要分开放域海量知识图谱、复杂知识图谱、多媒体知识图谱、行业知识图谱四部分。
从大规模海量互联网信息构建千亿级别的知识图谱,最核心技术点有三个:一是无标签大数据开放知识挖掘技术,二是数据驱动的本体自动构建,三是基于多元异构数据的融合。对于开放知识挖掘,百度把知识图谱运用到实际搜索线上,对于知识图谱准确性要求需要达到98%以上的准确率。这里开放知识挖掘所依赖的最主要的技术是基于远监督从大规模语料中获取高质量模板,这里我们提出一种基于注意力正则化的远监督降噪的方法来降低训练数据中的噪声。二是自底向上结合自顶向下的开放本体构建。三是基于空间变换的知识融合方法,在海量大规模异构图谱之间建立广泛关联,形成一个整体。
针对事件知识图谱,从互联网数据里敏捷捕捉到事件发生,抽取事件论元、并建立时间、空间维度的关系从而形成事件图谱网络。事件图谱非常适合两个应用场景,第一是百度搜索的新闻事件脉络,事件脉络维度帮助用户了解事件各个时间轴的信息。第二是百度地图POI的信息变更。
其次就是行业智能,除了百度内广泛运用,各行各业对知识图谱运用需求也是非常广泛,比如,法律行业每年会产出4亿页卷宗,医疗行业每年知识增长率达到了48%,再如金融行业,虽然大家普遍认为其信息化程度非常高,但仍然有80%的知识和数据存在于非结构化的文本里。行业知识图谱技术方向关注行业复杂知识图谱,通用向行业迁移学习,企业级架构以及深层应用能力等技术难题。目前已经面向行业客户提供行业知识图谱一体化服务,包括行业知识图谱架构和行业知识图谱平台,以及两个标准化产品智能知识库和图数据库,涉及医疗、金融、教育、法律等领域。
比如医疗临床辅助决策,基于行业医疗大数据,通过知识图谱构建方法形成医疗领域专业知识图谱,支撑智能分诊、辅助诊断、医疗建议等等医疗领域知识图谱应用。
其次是知识图谱应用。基于知识图谱的认知与决策应用非常多,宋勋超老师从智能问答和智能写作两个技术进行系统介绍。
智能问答也是百度知识图谱非常具有特色的应用技术,分为KBQA、IRQA和知识推理QA。其中IRQA我们聚焦在如何利用知识,优化机器阅读理解的效果,让语言和知识真正得到融合。
百度知识图谱今年发表了三个研究成果。第一是KT-NET,文本表示和知识表述融合模型,阅读理解除了文本更需要知识。第二基于知识图谱和图神经网络的机器阅读模型,增强知识和语言相互融合,在ReCoRD取得了非常好的成果。第三是基于多视角关系图和图神经网络的答案句子选择,,这解决了多句篇章如何选择最优句子的问题。
智能写作技术在特定领域中可以发挥重要作用,例如股市分析、体育赛事等,机器自动写作可以充分发挥大数据分析、生成文章速度快的优势,让作者从重复性工作中解放出来。目前这项工作已经在百度大脑智能创作平台发布,提供智能辅助写作、智能自动创作两大能力。
最后是AI开放平台专区,分为基础能力开放和专项解决方案两大类应用,助力工业界朋友用百度知识图谱技术实现他们知识图谱的应用,提升行业智能化水平。
AI未来说*青年学术论坛
第一期 数据挖掘专场
1. 李国杰院士:理性认识人工智能的“头雁”作用
2. 百度熊辉教授:大数据智能化人才管理
3. 清华唐杰教授:网络表示学习理论及应用
4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐
5. 清华柴成亮博士:基于人机协作的数据管理
第二期 自然语言处理专场
1. 中科院张家俊:面向自然语言生成的同步双向推断模型
2. 北邮李蕾:关于自动文本摘要的分析与讨论
3. 百度孙珂:对话技术的产业化应用与问题探讨
4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践
5. 哈工大刘一佳:通过句法分析看上下文相关词向量
第三期 计算机视觉专场
1. 北大彭宇新:跨媒体智能分析与应用
2. 清华鲁继文:深度强化学习与视觉内容理解
3. 百度李颖超:百度增强现实技术及应⽤
4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索
5. 港中文李弘扬 :物体检测最新进展
第四期 语音技术专场
1. 中科院陶建华:语音技术现状与未来
2. 清华大学吴及:音频信号的深度学习处理方法
3. 小米王育军:小爱背后的小米语音技术
4. 百度康永国:AI 时代的百度语音技术
5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别
第五期 量子计算专场
1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning
2. 南方科技大学鲁大为:量子计算与人工智能的碰撞
3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算
4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量
5. 百度段润尧:量子架构——机遇与挑战
第六期 机器学习专场
1. 中科院张文生:健康医疗大数据时代的认知计算
2. 中科院庄福振:基于知识共享的机器学习算法研究及应用
3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践
4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence
5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning
第七期 自动驾驶专场
1. 北京大学查红彬:基于数据流处理的SLAM技术
2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇
3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划
4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术
第八期 深度学习专场
1. 中科院文新:深度学习入门基础与学习资源
2. 中科院陈智能:计算机视觉经典——深度学习与目标检测
3. 中科院付鹏:深度学习与机器阅读
第九期 个性化内容推荐专场
1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究
2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用
第十期 视频理解与推荐专场
1. 北京大学袁晓如:智能数据可视分析
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范