来自 科技 2020-11-09 16:03 的文章

陈运文 挑战人工智能皇冠的“张江男”丨浦东

陈运文,80后张江男,国际算法竞赛的世界冠军,中国人工智能领域最高奖—— “吴文俊人工智能科技奖”获得者。2015年,陈运文从张江高科旗下的天之骄子孵化器内起步,带领“张江男天团”创立达而观信息科技(上海)有限公司,专注于利用语义理解和文本智能处理,创业初期即获得首轮融资1000万元。2016年4月,加入浦东软件园的企业孵化培育平台,在浦东张江这一人工智能产业集聚地上不断耕耘,经过近5年的发展,达观数据以强大的文本自动化处理能力蜚声业内外,成为领域内的独角兽。

寻梦张江 五年孕育独角兽

第一财经:浦东是一个代表着开放、自由、梦想的地方,很多科创企业都会选择浦东,您当时是什么样的理由选择在浦东创业?

陈运文:这边有非常丰富的工程师资源,非常多的针对创新创业人才的政策。张江集团以及浦东新区都给我们这样的创新企业非常好的帮扶政策,帮我们有很好的办公场地,很好的宣传平台,能够让我们从种子期的时候就得到很多支持,一路走来迅速发展壮大。

第一财经:您2015年在浦东开始创业,当时对浦东的印象是什么?

陈运文:我们在浦东创业时,创新创业刚刚开始兴起,那边有非常多的活动、评选等等。我印象很深的是,当时我还参加了《寻找独角兽》这样一个科技创新企业的评选,我们在活动当中也非常荣幸的过关斩将,最后拿到了独角兽的大奖。

第一财经:因为你们是一个学霸的团队,技术能力非常突出。

陈运文:我们这个团队一直以来都在做文字大数据的挖掘工作,也代表中国参加过很多国际的数据挖掘竞赛,获得了两次世界冠军。所以我们这个团队有很好的技术积累,风险投资也给了我们很大的支持,公司创办的时候,就拿到了徐小平老师的真格基金天使轮融资1000万人民币,应该是真格基金最大的一笔天使轮,所以我们迅速地把我们的产品技术和产业应用结合在一起,把产品很好地孵化出来了。

专注文字处理 摘取人工智能皇冠上的明珠

第一财经:我们采访过很多人工智能领域的头部公司,但是专注文本处理的达观是第一家。公司为什么会选择这个主攻方向?

陈运文:文字资料处理是一个充满魅力的领域,人类的智慧高度浓缩在文字里面,它和人类文明息息相关,但是文字资料处理本身又是非常难的一件事。我们用短短几个字,能够表达气象万千的内容。比如一句古诗“大漠孤烟直,长河落日圆”,十个字就能表达非常丰富的含义。正因为它非常浓缩,所以让计算机去阅读很困难。因为它需要像我们把一个咖啡粉放到水里面把它泡开,才能够把短短几个字背后的意思释放出来,才能够理解它,所以这个过程需要非常强大的一个技术能力。但是在我们日常办公中,每一个岗位、每一个人都离不开对文字资料的运用和处理,我们希望有一个智能化的机器人系统去帮助人完成文字资料的阅读、写作,能够让我们从繁重的日常文档资料处理工作中解脱出来,这是我们的创业的动机。我们愿意做突破这个堡垒的一支尖兵,去完成这个工作。

图像识别、语音信息识别、文字资料识别,是拉动人工智能发展的三驾马车。比尔盖茨曾经说过,文字资料处理是人工智能皇冠上的明珠。因为文字资料是人类智慧的高度浓缩,在今天的人工智能产业里,文本识别是最难的一个领域。文本挖掘工作经历了第一代符号主义、第二代语法规则、第三代统计学习,目前处于第四代深度学习阶段,将实现用一个复杂的模型模拟人脑神经网络运作,从而能够像人类一样的进行说文解字,阅读理解。

第一财经:目前国内人工智能文本处理方面的企业大概有多少家?达观是什么样一个位置?

陈运文:国内在这个领域的创业企业大概不到10家,达观是这个行业里的最领先的企业,不管是公司体量、业务规模还是应用场景都是最丰富的,我们建立了规模巨大的中英文语言资料库,开发出来的自动化办公机器人已经非常成功地运用在很多领域里面,比如说在银行,帮助客户经理自动化完成信贷报告的填写,在政府,帮助公务员自动完成审批的工作,在500强企业,把人事、财务、行政、供应链这些原来大量靠人做的重复性的、枯燥的工作,实现自动化。

第一财经:那是不是很多的白领工种会被您的这个技术取代?

陈运文:应该说部分会被代替。但其实白领的工作分成两类,一类为创造性的工作,一类为重复性的工作。机器人来完成的是重复机械性的工作。我们公司也有一些同事来自于传统行业,我问他们为什么要离开原来的岗位?他们说是因为每天的工作没有意义,就像一个机器一样在重复。我就说,你说对了,这些工作就应该由机器人去完成,人类就应该去做那些有创造性的、有情感的、有温度的工作。所以我们期望未来的工作是人和机器人互相搭配的一个状态,机器人是我们人类的助手,帮我们完成那些不太愿意去触及的工作,才能够让社会运转的更有效力,大幅度提高效率。比如,一个机器人和一个人力资源的职员同样做表格填写的工作,机器人的速度大概是人类的20倍以上,准确率也会比人类高。我们人会疲劳,会随着心情的起伏导致工作质量的下降,但是机器人一天工作24小时,我们开发出来的RPA机器人,它能够在各行各业很好地发挥作用。

第一财经:怎么样去理解RPA?

陈运文:RPA,它的英文叫Robotic Process Automation,翻译过来就是机器人流程自动化。它把白领的工作步骤变成一、二、三、四、五、六明确的流程,编出程序安装在电脑里以后,就能像白领一样自动化去完成日常办公了。

第一财经:你预期市场覆盖率或者对人工的替代能够达到一个什么样的规模?目前已经做到了多少占比?

陈运文:我们预期十年之内有50%的重复性日常办公处理可以让RPA机器人去完成。今天连1%都不到,所以这个有广阔的市场空间,未来从1%都不到到50%这个巨大的市场空间,我们是有希望去占领的。

第一财经:在这个方向上,最核心的技术难点是什么?

陈运文:最难的地方就是文字资料的理解,这个需要有一个非常强大的语言模型。因为机器人它不会像人类那样思考,对文字资料所有的理解工作都是来自于大量的运算,我们要建立一个非常优秀的、聪明的数学模型才能让机器人像人类一样去理解每一个字词背后的含义。我们的汉语非常神奇,它充满了各种各样的暗示、省略、双关……上下文一变,意思往往会发生变化。我举个例子,我们经常讲说:“今天天气很冷,能穿多少穿多少”和“今天天气很热,能穿多少穿多少”,同样都是“能穿多少穿多少”,上下文一变,意思就完全相反了。人类来理解毫无困难,但是机器人理解非常费劲,我们就要花很多精力,让机器人去阅读大量的文档资料,进行各种各样的训练。同时,我们在日常工作中,除了普通的文字理解外,还要叠加人类的专业技能。比如你是一个律师,你去看一个合同的时候,不光看文字本身的意思,还会结合法律经验和条款去解读它。所以机器人还要去阅读大量的法律法规,案件卷宗,才能够像我们的法务人员一样的去完成这些合同的审阅工作。虽然我们已经积累了超过2000亿字的文字语言库,构建了非常庞大的算法模型,但是还是有很多语言文字现象没有得到好的理解,所以我们还在不断地升级我们的算法模型,让计算机越来越聪明。

文本挖掘工作,一半是技术,一半是艺术。陈运文笑称自己的名字早已注定了与文字为伍的“宿命”:“运文、运文,运用文字。”。而取名达观有两个原因:一是寓意通达乐观,第二,公司的英文名称Datagrand就是大数据的英文。

第一财经:上海是一个国际化大都市,达观能够处理多少国家的语言和相关的信息呢?

陈运文:目前集中在处理中文和英文两种语言,但是我们也和外国语学校有非常深入的合作,加大中小型语种语言模型的积累。我们服务了全球的货运巨头,它们的的货单、箱单、报关单上有各国文字,我们需要计算机系统自动去完成报关,自动进行货运单据的识别填写工作,已经取得很好的效果。所以我们也看到,整个全球的供应链体系里面也可以让自动化办公机器人发挥很大的作用,语言文字不分国界。

第一财经:听下来整个达观的商业模式,还是主要以To B为主,有没有To C的可能性?

陈运文:我觉得完全有可能。我们做过一个统计,一个人每天有1/3的时间在和文字打交道,我们发现很多人写文字的时候特别痛苦。比如,有人写个1000字的报告,可能抓耳挠腮花一两天才能写出来。那如果配备一个机器人助手,你把你的主要的思路告诉它,它可以瞬间帮你起草出很多版本、很多风格的文档,你从里面挑选一个,稍加润色就能提交了。我们正在研发自动化写作机器人。

发力奔跑 探索人类文明之光

第一财经:回顾达观创业的这五年,在浦东的大环境当中,有哪些政策层面的支持让你觉得非常给力?

陈运文:我觉得不管是实实在在的落户、人才公寓这些工作,还是很好的人才政策,都能够让我们这个企业在过去几年聚拢非常多的优秀人才。同样,各类创新评比浦东新区都给了我们大力的支持。

2016年,陈运文被评为“张江优秀人才”。2017年,陈运文入选浦东优秀青年岗位能手奖,并入选浦东新区“百人计划”。2019年,入选“浦东新区十大杰出青年”。而在刚刚过去的两个月,陈运文又获得首届浦东十大优秀青年企业家称号。

第一财经:过去的五年里,达观在文本处理这个领域不停攀登,下一个五年的战略是什么?

陈运文:未来五年,我们要做的最重要的事情是把我们的技术能够更多地推而广之,让更多的行业能够知道这样的技术,应用上这样的技术。中国这么大,这么多的地区,这么多的机构,其实都有潜在的需求。我们接下来就是要走出上海,走向全国。

第一财经:上市在计划当中吗?

陈运文:是的,我们不仅在准备科创板的相关事宜,现在也为科创板在助力,我们今天的文字资料处理技术也在未上市企业注册制的材料审核上提供服务。比如招股说明书、审计报告等等,我们为证券企业提供相应的自动化审核机器人系统,所以我们非常自豪的说,科创板的科技创新也能够融入我们达观数据技术力量。

第一财经:很多人说 2020年是充满挑战的一年,也是充满机遇的一年。2020年整个的外部环境,给达观带来了怎样的改变?

陈运文:我们看到市场对智能化系统的需求从原来的可有可无变得非常的迫切,以前我们觉得人工智能很多应用是锦上添花,但是在疫情肆虐的时候,就变成了雪中送炭。当人没有办法正常上岗的时候,机器人第一时间可以开始正常工作,所以疫情也能够鞭策我们更好地把技术开发好,把产品打磨好,在更多的场景下发挥作用。

文字是一切的载体。在人类过去100万年的进化过程中,文明迭代速度极其缓慢,但文字的出现,使其陡然加速。从5400年前的两河流域的苏美尔人文字,到现代法律文本的起源《汉谟拉比法典》,从象形文字到甲骨文,从雕版印刷到活字印刷,从计算机到大数据,人类对文字处理的升级迭代,如划破寂寂长夜的流星,在茫茫宇宙中照亮整片夜空。

而今,数据深度学习的革命方兴未艾,人工智能作为新一轮科技革命和产业变革的重要驱动力量,正在深刻改变世界。上海,浦东,作为人工智能的高地,正多点突破,加速抢跑。达观,也在全力跑出加速度,冲出上海,走向全国,摘取人工智能皇冠上的明珠,探索人类文明之光。

责任编辑: