来自 科技 2020-04-28 17:30 的文章

人工智能AlphaGo的目的仅仅是赢得比赛吗?

这几年,世界围棋界迎来了灰暗时刻,都是因为这个AlphaGo(阿尔法狗)。

首先是围棋世界冠军九段李世石以1:4落败于AlphaGo,但好歹赢了一局,这时人类只觉得AI围棋机器人很厉害,可以赢人类顶尖选手了。

后来号称围棋第一人的柯洁0:3惨败于AlphaGo,此时大家才发觉人类基本上无望赢过AlphaGo了。

李世石在输给AlphaGo后,于今年宣布退役,并且他认为AlphaGo是不可战胜的,令不少围棋选手心灰意冷。柯洁更是直言,在AlphaGo面前,人类棋手显得有点多余了。而今,AlphaGo的自我学习速度越来越快,人类想打赢AlphaGo越发不可能了。

那么,为何一个小小的围棋机器人可以在短短数月超过人类几千年围棋的经验而立于不败之地?人类又该如何看待对它呢?


人工智能AlphaGo的目的仅仅是赢得比赛吗?


AlphaGo的由来

说到AlphaGo的起源,我们不得不说一下Deep Mind和Deep Blue。

Deep Blue(深蓝)是IBM发明的一个人工智能系统,它活跃在上世纪90年代,在国际象棋比赛中赢过世界冠军。但任务特定、用途单一,属于狭义人工智能(Narrow AI)。

Deep Mind是由德米斯·哈萨比斯(Demis Hassabis)创办的一家专注于人工智能的公司,这位德米斯·哈萨比斯是一位人工智能专家,同时也是神经学专家,正是他将机器自我学习和网络神经学习结合在一起,创造出超级强大的学习算法,诞生出今天的AlphaGo。


人工智能AlphaGo的目的仅仅是赢得比赛吗?


AlphaGo为何要在围棋界开战

围棋起源于中国,有着3000年的悠久历史,我们古人常说的“琴棋书画”中的棋就是指围棋,也叫对弈,博弈。围棋的棋盘是纵横直线形成的方形格状格子,对弈双方分别执黑色和白色棋子,棋盘上共有纵横各19条直线,所以有361个交叉点,对弈双方交替将棋子落在交叉点上,最终以围地多者为胜。

其实单看规则是很简单的,新手可以在10分钟内学会规则,但正是由于规则简单,棋盘上反而空无一物,也没有任何参照,所以没有初始值,没有固定值,但棋局却多达10的171次方种变化。这是什么概念,有人夸张的说和宇宙的原子数相当。这就有别于Deep Blue所发明的狭义人工智能,它所赢得西洋棋局变化数要少得多,而且只靠整体计算就可以推导出胜负概率,但围棋不能简单的进行编程来执行,所以说围棋不仅是人类史上顶级的棋,同时也是人工智能要攻克的难点。

旧AlphaGo的双脑下棋原理

其实时至今日,阿尔法围棋AI已经换了几代了,最新的版本是AlphaGoZero,我们先将它之前的版本统称为旧AlphaGo。旧AlphaGo的人工智能采用的是双大脑协同工作。

第一个大脑是策略网络(Policy Network),就是根据整体局势来预测对手下一步要落子的位置,然后计算出自己最佳的下一步棋子。这是怎么做到的呢?就是输入大量的人类棋谱,将人类3000千年来的棋局输入解析,让它强化学习。第二个大脑是价值网络(Value Network),这个网络是在第一个大脑做出选择落子后来计算最终胜率。它不是简单的预测后几步的局势走向,直接计算到棋手输赢的概率。

那人类是否可以采取一种从来没有过的下棋方式或者故意错下来让AlphaGo无从下手呢。答案是否定的,因为AlphaGo的策略网络和价值网络不是单纯的预测和计算,是迭代增强网络,也就是它自己跟自己下棋,自己落子,自己推测下一步,自己结算输赢。在反复的过程中修正和提高准确率,对机器来说一点也不费力。


人工智能AlphaGo的目的仅仅是赢得比赛吗?


AlphaGoZero的左右互搏术

AlphaGo Zero就更厉害了,采用的是Reinforcement learning(强化学习算法),它的能力已经产生质的变化。Deep Mind对这一版本的AlphaGo并不输入任何人类棋谱,甚至都不告诉它围棋规则,起初就是一个单一神经网络,让它自由的在棋盘上下棋,自我对弈。然后在自我对弈的过程中不断发展、修正和调整,逐渐丰满自己的神经网络。

听起来就像金庸笔下的武学大家老顽童的左右互搏术。而其自我对弈学习增强的过程,多像一个婴儿成长为成人的过程。

AlphaGo Zero由于是通过自我对弈学习,不输入任何棋谱,所以不受人类棋局的限制,并且开发出新的围棋策略。实际上,AlphaGoZero每一局都相当于新的局,而且每局过后自己有成为进阶版的AlphaGo,然后再跟进阶版AlphaGo对弈,不断成为更高阶的AlphaGo。

AlphaGo的战绩

2016年1月,AlphaGo首次对战人类,5:0完胜欧洲围棋冠军樊麾。

2016年3月,AlphaGo在韩国首尔大战世界围棋冠军李世石,以4比1的总比分获胜。

2016年12月,AlphaGo Master版本注册上线,对战世界各国高手,60战全胜。

2017年5月,AlphaGo Master在中国乌镇以3:0战胜世界冠军柯洁。同月,又战胜由5位世界冠军组成的冠军队。

2017年10月,AlphaGo Zero经过短短3天学习,就以100:0战胜此前击败李世石的AlphaGo。40天后,AlphaGo Zero击败了AlphaGo Master。


人工智能AlphaGo的目的仅仅是赢得比赛吗?


AlphaGo除了赢得围棋比赛还有别的意义吗

我们任何科技的发明都是为了更好地服务人类,服务社会。当今世界是处在工业3.0信息化时代,世界已经被数不过来的数据铺满,不比围棋的变化少,如何从这些数据中获得有效信息,总结规律,就显得尤为重要。比如气候变化数据,医疗数据,事故数据等。

人工智能是未来有可能解决这个问题的科技之一。发展像AlphaGo这样的人工智能,就要测试它的算法是否足够优化,是否能自我提高。机器在不断创造新的下棋方法,同时也能给人类带来新的思维模式。在此基础上,再去扩展它的能力范围,使之能真正的用到为人类服务当中去。

我们现在做的就是给人工智能打好基础,相信未来的人工智能会给世界带来更多奇妙无比的体验。