阿尔法围棋:有大局观 可以像人类那样靠直觉下棋
首页 微信热点头条 美女帅哥图片 交通违章查询 快递查询跟踪
2016-12-08  星期四
丙申猴  冬月初十

阿尔法围棋:有大局观 可以像人类那样靠直觉下棋

都市快报 2016-03-09 11:12

李世石在21年的围棋职业生涯里已赢得多次世界第一,“阿尔法围棋”距第一次战胜职业选手还不足21周。但“阿尔法围棋”已进行过超过3000万局的训练,比李世石在有生之年能下的棋局要多得多。

更重要的是,“阿尔法围棋”会像人类那样凭直觉选择最佳下法,懂得舍弃局部,以取得全盘的胜利。

第一个击败人类职业棋手的 电脑程序

围棋一直被看作是人类最后的智力竞技高地。据估算,围棋的可能下法数量达到10的171次方,超过了可观测宇宙范围内的原子总数(10的80次方)。

单靠穷举所有的可能性来选取最佳方案,计算机目前的运算能力还达不到这个量级。不过,“阿尔法围棋”是人工智能。它模仿人类的思维方式。

让我们从名字开始来了解它。“阿尔法围棋”的英文名AlphaGo由两部分组成,Alpha对应希腊语的首字母,也就是常说的“阿尔法”,Go是日语中对围棋的称呼。因此,许多人称之为“阿尔法围棋”,还有人根据发音亲昵地叫它“阿尔法狗”或“阿狗”。

它出生在英国。2010年,德米什·哈萨比斯等人在伦敦创建了“深度思维”公司,2014年开发出了“阿尔法围棋”软件。2014年,美国谷歌公司收购了“深度思维”,因此它现在也许算是美国籍。

此前与法国“疯石”、日本“zen”等当今最优秀围棋程序进行的500盘博弈,“阿尔法围棋”只输了一盘。

它的成名是在今年1月。哈萨比斯等人在英国《自然》杂志上发文说,在英国围棋协会见证下,“阿尔法围棋”以5∶0战胜欧洲围棋冠军、前中国职业棋手樊麾,成为第一个击败人类职业棋手的电脑程序。

明知该怎么杀,而没有杀

“第一盘结束之后我当时的心情非常不好。为什么呢?道理很简单——电脑第一次打败职业棋手,这是个历史时刻,这是以前从来没有过的事情,但我是真真正正地输了。”樊麾说。

樊麾对“阿尔法围棋”的厉害之处印象极深。

他说:“它抓我的错抓得特别准,只要一抓住我就跑不掉,而且只要我一犯错,棋局就进入它的轨道了,我就再也翻不了身了。后面每盘棋基本都是按照同样的步骤走下去的,但它没犯什么错。”

更令人惊讶的是,“阿尔法围棋”有时明明看出了樊麾的失误,却故意放过。

“在第三盘棋中,有一块棋我是死棋,它很简单就能吃我,却没有吃,让我活了。”樊麾说,“如果当时它吃我会有一点点风险,棋局会变得更加复杂,但它不吃我,它就会很轻松地赢下这盘棋。最终它选择了一种更稳妥的策略,选择了轻松获胜。”

后来有围棋节目对这场比赛进行复盘,一位专业棋手也是认为当时“阿尔法围棋”知道怎么杀,而它没有杀。

樊麾说:“因为在实战中,它放我活之后没几个棋我就认输了。它如果不放我活,那我可能还会继续战斗下去,棋局就会出现一些复杂变化。就像(中国棋手)柯洁所说,他也看不出来是人还是电脑。谁也看不出来。”

“如果没有人告诉我,我一定不知道它是电脑,它太像人了。它一定是在思考。按照人的说法,它应该有棋风吧。”他说。

棋力又有大长?

“阿尔法围棋”为什么可以这么厉害?

“深度思维”公司并没有开放软件的代码。要想了解它,目前还主要靠《自然》上的那篇论文。

专家认为,“阿尔法围棋”最大的特点是,它会自己学习!

它的学习方式主要是:

第一步,快速判断。用于快速地观察围棋的盘面,类似于人观察盘面获得的第一反应。

第二步,深度模仿。它模仿学习近万盘人类历史高手的棋局,用得到的经验进行判断。这个深度模仿能够根据盘面产生类似人类棋手的走法。

第三步,自我对弈。不断与“自己”对战,一天就能玩100万局,总结出经验作为棋局中的评估依据。在战胜樊麾之前,“阿尔法围棋”已进行了超过3000万局的自我训练,不断提升自身棋力。

第四步,全局分析。利用第三步学习结果对整个盘面的赢面进行判断,实现从全局分析整个棋局。在观察棋子的整体布局的基础上选择最佳下法,这种方式十分接近于带着直觉和第六感作出判断的人类大脑功能,颇有人类棋手“我感觉这样会赢”的味道。

从技术层面上讲,“阿尔法围棋”的核心是两种不同的深度神经网络——“策略网络”和“值网络”。

“值网络”负责减少搜索的深度,一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑。“策略网络”负责减少搜索的宽度,面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。它们“双剑合璧”挑选出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。

“阿尔法围棋”和樊麾之间的比赛发生在去年10月,只是由于论文发表的保密流程等原因才在今年宣布。虽然许多围棋高手研究比赛棋谱后认为,“阿尔法围棋”那时的棋力还无法与李世石相提并论,但几个月过去了,它可能又在针对性训练中大有进步。

这也是现在许多人押注它会取胜的原因。

它是一堵墙

“阿尔法围棋”学到了人类思维的优势,同时没有人类的某些弱点。

1997年,当时世界排名第一的国际象棋大师卡斯帕罗夫在和“深蓝”超级计算机对决中,第二局的完败让卡斯帕罗夫深受打击,他的斗志和体力在随后3局被拖垮,在决胜局中仅19步就宣布放弃。

2006年,“浪潮杯”首届中国象棋人机大战中,5位中国象棋特级大师最终败在超级计算机浪潮天梭手下。其中一位特级大师张强说:“输的原因主要在体力的过度消耗。以往和人比赛,到了最后时刻就是意志和心态的对决了,看谁能坚持到最后,谁能不犯错误。但是计算机没有这样的问题。”

樊麾说:“当年击败众多高手的李昌镐,被称为'石佛',就是因为他心态特别好,面无表情,你感觉不到他的任何波动。但我想说的是,谁能比电脑更'石佛'啊?”

他把“阿尔法围棋”形容为一堵墙,“你对它施展任何压力它都会反弹给你”。

哈萨比斯说:“'阿尔法围棋'的优点是不会疲劳和害怕。它经过多次测试,性能出众,但应该还存在没被发现的弱点。”

李世石认为,“阿尔法围棋”模仿人类的直觉判断程度约为80%,但运算速度优于自己,所以要格外小心。“不过听到人工智能具有了类似人类的直觉判断能力,我倒感到有些紧张,恐怕我以5比0战胜它有点儿够呛,因为人类下棋时会有失误。”

如果输掉首盘,接下来的比赛会不会受影响?

李世石说,在与人对局中首盘输掉的时候很多,这次与人工智能对弈即使输掉首盘也不太会对接下来的比赛有影响,自己也肯定会从与人工智能的对弈中学到很多。(综合新华社报道)

阿尔法围棋

生日:2014年

年龄:2岁

性别:无

身高:无

体重:无

处理能力:服务器版本,具体计算能力保密,比赛后公布

国籍:美国

段位:保密

正式战绩:5胜0负

最高成就:击败欧洲围棋冠军

行棋风格:稳健实用派

兴趣爱好:电子游戏

分享到:

推荐阅读

相关阅读