热门问题
时间线
聊天
视角

AlphaGo

由谷歌DeepMind開發,專門用來下圍棋的計算機程序 来自维基百科,自由的百科全书

Remove ads

AlphaGo(“Go”为日文“碁”字发音转写,是围棋的西方名称),直译为阿尔法围棋,在英語不流通的華語社會亦被音译为阿尔法狗[1][2]阿法狗[3]阿发狗[4][5]等,是於2014年开始由英国伦敦Google DeepMind开发的人工智能圍棋軟體。2017年,關於AlphaGo的電影紀錄片《AlphaGo世紀對決》正式上映[6]

事实速览 首次发布, 当前版本 ...

專業術語上來說,AlphaGo的做法是使用了蒙特卡洛树搜索與兩個深度神經網路相結合的方法,一個是以借助估值网络(value network)來評估大量的選點,一个是借助走棋网络(policy network)來選擇落子,并使用强化学习进一步改善它。在這種設計下,電腦可以結合樹狀圖的長遠推斷,又可像人類的大腦一樣自發學習進行直覺訓練,以提高下棋實力。[7][8]

Remove ads

历史

一般认为,电脑要在围棋中取胜比在国际象棋等游戏中取胜要困难得多,因为围棋的下棋點極多,分支因子遠多于其他游戏,而且每次落子對情勢的好壞飄忽不定, 诸如暴力搜尋法Alpha-beta剪枝启发式搜索的传统人工智能方法在围棋中很难奏效。[9][10]在1997年IBM的电脑「深蓝击败俄籍世界国际象棋冠军加里·卡斯帕罗夫之后,经过18年的发展,棋力最高的人工智能围棋程序才大约达到业余5段围棋棋手的水準,[11]且在不让子的情况下,仍无法击败职业棋手。[9][12][13]2012年,在4台PC上运行的Zen程序在让5子和让4子的情况下两次击败日籍九段棋士武宫正树[14]。2013年,Crazy Stone英语Crazy Stone (software)在让4子的情况下击败日籍九段棋士石田芳夫[15],這樣偶爾出現的戰果就已經是難得的結果了。

AlphaGo的研究計劃於2014年啟動,此後和之前的围棋程序相比表现出显著提升。在和Crazy Stone和Zen等其他围棋程序的500局比赛中[16],单机版AlphaGo(运行于一台电脑上)仅输一局[17]。而在其后的对局中,分布式版AlphaGo(以分散式運算运行于多台电脑上)在500局比赛中全部获胜,且對抗運行在單機上的AlphaGo约有77%的勝率。2015年10月的分散式運算版本AlphaGo使用了1,202块CPU及176块GPU[11]

  • 2015年10月,AlphaGo击败樊麾,成为第一个無需让子即可在19路棋盘上击败围棋职业棋士电脑围棋程序,寫下了歷史,並於2016年1月發表在知名期刊《自然》。[9][12]
  • 2016年3月,透過自我對弈數以萬計盤進行練習強化,AlphaGo在一场五番棋比赛中4:1击败頂尖职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋士的电脑围棋程序,立下了里程碑。[18]五局賽後韓國棋院授予AlphaGo有史以來第一位名譽職業九段[19]
  • 2016年7月18日,因柯洁那段时间状态不佳,其在Go Ratings網站上的WHR等级分下滑,AlphaGo得以在Go Ratings网站的排名中位列世界第一,但几天之后,柯洁便又反超了AlphaGo[20]。2017年2月初,Go Ratings网站删除了AlphaGo、DeepZenGo等围棋人工智能在该网站上的所有信息。
  • 2016年12月29日至2017年1月4日,再度強化的AlphaGo以「Master」為帳號名稱,在未公開其真實身分的情況下,借非正式的網路快棋對戰進行測試,挑戰中韓日台的一流高手,測試結束时60戰全勝[21]
  • 2017年5月23至27日在烏鎮圍棋峰會上,最新的強化版AlphaGo和當時世界第一的棋士柯潔比試、並配合八段棋士協同作戰與對決五位頂尖九段棋士等五場比賽,取得三比零全勝的戰績,團隊戰與組隊戰也全勝,此次AlphaGo利用谷歌TPU執行,加上快速進化的機器學習法,運算資源消耗僅李世石版本的十分之一。[22]在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号。[23]

AlphaGo在沒有人類對手後,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。而從業餘棋士的水平到世界第一,AlphaGo的棋力取得這樣的進步,僅僅花了两年左右。

最終版本AlphaZero擁有更加強大的學習能力,可自我學習,在21天達到勝過中國顶尖棋手柯潔的Alpha Go Master的水平。

Remove ads

對戰

deepmind名义

2014年起,AlphaGo以英国棋友deepmind的名义开始在弈城围棋网上对弈[24]。deepmind在2014年4月到2015年9月长达1年半的时间里,维持在7D到8D之间,总共下了300多盘棋。2015年9月16日首次升上9D,之后在AlphaGo与樊麾对弈前后的三个月内未进行网络对弈。2015年12月到2016年2月,deepmind一共下了136盘,基本在9D水平。其中和职业棋手的多次对局互有胜负。

黄士杰在AlphaGo与李世乭九段比赛前曾否认deepmind是AlphaGo的测试账号,但是在AlphaGo与李世石比赛之后,DeepMind创始人哈萨比斯承认AlphaGo曾经使用deepmind账号进行过测试[25]

2016年12月16日,在AlphaGo以Master身份登录弈城围棋网之前,黄士杰要求删除deepmind账号。现在deepmind的战绩和棋谱已经无法查阅[26]

樊麾

2015年10月,分布式版AlphaGo分先以5:0击败了欧洲围棋冠军華裔法籍职业棋士樊麾二段[12][27][28] 。这是电脑围棋程序第一次在十九路棋盘且分先的情況下击败职业围棋棋手[29]。新闻发布被推迟到2016年1月27日,和描述算法的论文一起发布,而论文发表在《自然》上。[11][12]

李世乭

2016年3月,AlphaGo挑战世界冠军韩国职业棋士李世乭이세돌)九段。AlphaGo使用谷歌位于美国的云计算服务器,并通过光缆网络连接到韩国。[30]比賽的地點為韩国首爾四季酒店;赛制为五番棋,分別於2016年3月9日、10日、12日、13日和15日进行;规则为中国围棋规则,黑棋贴3又3/4子;用时为每方2小时,3次1分钟读秒。[31][32] DeepMind团队在YouTube上全球直播并由美籍職業棋士邁克·雷蒙(Michael Redmond)九段擔任英语解说,而中国大陆很多视频网站也采用YouTube的直播信号进行直播,并加上自己的解说。[33]DeepMind團隊成員台湾業余6段圍棋棋士黃士傑博士代表AlphaGo在棋盘上落子[30]

比赛獲勝者將獲得100萬美元的獎金。如果AlphaGo獲勝,獎金將捐贈給围棋组织和慈善機構,包括联合国兒童基金會[34]。李世乭有15万美元的出场費,且每贏一盘棋会再得2万美元的奖金。[35]

2016年3月9日、10日和12日的三局对战均为AlphaGo獲勝,而13日的对战则为李世乭获胜,15日的最終局則又是AlphaGo獲勝。因此對弈結果为AlphaGo 4:1战胜了李世乭。这次比赛在网络上引发了人们对此次比赛和人工智能的广泛讨论。

Remove ads

Master名義

2016年11月7日,樊麾在微博上表示AlphaGo的实力大增,将在2017年初进行更多比赛[36]。DeepMind创办人杰米斯·哈萨比斯随后证实此消息[37]。然而并未公布细节。

2016年12月29日晚上七點起,中國的弈城围棋网出現疑似人工智能围棋软件的围棋高手,帳號名為“Magister”(中国大陆客户端显示为“Magist”),後又改名為“Master”。2017年1月1日晚上十一点Master转战至騰訊旗下的野狐围棋网。Master以其空前的实力轰动了围棋界。[38][39]它以每天十盘的速度在弈城、野狐等网络围棋对战平台挑战中韩日台的顶尖高手,到2017年1月4日公测结束为止60战全胜,其中弈城30战野狐30战,战胜了柯洁朴廷桓井山裕太柁嘉熹芈昱廷时越陈耀烨李钦诚古力常昊唐韦星范廷钰周睿羊江维杰党毅飞周俊勳金志锡姜东润朴永训元晟溱等世界冠军棋手,连笑檀啸孟泰龄黄云嵩杨鼎新辜梓豪申真谞赵汉乘安成浚等中国或韩国国内冠军或者世界亚军棋手,以及世界女子第一人於之莹。期間古力曾懸賞人民幣10萬元給第1位戰勝Master者。

Master所進行的60战基本都是3次20秒或30秒读秒的快棋,僅在與聶衛平交戰時考虑到聂老年纪大而延長為1分鐘,并且賽後還以繁體中文打上「謝謝聶老師」5字。該帳號於59連勝後称「我是 AlphaGo的黃博士」,表明Master就是AlphaGo,代為落子的是AlphaGo團隊成员來自台灣的黄士傑博士[40];DeepMind创始人之一杰米斯·哈萨比斯于比赛结束后在其推特上表示“我们很期待在今后(2017年)与围棋组织和专家合作,在官方比赛中下几盘慢棋”[41][42],黃士傑與樊麾也分別在Facebook與微博上發表官方中文譯文,表示對各國頂尖棋手參與AlphaGo的網路公測的感謝[43]。2017年1月5日晚,中国中央电视台《新闻联播》以“人工智能‘阿尔法狗’横扫围棋高手”为题报道了最近火爆的Master网络快棋60连胜人类高手的事件,新闻还提到,“这次事件为接下来的人机对决做出了很好的预热”[44]

因为人类棋手在慢棋中有更久的思考时间,所以虽然AlphaGo在网络快棋中大获全胜,但仍不能断言其在官方慢棋比赛中是否也会有如此出色的表现[42]。不过职业棋手们对AlphaGo不同于人类的独特棋风以及它高超的棋力印象深刻[45],柯洁在其微博中表示“感谢Alphago最新版给我们棋界带来的震撼”,并“略有遗憾”地称“若不是住院,我将用上那准备了一个星期的最后一招”[46]

Remove ads

中国乌镇围棋峰会

2016年6月4日,在第37届世界业余围棋锦标赛新闻发布会上,国际围棋联盟事务总长杨俊安透露今年内AlphaGo或将挑战中国职业棋士柯洁九段[47]。不过DeepMind创办人杰米斯·哈萨比斯表示目前还没有确定AlphaGo的下一步计划,一旦有明确的安排,会有官方声明[48]

2016年12月8日,第21届三星车险盃世界圍棋大师賽決賽過後,柯洁九段表示:「目前棋手之間的比賽眾多,我放棄了與DeepZenGo的對局。我覺得,我現在的狀態還不能打敗『阿爾法狗』(AlphaGo),今後需要更加努力。」[49]

2017年4月10日,中国围棋协会、Google和浙江省体育局联合在中国棋院召开新闻发布会,宣布以柯洁为首的中国棋手将和AlphaGo在5月23至27日的中国乌镇围棋峰会上对弈。此次对弈分为三场比赛,首先在5月23、25和27日这三天,柯洁将与AlphaGo下三番棋,用时为每方3小时,5次1分钟读秒。Google DeepMind为本次柯洁与AlphaGo的三局比赛提供了150万美元的胜者奖金,同时柯洁有30万美元的出场费。[50]此外在5月26日,时越芈昱廷唐韦星陈耀烨周睿羊5人将进行团队赛,他们将联合与AlphaGo对弈,用时为每方2小时30分钟,3次1分钟读秒。同日,古力连笑还将和AlphaGo合作进行人机配对赛,比赛将以棋手与AlphaGo合作的形式进行,用时为每方1小时,1次1分钟读秒。[51][52]最终,AlphaGo以3:0战胜柯洁,并被中国围棋协会授予职业围棋九段称号[53],不过聂卫平九段称它的水平“至少20段”[54]。在结束与柯洁的比赛后,Deepmind宣布AlphaGo将“退役”,不再参加任何围棋比赛,但将公开AlphaGo自己与自己互弈的棋谱;而在未来Deepmind将会把AlphaGo的技术运用到医疗等更广泛的领域。[55]

Remove ads

AlphaGo Zero

AlphaGo的团队于2017年10月19日在《自然》杂志上发表了一篇文章,介绍了AlphaGo Zero,这是一个没有用到人类数据的版本,比以前任何击败人类的版本都要强大。[56]通过跟自己对战,AlphaGo Zero经过3天的学习,以100:0的成绩超越了AlphaGo Lee的实力,21天后达到了AlphaGo Master的水平,并在40天内超过了所有之前的版本。[57]

版本

配置与性能

2015年10月前后的测试中,AlphaGo多次使用不同数目的CPUGPU,以单机或分布式模式运行。每一步棋有两秒的思考时间。最终Elo等级分如下表:[11]

更多信息 配置, 搜索线程数 ...

然而AlphaGo的棋力不断且显著地增长。因此上表并不能代表AlphaGo其他版本的棋力。

而在AlphaGo Zero发布之后,Deepmind表示新的算法令新版的AlphaGo比旧版的耗能量大幅下降10000至40000TDP,效能大幅提升。[58]

Remove ads

配置与棋力

在2016年1月27日,Research at Google發布了有關新版AlphaGo跟其他圍棋軟件,以及樊麾二段的對比如下[59]

更多信息 比對對象, Elo等级分 ...

在2017年5月24日,DeepMind团队证实了在乌镇围棋峰会上,所使用的AlphaGo版本是Master[60],并公布了AlphaGo曾经公开对弈过的版本以及和其他围棋软件比较的图表。其中,新版的AlphaGo Master能让AlphaGo Lee(跟李世乭对战的版本)三子[60]。两个版本的AlphaGo自我生成的Elo等级分分别在4750和3750分附近[61],与柯洁九段在5月23日的3620分(非官方排名系统所统计的)[62]相差约130到1130分之多。然而,职业棋士樊麾二段替AlphaGo团队的首席研究员大卫·席尔瓦澄清:“当AlphaGo与从未对弈过的人类棋手对局时,这样的优势就不复存在了,尤其是柯洁这样的围棋大师,他可能帮助我们发现AlphaGo未曾展露的新弱点”。[63]

更多信息 版本, 使用規則 ...
Remove ads

算法

AlphaGo使用蒙特卡洛树搜索Monte Carlo tree search),借助估值网络(value network)与走棋网络(policy network)这两种深度神经网络,通过估值网络来评估大量选点,并通过走棋网络选择落点[11][9]。AlphaGo最初通过模仿人类玩家,尝试匹配职业棋手的过往棋局,其数据库中约含3000万步棋着。[27]後來它达到了一定的熟练程度,它开始和自己对弈大量棋局,使用强化学习进一步改善它[9]。围棋无法仅通过寻找最佳棋步来解决;[66]游戏一盘平均约有150步,每一步平均约有200种可选的下法,[10]这意味着有太多需要解决的可能性[66]

表现评价

围棋职业九段棋手金明完称AlphaGo在与樊麾的对战中,表现得「像人类一样」。[67]棋局裁判托比·曼宁则认为AlphaGo的棋风「保守」。[68]

而李世乭在中国乌镇围棋峰会后表示,AlphaGo的发挥非常稳定,表现完美,要想找到战胜它的机会不能过于稳妥,“必须越乱越好,难点越多越好”。[69]另外,柯洁在赛后复盘表示,AlphaGo能够非常有效率地利用场上的棋子,所走的棋子都与场上的棋子有连贯及配合,并对棋子的厚薄有独到的理解,能把一些人类认为厚的棋子予以打击和歼灭。[1]页面存档备份,存于互联网档案馆

反應

AlphaGo被誉为人工智能研究的一项标志性进展,在此之前,围棋一直是机器学习领域的难题,甚至被认为是当代技术力所不及的范畴。[70][71]樊麾战的棋局裁判托比·曼宁和国际围棋联盟的秘书长李夏辰英语Lee Ha-jin都认为将来围棋棋手会借助电脑来提升棋艺,从错误中学习。[72]

台灣大學電機系教授于天立認為,Google能夠成功結合深度神經網路、加強式學習和蒙地卡羅樹狀搜尋三種演算法,其成果值得喝采。他認為這種技術應該適用於一般連續性決策問題。因為AlphaGo可以在眾多可行的決策中,適當分配運算資源來探索此一決策所帶來的好處及壞處,並且可從探索中回饋修正錯誤。不過于也提到,即使AlphaGo所使用的學習模型比較具有一般性,它離真正完全通用的學習模型仍有一段距離。[73]

类似成果

  • Facebook也在开发一套围棋程序,名为Darkforest。这套程序也是基于机器学习和树搜索。[66][74]在2016年3月举办的第9届UEC杯世界電腦圍棋大會中获得亚军。[75]尽管该程序在其他围棋程序面前表现强劲,但截至2016年年初,它尚未击败任何职业棋手。[76]
  • DeepZenGo是日本程序员尾島陽兒、加藤英树等开发的围棋程序,是在旧版本的Zen围棋软件基础上加入了深度学习技术后开发的新版本,由日本DWANGO公司、东京大学日本棋院提供支持,其基本原理和AlphaGo类似。在第二届围棋电王战中分先以1:2不敌赵治勋九段。在2017年3月18-19日在日本举办的第10届UEC杯世界電腦圍棋大會上获得亚军[77]。在2017年3月21-23日的世界围棋冠军锦标赛上以一胜二负的成绩名列第三名[78]。在2017年3月26日的第5届电圣战上分先战胜了日本的一力辽七段[79]。目前在KGS、弈城、腾讯野狐等网络围棋对弈平台上公测。
  • 绝艺(英文名Fine Art)是中国腾讯公司的AI Lab(腾讯人工智能实验室)开发的围棋人工智能。在2017年3月18-19日的第10届UEC杯世界電腦圍棋大會上夺得冠军[77],并在2017年3月26日的第5届电圣战上分先战胜了日本的一力辽七段[80]。目前在腾讯野狐围棋网络对弈平台上公测。
  • CGI 是由國立交通大學CGI(Computer Games and Intelligence)實驗室所開發的圍棋人工智能。在2017首屆世界智能圍棋公開賽8月16日於内蒙古鄂爾多斯開戰,擊敗絕藝DeepZenGo,初賽全勝;17日總決賽中奪得亞軍。

参见

参考资料

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads