最强“阿法狗”面世 自学三天超越人类超一流

邓菲菲

2017年10月24日08:20  来源:信息时报
 
原标题:最强“阿法狗”面世 自学三天超越人类超一流

近日,谷歌旗下的DeepMind团队公布了最强版的AlphaGo,代号为“AlphaGo Zero”。用最通俗直白的语言来说,这版的AlphaGo和以往版本最大的不同就是脱离了人类既有棋谱,只学会了围棋的基本规则、从乱下开始,完美地贴合其代号——“0”,从零开始。在40天的自我对弈后,AlphaGo Zero成功超越碾压人类高手的Master、成为目前最强版的AlphaGo,尽管人类棋界对于机器击败人类已经不再惊讶,但AlphaGo Zero这样自我学习式的飞跃还是让柯洁不由得感叹:“对于Alphago的自我进步来讲……人类太多余了。”

从零开始,40天成最强“阿法狗”

我们所熟知的那些AlphaGo,包括击败樊麾的版本、击败李世石的版本、以及此前横扫网络的Master版,它们无一例外都是从学习大量的人类棋谱起步,而如今的AlphaGo Zero,用DeepMind团队的话说则是从“婴儿般的白纸”开始,除了围棋的基本规则,没有任何关于围棋的基础知识,而它的“陪练”——另一个AlphaGo Zero也是同样的新手,大家可以理解为两个不会下棋的孩子,在没有老师指导的情况下相互对弈,在此过程中自我总结和提高。

从DeepMind公布的AlphaGo Zero成绩单中,我们不难看出这个“新手”的成长史:由于是实打实的“从零开始”,刚开始的时候,它甚至还会自己填子送死,但仅仅在三小时后,它已经达到了人类初学者的水平,基本不会犯低级错误了;19个小时以后,AlphaGo Zero学会了诸如打劫这样的技巧;而到了第三天,AlphaGo Zero已经跟自己下了490万局棋,并战胜了当初击败李世石那一版AlphaGo,战绩是100:0。换言之,仅仅用了3天,AlphaGo Zero就从一个仅仅会基本规则的初学者,成长到了具备超一流棋手的水平。此后的AlphaGo Zero并未停下追赶的脚步,到了第40天,它以压倒性的优势战胜了此前3:0完胜柯洁的AlphaGo Master,胜率达到90%。

菩提本无树,明镜亦非台。人类最初发明围棋的时候,“套路”和“着法”都是不存在的,棋手都是在遵守规则的前提下自己去思考下一步棋,在此过程中,棋手们才慢慢总结出一些经验,藉此可以在下棋时减少思考时间。然而,这些人类花了数千年才总结出来的经验,AlphaGo Zero只用了40天就超越了,因为它不会忘记事情、也不会疲倦、更不会犯同样的错误。

尝试其他领域造福人类

早在Master3:0完胜柯洁之后,DeepMind团队就宣布了AlphaGo“退役”的决定,AlphaGo自此不再和人类对弈,因为击败人类顶尖棋手已经不再是它的目标。如今,AlphaGo Zero同样不是为了击败人类棋手而生,DeepMind研发团队已经开始尝试将其技术用于其他领域,例如解析蛋白质折叠的细节。

蛋白质折叠,这对于很多普通民众来说是个陌生而艰深的名词,我们可以换个角度来认识它。一些人们谈之色变的疾病,如阿尔兹海默症、“渐冻症”(运动神经元病)等,其实都是由于蛋白质折叠异常而造成分子聚集甚至沉淀或不能正常转运到位所引起的。蛋白质折叠没有什么数据可以参考,而根据氨基酸序列来预测结构拥有太多的可能,这就跟围棋棋盘上的变化非常类似——都有众所周知的基本规则,以及一个清晰的目标。倘若AlphaGo Zero的算法能在解析蛋白质折叠的细节方面发挥作用,将会为上述疾病药物的研发提供工具,简而言之,就是发现新药。

DeepMind联合创始人、AlphaGo之父哈萨比斯透露,AlpahGo团队的成员已经转移到了其他团队中,为的就是将Zero的技术应用到其他领域,除了前述的研发新药,在DeepMind博客中列出的还有降低能耗、寻找革命性的新材料。“我们想用这样的算法突破,来解决真实世界中各种各样紧迫的问题。”哈萨比斯说。

而假如以后Zero的技术可以普遍应用,对于人类棋手来说,其最大的价值可能是“判断”。当人类棋手在自我修炼的过程中悟出新的棋理,Zero可以辅助人类对其进行快速验证,毕竟它一天就能对弈上百万盘,验证速度比人类要快得多。更有甚者,这种“判断”也可能脱离棋盘——当你下次面临“先救老婆还是先救丈母娘”的世纪难题时,Zero或许能为你作出最佳选择。

高手声音

人类无法学习人工智能

聂卫平:依葫芦画瓢没有用,人工智能的一些想法、招法人类根本看不懂,也没有办法去学,越学反而越糟糕。

柯洁:一个纯净、纯粹自我学习的alphago是最强的……对于alphago的自我进步来讲……人类太多余了。

古力:20年不抵3天啊……我们的伤感,人类的进步!

唐韦星:看了之后不知道说什么了……它确实不需要我们的知识,之前版本用了好几年被这个40天的打败似乎就是我们拖后腿了……ps我现在突然想到未来简史说的人类的分层,小部分成为神,大部分是废物。

李喆:完全抛开人类围棋知识,去年论文里提到的许多特征和rollout全部去掉,两个神经网络合为一个,只给定棋盘、棋子和规则。从乱下开始,1天达到V18(超越人类棋手水平),21天达到Master,40天碾压Master。 less is more。 2017年起,在某些领域,AI不再需要人类知识。

黑嘉嘉:AI是棋手学习的对象,但若只是一味的模仿,而没有去理解它每手棋背后的意义,最终恐怕会走火入魔。

(责编:欧兴荣、杨磊)

推荐阅读

“人民体育 健康中国”马拉松系列赛
  比赛由中国田径协会、人民网和中迹体育三家联合主办,系列赛旨在以高标准服务全国广大的基层跑步运动爱好者,让更多百姓能参与到全民健身的浪潮之中。【详细】
官网|公告|报名|日历|报名|涞水站|北京站|跑者故事“人民体育 健康中国”马拉松系列赛   比赛由中国田径协会、人民网和中迹体育三家联合主办,系列赛旨在以高标准服务全国广大的基层跑步运动爱好者,让更多百姓能参与到全民健身的浪潮之中。【详细】

官网|公告|报名|日历|报名|涞水站|北京站|跑者故事

2018世预赛亚洲区12强赛
  2018俄罗斯世界杯预选赛亚洲区12强赛9月1日打响,中国与伊朗、韩国、乌兹别克斯坦、卡塔尔及叙利亚同组,这也是国足第11次冲击世界杯。【详细】
世预赛|国足|其他诸强|媒体评论2018世预赛亚洲区12强赛   2018俄罗斯世界杯预选赛亚洲区12强赛9月1日打响,中国与伊朗、韩国、乌兹别克斯坦、卡塔尔及叙利亚同组,这也是国足第11次冲击世界杯。【详细】

世预赛|国足|其他诸强|媒体评论