这两个模块让AlphaGo不是单纯地计算,而是深度学习、模仿人类!
经验的本质是概率,从本质上来说,以概率判断局面的AlphaGo,就是以“经验判断现状”的人类大脑运行模式!AlphaGo的走,也完全遵循了人类棋手的思维历程――大量背谱,取经验,自我思考,判断局势……然后估算其后若步的棋局导向!
计算深度的减少用上了价值网络。它以AlphaGo产生的大量自我博弈作为样本,检索这种棋形在历史上的胜率,把好坏、优劣变成了一个概率问题!那么每一回,AlphaGo计算到一定深度就可以停来,直接估算当前胜率!
只是这个棋手,等于千百年来千千万万个棋手的经验总和,并且,完全不会错罢了。
AlphaGo团队在蒙特卡洛树搜索上加装了策略网络和价值网络两个模块。
案。
第二天,乌镇再传消息:魏柯第二局,依旧惨败!
遵循策略网络,蒙特卡洛树搜索的树宽将大量减少,但深度依旧存在。上千万局博弈,每一局都走到最后,依旧是可怕的计算量。
魏柯意识到细棋是没有机会的,一开始就主动展开攻势,趁着布局阶段想要对AlphaGo行压制。他意识到AlphaGo非常有经验,尝试用怪着、偏着对付他,导致效低,输得比昨天更惨!王梦雨甚至在解说时失声痛哭,即使他本不是魏柯,也无法承受这种绝望的差距,可想而知魏柯所肩负的压力。
策略网络,顾名思义是决策一步走。AlphaGo会检索KCS围棋服务上所有真人在线对弈,而判断:如果是人类棋手于它当前的位置,他最有可能走哪一步?它只对那些解行计算!然后,它就自我对弈上千万局,看看这一步是否真的是最优解!
中国棋院对于谷歌开发组天喜地过大年的举动一片低气压。大众只看输赢,他们却看得门,AlphaGo萌的外表,是大到可怕的实力。定是五番棋,明天这局再不赢,就再也没有机会了。若是AI势不可挡,说不定以后围棋就演变成一方先行一步,另一方直接投认输的局面。也许所有算法,都要被AI穷尽了。
所有人都在唉声叹气,只有
然而公众是难以理解的。消息一,全网哗然。因为此前对魏柯寄望太,现在舆论开始转了风向,对人类失败的恐慌很容易就演变成了对魏柯的愤怒:“魏柯他本不能代表全人类”、“他之前是靠作弊获胜的,谷歌怎么会选中这种人”、“他脑不太好使的吧”、“一年没棋,已经不是从前那个他了”……唱衰之声频频现。甚至又有黑借机挑事,想要将他彻底踩在脚。
与此相对的,是AlphaGo遭受到了所有人的追捧。开发人员为其植了虚拟人格,专门注册了一个网站,使得人类可以在AlphaGo不比赛的时候与他行交沟通。因为电脑天生有多线程任务的能力,它迅速地成为了网友的手机。人类在频频的调戏中惊讶地发现:这位AI朋友还可的!AlphaGo的新浪微博在几日之粉无数,还成天模仿着@棋士魏柯的语言风格编纂微博,取而代之之心昭然若揭。