alphago图片(围棋人机大战图片里的alphago是真人么)
本文目录
- 围棋人机大战图片里的alphago是真人么
- 和Siri等AI相比,AlphaGo究竟有什么不一样
- 关于AlphaGo的一些错误说法
- 如何评价alphago自我对弈的50盘棋
- AlphaGo Zero两眼活棋,劫争的解决办法,是它自己探索出来的吗
- Alphago和另一个Alphago下围棋的话,会是一种什么样的局面
围棋人机大战图片里的alphago是真人么
人工智能(机器人),AlphaGo是如何工作的?
Dave Silver称,按照传统的算法,每下一步棋计算出几十种可能,然后每种可能又产生几十种可能。这种穷举式的搜索方法应用在每一步都有上百种可能的围棋上,会变得非常笨拙。
AlphaGo团队负责人Dave Silver
所以AlphaGo团队在研究时,一直想办法减少穷举式搜索的宽度和深度。
他们结合了监督学习和强化学习的优势。一方面形成一个策略网络(policy network),用于学习棋盘;另一方面,形成一个价值网络,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。
这两个网络结合在一起,就形成了AlphaGo的树搜索。在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
和Siri等AI相比,AlphaGo究竟有什么不一样
2016年3月9日,谷歌旗下Deepmind的围棋程序“AlphaGo”就要和职业九段李世石对决了。去年10月,这个程序战胜了中国棋手职业二段樊麾;那是围棋AI第一次在公平比赛中战胜职业棋手。这一成果登上了今年1月的《自然》期刊,也引发了极其热烈的讨论——而最常被提出的问题就是,AI是不是终于要占领全世界了?会唱歌,更会说冷笑话的Siri. 图片来源:Apple这个问题并不算杞人忧天,某种意义上AI已经占领了:从苹果的Siri,到日常浏览的搜索引擎,再到网络的文章推荐和商品推荐系统,这些全都是人工智能——哪怕它们不是科幻小说里那种,我们的日常生活也已经很难和它们分开。但AlphaGo又和这些常见的AI不同。它们的差异在于学习方法和技术的通用性。Siri:一个照本宣科的助手Siri是一个“智能助手”,能听懂我们的口头命令,帮我们在网上搜索,帮我们在列表中找到联系人。但它的原理很简单:通过声音识别技术,将声音转化成语言的基本元素,比如元音、辅音、单词,然后和系统中内置的特殊命令比较。如果对比出来的是一个实际问题,那就执行相应的指令;如果对应上了一个空泛的问题,就从相对的段子库里挑个段子出来。所以它的问题也就一目了然:要是你命令它去做系统中没有的命令,它就扑街了。Siri虽然是AI,但它是一个非常局限的AI:只能解决预先写好的问题。面对东北大哥的挑衅,Siri懵逼了(也可能只是怂了。图片来源:Apple深蓝:下棋无人能敌,但只限下棋1997年,IBM制造的国际象棋机器“深蓝”战胜了当时的国际象棋世界冠军卡斯帕罗夫。这在人工智能历史上是一个标志**件。但是,虽然深蓝战胜了世界冠军,它有和Siri一样的缺点:太专了。作为程序,深蓝的软件是专门为国际象棋设计的。它评估盘面的四项标准包括子力、棋子位置、王的安全性还有布局节奏——显然,这些指标完全依赖于国际象棋本身的规则,没有任何扩展性。卡斯帕罗夫对战“深蓝”的场景。图片来源:muse.jhu.edu即便如此,它也还是非常依赖于“蛮力”的。深蓝的硬件是当年最快的下棋机器,虽然有系统帮助筛选,它每秒依然要评估20亿个可能局面。为了应对这一需求,IBM当时为它开发了定制的硬件。其结果就是,与其说它是一个国际象棋程序,不如说是一台国际象棋机器。深蓝只能下国际象棋,学不会围棋,连简单的五子棋也学不会。相比之下,作为人类的卡斯帕罗夫能学围棋,能学五子棋,还能学画画。深蓝的技术就像一把专门为国际象棋设计的钥匙,有很大局限。自动驾驶汽车:迈出新方向自动驾驶汽车的原理可以简化为以下几步:首先它通过感应器了解周围环境,就像司机使用眼睛观察周围情况;然后通过联网获得道路的路线情况,就像我们开车时候使用导航软件;再然后计算机程序判断附近行人,汽车会如何运动;最终计算自己最佳的线路,按着这条线路控制汽车的速度和方向。Google的自动驾驶汽车。图片来源:Google它特定于自动驾驶领域,但是基本思想和AlphaGo已经有些接近了。IBM Watson:泛用的智能2011年,IBM Watson在美国的真人答题节目Jeopardy!上击败了人类选手,它的技术理念更像AlphaGo。Watson的决策由四个步骤组成:首先是观察,从环境中收集数据,然后对数据做出假设,再然后是评估这些假设,最后是做出决定。不过也有些和AlphaGo不同的地方,首先它被设计成一个问答机器,其次训练Watson的时候需要人类专家的参与——比如关于癌症的问题,需要科学家们在海量的书籍论文中剔除过时的信息、错误的信息,把整理出的资料喂给机器。但至少,它能处理许多领域的能力,让它比它的同行们具有强得多的扩展可能:现在Watson已经被用于医疗领域了。IBM Watson的logo. 图片来源:IBM那么,AlphaGo的技术思想是什么呢?Deepmind创建AlphaGo,是试图通过增强学习技术(Reinforcement learning)构建通用的人工智能。它的理念中包含两个实体,一个是人工智能本身,一个是它所处的环境。人工智能和环境间的关系有两种,一种是通过传感器感知数据,另外一种是通过特定动作影响环境。因为环境的复杂性,它无法获得所有的信息,因此需要不断重复感知-反应的循环,以期望能在环境中有最大收益。绝大多数哺乳动物,包括人在内都符合这套规则。增强学习技术不断地感知和反馈环境中的信息。图片来源:Google在AlphaGo之前,他们已经利用这种思想,让AI打游戏。2015年,在《自然》杂志上发表的一篇论文,描述了如何让一个算法玩不同的Atari程序,包括了《太空侵略者》和《打砖块》等游戏。AI和人一样看游戏视频,和人一样操作游戏,从游戏小白慢慢学习,变成游戏专家。AlphaGo也基于同样的原理,模拟人学习围棋的方法,它和人一样下棋,慢慢学会如何像专家一样思考。这种技术理念所要求的是原始的数据,因此比起那些需要输入人工整理后的数据的方法有更强的通用性。原则上AlphaGo去学个围棋,五子棋都不是问题。AlphaGo的技术首先被用于游戏的原因是因为,游戏比现实问题简单很多,无论是棋类游戏还是电脑游戏。游戏也很可能是类似技术第一个投入实用的领域:毕竟,随着游戏技术的发展,游戏开发者们逐渐意识到了好的AI和逼真的图像同样重要,不管是即时战略游戏,比如《星际争霸》还是角色扮演游戏中的NPC,高级人工智能不仅能成为强有力的对手,也可以变成优秀的团队伙伴。但是,它最强之处当然是适应力和学习力。Deepmind声称,这种技术理念很快会被运用到医疗领域,尝试解决个性化医疗的问题。而这,肯定只是第一步。
关于AlphaGo的一些错误说法
最近看了一些关于alphago围棋对弈的一些人工智能的文章,尤其是美国人工智能方面教授的文章,发现此前媒体宣传的东西几乎都是错的,都是夸大了alpha狗。我做了一个阅读心得摘要。
首先是对媒体错误宣传的更正:
1.alphago可以说里程碑式开创了历史,但是他并没有作出任何非常创新的技术,而deep mind只是将早已经存在的一些人工智能技术(尤其是机器辨认图片技术运用到下棋上)之前没有人想过能这样做,这种尝试是一种创新。
2.alphago并没有真正的棋感,实际也不懂得思考并作出策略,围棋解说把alphago当人来看待是错误的。alpha只是不停问自己我下这一步我胜率提高多少。
3.alphago并没有强大学习能力,达到现在棋力是基于接近1亿次棋局的模仿和推测出来的,一开始alphago只学习了16万棋局时它的棋力很弱。他不但比人学习效率差而且比马戏团的动物学习效率更差。所以说跟李对局每一局都在进步是不可能的,一局的经验对alpha go没什么影响。
4.alphago其实也是基于蛮力穷举下法,只不过运用新的机器学习方法。穷举法和机器学习不矛盾
5.之前看到文章说alpha速度没深蓝快,其实alpha是深蓝的5万倍。今天用的iPhone6s计算能力都是深蓝的几十倍。
6.说人脑计算速度慢是错误的,和计算机计算速度相对应的应该是人脑神经元计算速度,保守估计人脑计算速度是每秒1000万亿次,计算能力是深蓝的10万倍。
7.alpha并不是完全学习的,首先底层需要人编程围棋规则,其次基础的下期原则也是人为输入的
简单总结一下阅读心得:首先包括alpha围棋程序和深蓝的象棋都是蛮力搜索法。也就是
1.考虑所有未来可能变化,
2.计算走法未来多少步的胜率,
3.选择走法。但是围棋每走一步比国际象棋变化更大,步数更多,可能变化种类超过宇宙原子总和。其实这对于象棋也是如此。深蓝雇佣大量职业象棋选手设定一个积分法,比如一个兵值多少分,吃对手一个车胜率提升多少,这个评分体系很准确,深蓝思考范围被压缩成十几步。
但是围棋无法如此评估,之前围棋程序是简单的人手输入,见到什么情况如何走,所以很死板。这些程序棋力大概是400。
2006年一种叫做蒙特卡洛树的搜索法被发明,它使用概率模拟方法(类似模拟投掷**)只需要判断终盘胜负,弥补了围棋不能设定确定走法函数的**。(alpha go也是使用蒙特卡洛树方法)但是这方法要展开到终盘计算量太大,所以需要让围棋专家协助制定行棋规则,减少计算量。此方法可使人工智能棋力提升到业余5段。
但是十年来电脑棋力进展令人悲观,直到alphago。它在此基础上引入深度人工网络。神经网络已经发明50年,适合编写一些不直观因果关系的事物,并且软件可以自主学习调整。但是编程太难,加上以前计算能力问题一直不受重视。
6年前开始,技术上能达到10层神经元,神经网络开始兴起。结合大数据和云计算技术,神经网络开始吃香。图像处理和人脸识别这类程序很难直观的由编程员编程,神经网络在此有用武之地,其中深度卷积网络技术称霸。alpha狗团队创新之处在于意识到可以将图像识别的这项技术用于下棋。alpha狗团队将神经网络升级到13层,预测人类棋手走法。
首先它学习了围棋对战平台的3千万业余高段位的对局记录,作为让alpha狗猜人类走法的正确答案。也就是说alpha一开始是在模仿业余高手平均玩法。同时团队人工输入围棋知识。alpha是神经网络加手工编程混合物。
这个预测人类玩法被叫做策略网络,此时alpha叫做rp版。根据alpha狗团队的论文把策略网络加入业余3段棋力的围棋程序,其棋力能达到业余6段。棋力提高950分达到2600(棋力分每相差230分双方5局三胜比赛的胜率为高分者95%胜率)此时alpha已经成为世界最强围棋程序。
为了减少计算量,alpha狗使用一个叫价值网络的深层卷积网络作为评估函数,使用alpha的预测结果和实际展开结果的平均值作为胜率参考信息。加入此功能的alpha狗叫做完整版。其棋力提高了450分。达到3100。
(大家要知道棋力相差500的选手之间,棋力低者想赢一盘棋都很难的,相差1000的话,棋力低者胜率几乎为0)
首先刚刚入门只懂得规则的玩家棋力是0。
手写下棋规则类围棋程序的棋力大概是400多。也就是程序是当对手下什么子,程序应该怎么走,这种纯靠手工编程软件的棋力。
业余棋手最低级别(1段)的棋力是1000左右。
加入神经网络的alpha go棋力是1500。相当于业余4段。此时的aloha go也是程序规则软件,只不过靠神经网络训练加入围棋知识而已。
r版alpha go棋力1700。相当于业余5段。此时alpha go加入蒙特卡洛树搜索功能,但是主要靠手写程序为基础。
和r版alpha go类似的程序zen棋力是2200。相当于业余7段。
rp版的alpha go棋力是2700。和r版相比rp版的改进是在手工编程最基础的围棋策略基础上,加入“策略网络”该功能是一个预测对手落子位置的神经网络。因此alpha go棋力大增接近1000棋力。已经成为世界最强围棋软件。这个棋力大概是最低级别的职业选手(职业1段)的棋力。
2015年下半年被alpha go横扫的欧洲冠军樊麾的棋力是2900左右。相当于职业2段和3段之间水平。
完整版alpha go的棋力是3100多(2015年底时)。这个版本alpha go比之前增加了一个“价值网络”的深层卷积网络DCNN。他可以在不将牌局演算到终局就评估出双方胜率也就是上一篇文章所说的大幅度减化了计算。这种技术本来是用在识别图像技术上的。
此时李世石棋力是3500多。相当于超出最高段位(职业9段)水平。
柯洁的棋力是3600左右。
其实宣布挑战李世石时alpha go棋力落后李400左右。它是通过自己和自己大量对局来提升棋力的。(战胜樊麾时它是通过观摩人类业余高段位对战历史数据学习,为了击败更强对手只能向更高技术的选手学习,就是自己了)。在不断对局中程序棋力不断提高,而提高的棋力自我对阵时产生更高水平的下棋数据。
虽然凌哥没看到战胜李世石时alpha go的棋力但是我简单算一下推测出2016年3月战胜李时alpha go棋力大概是3800左右。(因为差230分五局三胜95%胜率可以推算单局胜率80%再低一些。李是3530左右棋力)所以当时柯洁已经不是alpha go的对手了。
现在alpha go挑战各位围棋高手60连胜(唯一一次平局是人类棋手掉线)至于现在棋力应该是没办法评估吧。因为一场都不输的话根本不知道棋力是多少。按照棋力计算方法应该是棋力无限大了,也就是七龙珠漫画里面的战斗力爆表了。至少输一场才能估算出其实际棋力。
其他:
说到alpha没有期感,和人类下棋不一样。只要是因为人类学习下棋,是通过总结棋局规则和下法,分析因果关系和其中逻辑关系的,而alpha go只是推算走这一步它的胜率提高多少(这方面和深蓝没区别只是评估方式不同)它并不是真的有智慧懂得各种谋略。
alpha go学习方式只是像训练动物一样。走对了给予奖赏鼓励以后以更高概率走这步,走错了就惩罚。而且这个效率很低,其实它的高水平是通过每天学习普通职业选手一辈子也不止的时间来学习下棋得来的。
而且这个学习过程“没有高层思维和概念”,只是一个搜索过程。
上文说道alpha go学习效率很低。因为alpha go学习了3000万盘棋局时面对新局面应变能力很差,分析发现这些棋局很多都是冗余的只相当于16万棋局。而几十万局棋对训练alpha go是不够的,它需要千万级别的棋局训练。所以电视里职业棋手解说说alpha go在每局都从李世石身上学到新技能是不可能的,一两局对alpha go是没用的。而李世石反而是从alpha go身上学到东西利用创新下法战胜alpha go。人类这种能力是人工智能不具备的。
人工智能专家认为现在人工智能其实并不是真正的智能。alpha go只是下棋能力强的软件,IBM的沃森只是智力答题能力强的机器。真正的人工智能是让一个白板人工智能机器见到围棋,自己学习下棋规则,自己通过推理推断怎么下棋。(现在的alpha go的围棋规则和基础下棋策略都是人手编程的)deep mind致力于开发真正的人工智能程序。近期目标是玩几百种游戏都能战胜人类。这是向真正人工智能迈步。
如何评价alphago自我对弈的50盘棋
Alpha go 的自我对弈棋局无疑需要认真研究,这里面体现了人工智能在基于宏观判断和严谨计算后的成果。目前来看,棋局中很多选点(包括脱先)都很难理解,一般人也很难模仿。我想,主要原因之一就是,人类大脑对于棋局后续发展的计算能力不够。或许,经过认真分析,我们会改变以往已经形成的一些错误思维模式,使人类对弈得到突破!顺便说一句,现在讲棋是越来越难了,AI告诉我们,没有什么不可能,哈哈!
AlphaGo Zero两眼活棋,劫争的解决办法,是它自己探索出来的吗
输入基本规则,19路棋盘,黑先黑白轮流走,子无气提出,棋子不可移动,遇劫争禁止立即提回,黑185子胜,禁止全局同型再现。任何人类总结的知识,都不输入,打劫是规则,但是怎么打劫,程序自己探索。两眼活棋不是规则,只是活棋的方式之一,怎样活棋程序自己探索。
Alphago和另一个Alphago下围棋的话,会是一种什么样的局面
alphago训练的过程就是不停的自己和自己下。谷歌已经公布了50局alphago自战对局,基本上两个特点:一是当前贴目规则下,白棋胜率明显高。二是下棋过程中,很多招法,现在棋手不太能理解。
更多文章:

联想a660最新消息(联想a660怎么样啊 有人用过吗价格贵不贵)
2023年9月20日 10:00

松下x700手机(各位同仁:我的松下X700不知道为什么进不了彩信的设置菜单了)
2024年11月20日 07:10

技嘉b75m主板怎么样(技嘉GA-B75M-D3V主板怎么样)
2025年4月5日 16:42

win10整理磁盘碎片的步骤(win10怎么清理磁盘碎片整理)
2025年4月2日 12:45

三星28寸4k显示器(三星28寸4k550显示器没有音箱吗怎么连接音箱)
2023年3月7日 07:20

nova3i可以升级鸿蒙系统吗(nova3可以升级鸿蒙系统吗)
2024年10月13日 08:10

联想e73报价(联想ThinkCentre E73(10C0007SCW)价格:2850和联想ThinkCentr)
2024年6月8日 06:10