揭秘 | 谷歌DeepMind的来历及核心技术之深度强化学习

文章摘要:谷歌的Alpha Go人工智能围棋程序基于DeepMind技术,而DeepMind技术着重于深度学习和强化学习,并且能够使得机器实现自主学习。

近几日人工智能非常热闹,谷歌的Deep Mind人工智能团队在世界权威科学学术杂志《Nature》刊登论文,宣布旗下的Alpha Go人工智能围棋程序击败了欧洲冠军职业围棋二段樊麾(樊麾出生于中国,目前是法国国家围棋队总教练,已连续三年夺得欧洲围棋冠军)。其实,Alpha Go人工智能围棋程序也击败了目前同类优秀的围棋程序中99.8%的对手。

谷歌的Alpha Go人工智能围棋程序基于DeepMind技术,而DeepMind技术着重于深度学习和强化学习,并且能够使得机器实现自主谷歌的Alpha Go人工智能围棋程序基于DeepMind技术,而DeepMind技术着重于深度学习和强化学习,并且能够使得机器实现自主学习。学习。DeepMind并不是谷歌自己创建的,而是,其联合创始人Larry在2014年初以4亿美元收购的一家英国人工智能公司所创建的。DeepMind的创始人是Demis Hassabis,这可是一位计算机天才,但是,很少有人听说过 DeepMind和这位天才。直到现在网上疯炒的各家媒体,依然还是展望人工智能的前景,很少有报道这位天才以及这家公司,也难怪,这真是一家非常低调的公司。

另外,DeepMind 的投资人之一可是大名鼎鼎的 Elon Musk,就是 Tesla 和 Space X的老板,这位牛人向 DeepMind 投资了 650 万美元。谷歌收购的过程也非常有趣,其联合创始人Larry在飞机上听说了这个公司,非常感兴趣。恰巧,Facebook的创始人Mark Zuckerberg也同时对这个小公司产生了兴趣。所以,谷歌收购的过程很漫长,不过最终还是早出手的Larry胜出,这点让Zuckerberg如今仍耿耿于怀。

再来看看DeepMind 的核心技术。现在街头巷尾都在谈论的机器学习,其实这是一个非常宽泛的概念,而其中最酷的分支要算是深度学习(Deeplearning)和强化学习(Reinforcement learning)。深度学习说过多次了,可以参考声学在线以前的文章。强化学习,其实就是一个连续决策的过程,其特点是不给任何数据做标注,仅仅提供一个回报函数,这个回报函数决定当前状态得到什么样的结果(比如“好”还是“坏”), 从数学本质上来看,还是一个马尔科夫决策过程。强化学习最终目的是让决策过程中整体的回报函数期望最优。谷歌的DeepMind就将深度学习和强化学习两者的精髓合二为一,提出了深度强化学习。2014年,这个团队就在《自然》杂志发表了Human-level control through deep reinforcement learning的论文,让业界对此充满了期待。

下面,再来看看其应用。通过所谓的类似人脑网状结构的神经网络,深度学习可以解决很多很实际的问题。例如谷歌的图像搜索,Facebook的人脸识别,Skype的实时翻译以及Twitter的色情语言识别。强化学习则将深度学习又往前推进了一步,一旦你建立起了一个玩游戏的深度学习网络,你可以通过强化学习,让它和自己进行比赛,自我进化。Alpha Go使用了两种不同的神经网络,一种是策略网络(Policy network),用来预测下一步;另外一种是价值网络(value network),用来预测不同期望的分布带来什么样不同的结果。Alpha Go的核心是把原先非常复杂的搜索树,减少到可以操作的规模。它的搜索深度并不是特别深,这种方法让Alpha Go比以前的方法更像人类。

牛津大学教授尼克·博斯特伦(Nick Bostrom)因近期他的一本著名畅销书《超级智能:路径、危险与策略》(Superintelligence: Paths, Dangers, Strategies)而声名鹊起。他在书中阐述了人工智能对于人类生活的好处,并且提出人工智能将比核武器更加危险。原因不仅是人类可能会误用人工智能,更重要的是人工智能有朝一日可能会发展到人类无法控制的地步。同时,他警示一个真正的人工智能将加速人类的灭绝。对于谷歌的Alpha Go,博斯特伦认为,谷歌已经在这个领域深耕多年,Alpha Go目前所取得的成绩,仅仅是今后人工智能大戏的一个小小的开始,这场大戏将持续很长一段时间。

此前,科学家们曾经认为人工智能要想在围棋领域获得突破,至少需要十年以上的时间。1997年IBM的深蓝打败了国际象棋的世界冠军Garry Kasparov,这成为了人工智能的一座里程碑。然而,围棋比国际象棋还复杂得多。在Alpha Go取得这场胜利之前,许多AI专家都认为计算机不能够打败围棋高手。围棋AI长期以来举步维艰,顶级的AI甚至不能打败一些业余选手。 在国际象棋中,平均每一个回合有35种可能,一盘棋有80个回合,而围棋每回合则有250种可能,一盘棋可以有150回合。这个巨大的数目足以使得任何想通过穷举遍历来致胜的AI方法都望而却步。而Alpha Go的这一胜利,将成为人工智能发展领域的另外一个里程碑。

谷歌的这项成果奖这个人工智能进程推到了让人难以置信的速度。而且,目前在像谷歌这样巨头的优势资源的加速下,这个速度将越发令人难以想象。谷歌的这项成果对其他公司的冲击,从Facebook创始人Zuckerberg一些敏感的反应中可以看出一二。

谷歌的胜利宣言是以论文的形式发表在《Nature》上的,而由于有共享保密协定,Facebook的员工在两天前已经得知了这一消息。就在谷歌发表声明的前一天晚上,Facebook的AI研究人员则发表了全新的围棋研究报告,表明在过去的6个月里,Facebook在围棋人工智能领域已经可以让计算机以最快0.1秒的速度来落子。扎克伯格还表示,负责该项目的研究人员Yuandong Tian就坐在离他20英尺远的地方(这里透露一个有趣的小秘密,在Facebook,项目的重要性取决于项目的核心人员里扎克伯格有多近)。

此外,微软,Twitter, ElonMusk等其他很多的公司,也都在AI方面持续巨量投入。在这场AI竞赛中,巨头们都展示出了很大的兴趣,这其中的关键并不仅仅是展示所取得的成就,更重要的是吸引AI的高端人才。深度学习初创公司Skymind的CEO克瑞斯表示:像AlphaGo所展示的围棋类的人工智能,可以用来解决任何需要决策的问题。例如金融交易、战争等等。

今年三月,Alpha Go将挑战世界顶级围棋高手李世石。樊麾的世界排名是633名,而李世石的排名是第5名。许多专家认为Alpha Go将赢得这场重量级的比赛。如果的确如此,那么AI爆发是否就此拉开序幕,让我们拭目以待!

AI锐见原创,作者:Rebuild.AI,转载请注明出处:http://www.rebuild.ai/2016/05/31/%e6%8f%ad%e7%a7%98-%e8%b0%b7%e6%ad%8cdeepmind%e7%9a%84%e6%9d%a5%e5%8e%86%e5%8f%8a%e6%a0%b8%e5%bf%83%e6%8a%80%e6%9c%af%e4%b9%8b%e6%b7%b1%e5%ba%a6%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0/

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

资讯|苹果或许今年推出Siri智能音箱,与亚马逊Echo与谷歌Home争夺入口

下一篇

开源 | 语音识别商用开源代码与免费开放平台最全盘点分析

微信公众号

微信公众号