AI 人工智能新闻资讯: AlphaGo Zero「无师自通」背后的伟大与局限

2017年10月21日星期六

AlphaGo Zero「无师自通」背后的伟大与局限 | 旷视孙剑解读

整理 | 安木

当你被 AlphaGo Zero 刷屏的时候，你是对人类的创造力产生自豪，还是对人类的未来感到担忧？

10 月 20 日，旷视科技（Face++）首席科学家孙剑博士接受了多家媒体的群访，同时对 AlphaGo Zero 的技术升级做了相关阐释。

「伟大」和「局限」是这次群访的关键词。在孙剑看来，AlphaGo Zero 的技术提升足够伟大，但在技术转换落地过程中却有着众多局限。在未来很长一段时间内，围绕大数据的训练模式和有监督的学习方法仍是主流深度学习技术应用的必需方式。

以下是沟通会的主要内容：

AlphaGo Zero 是不是真的无师自通？

说它「无师自通」，其实既对也不对，主要看怎么定义。

狭义的无师自通是针对于之前的系统而言的，因为 AlphaGo Zero 把人类教棋谱的过程去掉了。这个意义上来说，确实是第一次做到无师自通。这也为什么 AlphaGo Zero 大家这么关注的原因。

但是如果严格定义无师自通，从「有没有监督」这个角度来分析，AlphaGo 的学习过程还是有监督的。只不过增强学习是非常弱的监督形式，这意味着模拟下棋的过程不用看棋谱，而是看棋局的规则，同时最后输赢的信号也是监督的形式。从这个意义上说，它不是百分之百的无师自通，而是通过一种非常弱监督的增强学习完成的。

基于 AlphaGo Zero 的增强学习算法，它到底能做什么，不能做什么？

其实围棋有着一定的特殊性，因为在围棋规则内所有信号全部是可以观测的，但像打麻将或者博弈这样的游戏，对手是不能观测的。最重要的一点是，通过一个模拟器，围棋可以通过计算机的方式很快下完。这个模拟过程非常短，可能两三百步就做完了，非常高效。模拟结束后，中间所有的结构可以输出来，赢和输的信号很快就可以确定，所以这是一个非常强的假设。

但真实世界的情况没有那么容易。虽然说增强学习可以用来研究新药品，但是从结构搜索到制成药品，再到检验药品是否有效，这个闭环的代价十分昂贵，而且过程缓慢，你很难像下围棋这么简单做出来。

再举个例子，增强学习也可以应用于金融股票股价预测。这里非常好的匹配场景，但这还是有些不同。在围棋中，你每次下一个子都会对对方的布局有影响，但在股票市场，如果你的基金量小，可能对市场没有太大影响。你可以通过观测结果，做下一步的决策，但这也不可能非常快速模拟真实。你也可以拟合历史，分析基金量对市场的影响，但这个更难模拟。在真实世界需要预警，但这个很难收集到海量的数据。

从技术角度，为什么看重 AlphaGo Zero？

我们做研究追求极简，去除复杂。DeepMind 的论文最吸引人的地方就是它从之前到现在基本上是在做减法。

比如说很多搜索过程非常简化，把以前系统设计的两个网络合并成一个网络。这次的系统使用了深度残差网络，它对输入做简化。像以前需要人工输入分析黑白子的布局，这次可以相当于对着棋盘拍照片，把照片送给神经网络，让神经网络看着棋盘照片做决策，这个过程非常简单优美。

当然最简单的是，它抛弃了从人类棋谱进行学习的过程。系统刚开始基本上随便乱下，如果两个 AlphaGo Zero 刚开始对弈的话，基本上是随便下子，和人类下棋不一样。但是随着快速的收敛，一两天后它下得就像模像样，在两三天后就已经有了人类下棋的能力，这是整个系统的概况。

AlphaGo Zero 的系统里面有两个核心技术，一个是拟合搜索，一个是深度残差简易神经网络，两者通过非常简单优美的结合就做好了。其中的搜索方法是一个定制的高级版，适应于这个特定的问题，也是研发过程迭代了很多周期。

第二个核心技术，他们用了一个深度最深可以达到 80 的一个深度残差卷积神经网络，这个网络在学术上英文名词叫 ResNet。以前深度学习网络大概十层、二十层到头了，但是用残差网络就很好地解决了深度学习深度网络训练的问题，网络的深度从十几二十层在 2015 年被推到了 152 层。

下棋的背后是一个非常复杂的函数，越深的学习网络，越有更强大的威力来拟合这样的函数。残差学习的方法极大程度的解决了优化问题，这也是世界上第一个上百层的网络。

从应用角度，AlphaGo Zero 能够带来什么改变？

AlphaGo 无师自通的系统能不能解决所有问题？刚才我说了一些什么是可以学，什么不可以学。我再举个例子，比如我们公司做的人脸识别、图象识别，这些是不是完全不需要大数据就可以做，不需要监督数据就可以做？就目前看来，答案是否定的。

如果你去教机器去识别人脸，目前还不能找到一个完成这个目标的增强学习的方法，还是需要人来教。

对于人类来说，识别人脸是基本的能力。这是人在通过千年万年演化出来的一种生存能力，这是一个人后天学到的能力。要把这种能力赋予机器，还是需要人的监督信号，包括我们今天对人工智能做的很多事情，都要学习一些人类后天积累出来的能力。

不管是现在还是未来，这些任务还是需要海量的数据和更多信号。目前看来，在这些研究和商业应用中，监督学习依然是占主流的。

以下是媒体群访环节的问答整理：

AlphaGo Zero 这样的系统对硬件会带来什么样的影响？这方面的需求会减少还是增加？

整个系统对硬件的要求是下降的，因为算法提高了非常多。前一代 AlphaGo 系统需要训练很多长时间才可以做好，新的 AlphaGo Zero 是在一台机器上，由 Google 的 TPU 来完成的。这个其实也是给大家一个信号，这样的芯片会非常强。目前业界不光是 Google，包括很多家都在研究这样的深度神经网络加速芯片。

还可以看到业界的发展趋势是，越来越多的智能计算会切入手机设备，比如像华为的 Mate10，里面已经有内置的神经网络加速芯片，包括苹果或者越来越多的手机，都会有这样的能力，这个是对业界影响非常大的。

DeepMind 的论文里提到，这一项新的技术可以用于解决蛋白质折叠和新型材料开发等问题。那么，在新型材料开发的这些领域当中，会带来哪些新的可能？

首先我不是这方面的专家，到底怎么把这些信息应用到新材料开发中，我不能做非常准确的判断。在新材料开发过程中，最重要是你实验一下这个新材料，快速地检验它是否成功。如果你可以缩短检测周期，这个技术就可以应用了，如果这个周期不能缩短太多，或者缩短周期的成本很大，用这个技术也是不太现实的，这是我对这个问题的回答。

在一些模式越来越具体的情况下，人类对于大数据的依赖程度会不会减弱？

大数据分有监督和无监督，对于有监督的大数据的依赖会慢慢地减弱，但是对于无监督的大数据，我们需要越多越好。其实我们的感官就是各种传感器，在学习跑步的时候，听觉、感知平衡、眼睛都会感知周围的道路。其实这里面也包含了一些隐含监督信号，这与人工监督信号是两个概念。我们现在的研究都希望把人工监督信号降低。这是最新研究的一个热点，大家也做了各种各样的尝试。隐含监督信号可能是突破人工智能真正的方向。这个是我简单的一个看法。

如果基于 AlphaGo Zero 加入了残差神经网络这样一个整体学习方式，它可不可以自己产出一些好一点的数据？

现在已经在自己产生数据，它随机下棋的过程中会判断输赢，根据输赢的准则来调整神经网络里的参数，慢慢训练到后面就不是随机下棋了。所有过程中产生的棋局，都被它拿去训练了。可以说它是自我博弈与自我产生数据的，拿数据训练神经网络。

对于计算机视觉而言，AlphaGo Zero 的思路会不会有一些参考意义？

目前这对我们信心上有很大的鼓舞，但是在实际落地上还没有明确的思路，因为两个问题差别还蛮大的。我们人脸识别的大多数问题，都不可以像下棋一样被简单地描述。

我们自己研究院也做了一些无监督学习的探索。不过这与 AlphaGo 还是有差别的，我们现在用这个东西产生数据的方法，恐怕还只是辅助现在的监督学习，并没有说能够主导监督学习，或者整个学习过程。