AI 人工智能新闻资讯

2018年5月4日星期五

连发Science、Nature Physics：谷歌展示量子霸权实现蓝图

量子计算结合了过去半个世纪以来两个最大的技术变革：信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算，某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界，是在通向更强大和有用的计算技术的关键一步。

在 4 月底 Nature Physics 上发表的文章《Characterizing quantum supremacy in near-term devices》中，谷歌介绍了在近期设备中实际展示量子霸权的理论基础。它提出了从随机量子线路的输出中采样比特串的任务，可被看成是量子计算的「hello world」程序。争论的结果是，随机混沌系统（参见「蝴蝶效应」）运行的时间越长，这些系统输出变得难以预测的速度就越快。构建一个随机、混沌的量子比特系统，并测试经典系统模拟前者所需的时间，就可以获得量子计算机何时超越经典计算机的良好度量。可以说，这是证明经典和量子计算机之间的计算能力的指数式分离（exponential separation）的最强理论方案。

在随机量子线路中确定量子霸权边界迅速成为了一个令人激动的研究领域。一方面，通过优化经典算法来模拟量子线路的方案的目的是增加要达到量子霸权的量子线路的规模。这迫使实验的量子设备需要足够多的量子比特数、足够低的误差率来实现足够深度（即线路中量子门的层数）的线路，才能达到量子霸权。另一方面，我们现在更加理解用于构建随机量子线路的量子门的特定选择如何影响模拟成本，从而得到近期的量子霸权的优化基准（https://github.com/sboixo/GRCS），在某些情况下用经典计算机模拟的成本是该方案成本的二次方。

从随机量子线路采样是量子计算机的优秀校正基准，称为交叉熵基准测试。成功地利用随机线路的量子霸权实验将能展示大规模容错量子计算机的基础构建模块。此外，量子物理学中目前仍未测试过如此高度复杂的量子态。

量子电路计算的空间时间体积。量子模拟的计算成本随着量子电路体积的增加而增加，并且通常随着量子比特数量和电路深度的增加而呈指数增长。在量子比特的非对称网格中，计算空间-时间体积随深度的增长速度比对称网格慢，随电路呈现的指数级增长也更容易模拟。

在最近的 Science 文章《A blueprint for demonstrating quantum supremacy with superconducting qubits》中，来自 UCSB、谷歌、NASA 等研究机构的学者们展示了实现量子霸权的蓝图，并首次通过实验演示了其原理证明过程。本文讨论了量子霸权的两个关键因素：指数复杂性和精确计算。研究者首先在装置的 5~9 个量子比特的子部分上运行算法，发现经典的模拟成本随着量子比特数的增加呈指数增长。这些结果旨在提供这些装置指数幂的清晰示例。接下来，他们使用交叉熵基准来比较该结果与普通计算机的结果，结果表明，他们的计算是高度精确的。事实上，如果使用较大的量子处理器，误差率可以低到实现量子霸权。

在实现量子霸权的更高层面，量子平台还应提供明确的应用。在本文中，谷歌将算法应用于使用复杂的多量子比特门（相对于为具有表面代码纠错算法的数字量子处理器设计的两量子比特门）的量子统计力学中的计算问题。结果表明，该装置可以用来研究材料的基本特性，例如金属和绝缘体之间的微观差异。通过将这些结果扩展到具有大约 50 个比特的下一代设备，谷歌希望能够解决任何其他计算平台都无法解决的科学问题。

Charles Neill 和 Pedram Roushan 开发的两个 gmon 超导量子比特及其可调耦合器。

两篇文章介绍了近期量子霸权的现实提议，并首次展示了其原则证明过程。谷歌将探索继续降低误差率，增加量子处理器中量子比特的数量，以实现量子霸权，并为短期实用的应用开发量子算法。

Nature Physics 论文：Characterizing quantum supremacy in near-term devices

论文链接：https://ift.tt/2HIKkPC

arXiv 链接：https://ift.tt/2fY249y

摘要：在近期内关于量子计算的一个关键问题是，没有误差校正的量子设备是否可以在执行良好定义的计算任务上超越超级计算机的能力。这样的展示被称为量子霸权，其需要对用经典方法求解的任务所需的资源进行可靠的评估。这里，我们提出了从随机量子线路的输出分布中采样的任务，作为量子霸权的展示。我们扩展了在计算复杂度上的之前的结果，以证明该采样任务在经典计算机中必然需要指数量级的时间复杂度。我们引入了交叉熵基准测试来获得复杂多比特动力学的实验保真度。其可被评估和推断来为量子霸权展示给出成功的指标。我们研究的相关经典算法的计算成本，并得出结论：量子霸权可以在 7×7 个量子比特和 40 个时钟周期的二维点阵线路上达到量子霸权。这需要两比特量子门的大约 0.5% 误差率（单比特量子门的 0.05% 误差率），并且它将展示容错量子计算机的基础构建模块。

Science 论文：A blueprint for demonstrating quantum supremacy with superconducting qubits

论文链接：https://ift.tt/2GYgQxO

arXiv 链接：https://ift.tt/2fDdTCL

量子信息科学家距离构建量子计算机的梦想越来越近，它可以执行经典计算机无法完成的计算。据估计，这样一台计算机将需要大约 50 个量子比特，但是将现有的体系结构扩展到这个数字是很困难的。Neill 等人尝试将量子比特的数量从 5 个增加到 9 个，探索这种做法对超导量子比特设备输出质量的影响。随着量子比特数量进一步增加，如果误差继续以相同的速率增加，则利用当前技术打造具有约 60 个量子比特和合理精确度的量子计算机将成为可能。

摘要：证明量子系统能够解决物理、化学难题的关键一步是进行超越任何经典计算机能力的计算，从而实现所谓的量子霸权。在这项研究中，我们使用了九个超导量子比特展示了一条通往量子霸权的可行路径。通过单独调整量子比特参数，我们能够生成数千个不同的 Hamiltonian 演化，并探测输出概率。所测量的概率服从一种普遍分布，与均匀采样整个 Hilbert 空间的结果一致。随着量子比特数量的增加，系统继续探索数量呈指数增长的状态。将这些结果扩展到一个具有 50 个量子比特的系统，有可能解决超出任何经典计算机能力的科学问题。

原文链接：https://ift.tt/2rlukZv

]]> 原文： https://ift.tt/2FKfPE2

机器知心

CVPR 2018 | 密歇根大学&谷歌提出TAL-Net：将Faster R-CNN泛化至视频动作定位中

对人类动作的视觉理解是构建辅助人工智能系统所需的核心能力。在传统的研究中，这个问题通常在动作分类的范畴内被研究 [46, 37, 30]，其目标是对一个按照时序剪辑的视频片段进行强制选择（forced-choice）分类，分类为若干动作类型中的一类。尽管人们在此领域的研究取得了累累硕果，但这种分类的设定是不现实的，因为现实世界中的视频通常是没有剪辑过的，而且我们感兴趣的行为通常也内嵌在与其不相关的活动背景中。最近的研究关注点已经逐渐向未剪辑视频中的时序动作定位转移 [24, 32, 47]，其任务不仅仅是识别动作的类别，还需要检测每个动作实例的开始和结束时间。时序动作定位的改进可以推动大量重要课题的发展，从提取体育运动视频中的精彩片段这样的即时应用，到更高级的任务，如自动视频字幕。

时序动作定位，和目标检测一样，都属于视觉检测问题的范畴。然而，目标检测旨在生成物体在二维图像中的空间边界框，时序动作定位则是要在一维的帧序列中生成时序片段。因此，许多动作定位的方法从目标检测技术的进展中得到启发。一个成功的例子是：基于区域的检测器的使用 [18, 17, 33]。这些方法首先从完整的图像中生成一个与类别无关的候选区域的集合，然后遍历这些候选区域，对其进行目标分类。要想检测动作，我们可以遵循这一范式，先从整个视频中生成候选片段，然后对每个候选片段进行分类。

在基于区域的检测器中，Faster R-CNN [33] 由于其在公开的对比基准上极具竞争力的检测精度，被广泛应用于目标检测。Faster R-CNN 的核心思想是利用深度神经网络（DNN）的巨大容量推动候选区域生成和目标检测这两个过程。考虑到它在图像目标检测方面的成功，将 Faster R-CNN 用到视频时序动作定位也引起了研究者极大的兴趣。然而，这种领域的转变也带来了一系列挑战。本论文作者回顾了 Faster R-CNN 在动作定位领域存在的问题，并重新设计了网络架构，来具体地解决问题。研究者重点关注以下几个方面：

1. 如何处理动作持续时间的巨大差异？与图像中物体的大小相比，动作的时间范围差别很大——从零点几秒到几分钟不等。但是，Faster R-CNN 根据共享的特征表示对不同规模的候选片段（即 anchor）进行评估，由于特征的时间范围（即感受野）和 anchor 跨度在对齐时存在偏差，因此 Faster R-CNN 可能无法捕获相关的信息。研究者提出使用 multi-tower 网络和扩张时序卷积（dilated temporal convolution）来执行此类对齐工作。

2. 如何利用时序上下文（temporal context）？动作实例之前和之后的时刻包含用于定位和分类的关键信息（可能比目标检测中的空间上下文更重要）。直接简单地将 Faster R-CNN 应用于时序动作定位可能无法利用时序上下文。研究者提出通过扩展生成候选片段和动作分类的感受野来显性地对时序上下文进行编码。

3. 如何最好地融合多流特征？当前最优的动作分类结果主要是通过融合 RGB 和基于光流的特征得到的。然而，探索将这样的特征融合应用到 Faster R-CNN 上的研究还十分有限。研究者提出了一个晚融合（late fusion，在分类结果上融合）方案，并且通过实验证明了它相对于常见的早融合（early fusion，在特征上融合）的优势。

本研究的贡献有两方面：（1）介绍了时序动作定位网络（TAL-Net），一种基于 Faster R-CNN 的视频动作定位新方法；（2）在 THUMOS』14 检测基准 [22] 中，本研究提出的模型在动作提名（action proposal）和定位上都取得了目前最好的性能，并且在 ActivityNet 数据集 [5] 上取得了具有竞争力的性能。

图 1：用于图像目标检测的 Faster R-CNN 架构 [33]（左图）和用于视频时序动作定位的 Faster R-CNN 架构 [15, 9, 16, 51]（右图）的对比。时序动作定位可以被看作是目标检测任务的一维版本。

Faster R-CNN

Faster R-CNN 最初的提出是为了解决目标检测问题 [33]，在给定一个输入图像时，Faster R-CNN 的目标是输出一组检测边界框，每一个边界框都带有一个目标类别标签。整个流程包括两个阶段：生成候选区域和分类。首先，输入图像经过二维卷积处理生成一个二维特征图。另一个二维卷积（即候选区域网络，Region Proposal Network）用于生成一组稀疏的类别无关的候选区域，这是通过对一组大小不同的、以特征图上的每个像素点为中心的锚点框进行分类来实现的。这些候选区域的边界也通过回归进行调整。之后，对于每个候选区域，区域内的特征首先被池化为一个固定大小的特征图（即 RoI 池化）。接着，DNN 分类器使用池化之后的特征计算目标类别的概率，同时为每个目标类别的检测边界进行回归。图 1（左）展示了完整的流程。该框架通常通过交替进行第一阶段和第二阶段的训练来完成训练工作 [33]。

Faster R-CNN 很自然地被拓展到时序动作定位领域 [15, 9, 51]。回想一下，目标检测的目的是检测二维空间区域。而在时序动作定位中，目标则是检测一维的时序片段，每个片段都以一个开始时间和一个结束时间来表示。时序动作定位因此可以被看作是目标检测的一维版本。图 1（右）展示了一个典型的 Faster RCNN 时序动作定位流程。与目标检测类似，它包含两个阶段。首先，给定一组帧序列，我们通常通过二维或者三维卷积网络提取出一个一维特征图。之后，将该特征图传输给一维卷积网络（指候选片段网络，Segment Proposal Network），在每个时间点上对一组大小不同的 anchor 片段进行分类，并且对边界进行回归。这将返回一组稀疏的类别无关的候选片段。接着，对于每个候选片段，我们计算动作类别的概率，并进一步对片段边界进行回归（修正）。在这一步，首先使用一维的 RoI 池化层（也称「SoI 池化」），接着使用 DNN 分类器来实现。

TAL-Net

TAL-Net 遵循了 Faster R-CNN 的检测模式，并用于时序动作定位（图 1 右），但有三种新的架构变化。

图 2：左图：在时序动作定位中，不同规模的 anchor 共享感受野的局限性。右图：本研究提出的的候选片段网络的 multi-tower 架构。每个 anchor 大小都有一个具备对齐后的感受野的相关网络。

图 3：使用扩张时序卷积控制感受野的大小 s。

图 4：在生成候选片段中纳入上下文特征。

图 5：不纳入上下文特征的候选片段分类（上图）[17, 33]，纳入上下文特征后的候选片段分类（下图）。

图 6：双流 Faster RCNN 框架的晚融合方案。

表 5：在 THUMOS'14 上的动作定位 mAP（%）。

论文：Rethinking the Faster R-CNN Architecture for Temporal Action Localization

论文链接：https://ift.tt/2HRGTqE

摘要：我们提出了 TAL-Net，一种用于视频时序动作定位的改进方法，它受到了 Faster R-CNN 目标检测框架的启发。TAL-Net 解决了现有方法存在的三个关键问题：（1）我们使用一个可适应动作持续时间剧烈变化的 multi-scale 架构来提高感受野的对齐程度；（2）通过适当扩展感受野，我们更好地利用动作的时序上下文，用于生成候选片段和动作分类；（3）我们显性地考虑了多流特征融合，并证明了动作晚融合的重要性。我们在 THUMOS'14 检测基准上取得了动作提名和定位目前最好的性能，并且在 ActivityNet 数据集上取得了很有竞争力的性能。

]]> 原文： https://ift.tt/2wgtIdq

机器知心

极致的优化：智能手机是如何处理大型神经网络的

电脑拥有大容量硬盘和强大的 CPU 与 GPU，但智能手机没有。为了弥补这些硬件上的不足，智能手机需要一些特殊手段才能高效地运行深度学习应用。

智能手机有办法与这些强大的服务器集群竞争吗？还是完全没有希望？

引言

深度学习是一种功能十分多样和强大的技术，但是运行神经网络对计算能力、能耗及磁盘空间要求甚高。这对于在具有大型硬盘和多个 GPU 的服务器上运行的云应用来说一般不是问题。

不幸的是，在移动设备上运行神经网络并非易事。事实上，尽管智能手机的功能越来越强大，它们的计算能力、电池寿命及可用的磁盘空间依然十分有限，特别是那些非常依赖轻便性的应用。把应用做得轻便可以加快下载速度，减少更新，并且延长电池寿命，而这些都是用户迫切需要的。

为了执行图像分类、人像模式摄影、文本预测以及其他几十项任务，智能手机需要使用特殊方法来快速、准确地运行神经网络，且不占用过多内存空间。

在这篇文章中，我们将会了解一些最有效的、能让神经网络在手机上实时运行的技术。

能使（神经）网络更小更快的技术

基本上来讲，我们只对三个指标感兴趣：模型的准确率、速度、在手机中占用的内存。天下没有免费的午餐，因此我们不得不在这些指标之间作出一些权衡。

对于大部分技术来说，我们一边要关注指标，一边还要寻找一个叫做「饱和点」（saturation point）的东西。达到这个点之后，利用其他指标的损失实现某个指标的增益将不再可行。在到达饱和点前保持优化值，可以在两个指标上取得最佳结果。

在这个例子中，我们可以在不增加误差的情况下显著减少代价昂贵的运算。但是，在超过饱和点之后，误差的严重程度高到不可接受。

记住这个方法，让我们开始吧！

1. 避免全连接层

全连接层是神经网络中最常见的部分，它们通常能发挥很大作用。然而，由于每一个神经元都和前一层的所有神经元相连接，因此它们需要存储和更新大量参数，这对速度和磁盘空间都很不利。

卷积层是利用输入（通常是图像）中局部一致性的层。每一个神经元不再与前一层的所有神经元相连。这有助于网络在保持高度准确性的同时减少连接/权重的数量。

全连接层的连接/权重数量要远远多于卷积层。

使用少连接或非全连接的层能缩小模型的体积，同时保持其高准确性。这种方法可以提高速度，同时减少磁盘使用量。

在上面提到的构造中，一个拥有 1024 个输入、 512 个输出的全连接层大约有 500k 个参数。而一个拥有相同特征以及 32 个特征图的卷积层只需要大约 50k 个参数。这是一个 10 倍的提升。

2. 减少通道数量与卷积核大小

这一步展现了在模型复杂度与速度之间作出的一个非常直接的权衡。拥有大量通道的卷积层能使网络提取相关信息，但也要付出相应的代价。剔除一些特征图是一个节约空间、加速模型的简单方法。

我们可以运用卷积运算的感受野来做同样的事情。通过缩小卷积核大小，卷积对局部模式的感知减少，但涉及的参数也减少了。

缩小感受野/卷积核大小可以降低计算成本，但是传递的信息会变少。

在这两种情况下，我们通过找到饱和点来选择特征图的数量/卷积核大小，以保证准确性不会下降太多。

3. 优化降采样

对于固定数量的层和固定数量的池化操作，神经网络可能会表现得天差地别。这是由于数据的表征以及计算量大小取决于这些池化操作于何处完成。

如果池化操作较早完成，数据的维数会减少。维数越少，网络的处理速度越快，但信息量会减少，准确性也会降低。
如果网络中的池化操作完成较晚，那么大部分信息会被保留下来，因此准确度高。然而这也意味着计算是在多维对象上完成的，这会导致计算成本的增加。
于神经网络中均匀布置降采样是一种行之有效的结构（https://arxiv.org/pdf/1710.02759.pdf），而且能在准确性与速度之间保持良好的平衡。这也是一种饱和点。

较早的池化速度快，延后的池化精确性高，均匀布置池化能兼具二者的一些优点。

4. 权重修剪

在一个经过训练的神经网络中，有些权重对于某个神经元单元的激活值至关重要，而其他的权重基本不影响结果。尽管如此，我们仍要对这些不那么重要的权重做一些计算。

修剪（pruning）是一个完全删除最小强度连接的过程，这样我们就可以跳过这些计算。这会降低准确性但是能让网络更快更精简。我们需要找出饱和点，然后在尽量不影响准确性的情况下删去尽可能多的连接。

删去最弱的连接来节省计算时间与空间。

5. 离散化权重

为了在磁盘中保存神经网络，我们需要记录网络中每一个权重的值。这意味着我们需要为每一个参数保存一个浮点数，同时也意味着大量磁盘空间的消耗。举例说明，在 C 中一个浮点数占据 4 个字节，即 32 位。一个有着上亿参数的网络（如 Google-Net 或 VGG-16）会轻易占据上百兆字节的空间，而这样的消耗在移动设备中是不可接受的。

为了尽量减小网络存储的量，一种方法是通过离散化权重来降低权重的精度。在这个过程当中，我们更改数字的表示使其不再表示具体值，而是限制其为数值的子集。这样我们只需要存储一次经过离散化的值，然后将它们映射到网络的权重上。

离散化权重存储索引而非浮点值。

我们再次需要通过找到饱和点来决定到底使用多少个值。使用更多数值意味着准确性的提高，但也意味着更大的表征空间。举个例子：如果使用 256 个经过离散化的值，每一个权重只需要使用 1 个字节（即 8 位）就能表示。相比之前（32 位），我们将其大小缩减了四倍！

6. 模型表征的编码

我们已经对权重作了许多处理，但是还能进一步改进网络！这个特殊技巧源于权重分布不均的事实。一旦权重被离散化，我们就会失去相同数量的对应每一个离散化值的权重。这意味着在我们的模型表征中，某些索引的出现频率相对更高，我们可以利用这一点！

哈夫曼编码（Huffman coding）能完美地解决这个问题。它通过给最常用的值分配最小索引以及给最不常用的值分配最大索引来解决这些问题。这有助于减小设备上模型的体积，最关键的是不会降低准确性。

访问次数最多的符号只使用 1 位的空间，而访问次数最少的符号使用 3 位的空间。这是因为后者在数据表示中出现的次数很少，并由此可以达到一种空间上的平衡。

这个简单的技巧使我们能够进一步缩小神经网络占用的空间，通常能减少 30％左右。

注意：每一层的离散化和编码可以是不同的，从而提供更大的灵活性。

修正准确率损失

通过我们使用的方法，神经网络已经十分精简了。我们删去了弱连接（修剪），甚至改变了一些权重（离散化）。在网络变得十分轻巧快速的同时，其准确率也不如以前了。

为了修正这一点，我们需要迭代地重新训练网络的每一步。这代表我们需要在修剪和离散化操作之后，再次训练网络使其可以拟合相应的变化，然后重复这一过程直到权重不再大幅变化为止。

结论

尽管智能手机没有优秀的台式机那样的磁盘空间、计算能力或者电池寿命，它们仍是深度学习应用程序的优秀实验对象。通过一系列方法，我们现在可以在这些多功能手持设备上运行强大的神经网络，准确性只是略有下降。这为数千个优秀的应用打开了大门。

如果有兴趣，你也可以了解一些面向移动设备的优秀神经网络，如 SqueezeNet（https://arxiv.org/abs/1602.07360）或 MobileNets（https://arxiv.org/abs/1704.04861）。

参考阅读：

原文链接：https://ift.tt/2HsafHQ

]]> 原文： https://ift.tt/2IfQJSt

机器知心

论强化学习和概率推断的等价性：一种全新概率模型

概率图模型（PGM）为机器学习研究者提供了一种广泛适用的工具（Koller 和 Friedman，2009）：该模型用概率理论表达整个学习问题，为原则目标的设计提供了一个一致、灵活的框架，建立了反映世界因果结构的模型，并允许针对广泛的问题领域部署一组通用的推理方法。事实上，如果一个特定的学习问题可以形式化为概率图模型，我们通常会将其作为解决问题的第一步，也是最重要的一步。关键的是，在 PGM 框架下，写下模型并提出问题就足够了，学习和推理的目标会自动涌现。

一般来讲，被形式化为强化学习或最优控制的决策问题会被投射到一个框架中，该框架旨在用效用或奖励来扩充概率模型，进而实现模型的泛化，其中奖励函数被视为外部信号。根据这种观点，确定最佳行动方案或最佳决策策略是一种与概率推理截然不同的问题，尽管潜在的动力系统仍然可以用概率图模型来描述。在本文中，我们提出了关于决策、强化学习和最优控制的另一种观点，其中决策问题只是特定类型图模型中的一种推理问题。将决策形式化为概率图模型中的推理，原则上可以使我们得以应用广泛的近似推理工具，以灵活而有力的方式对模型进行扩展，并对模型的组合性和部分可观测性进行推理。

具体来说，我们将讨论强化学习或最优控制问题（有时称为最大熵强化学习）的泛化如何等价于确定性动力学机制下的精确概率推理及随机动力学机制下的变分推断。所有这些方法都包括将控制或强化学习明确或隐含地表述为 PGM，然后部署来自 PGM 文献的学习和推理方法以解决由此产生的推理和学习问题。

将强化学习和决策形式化为推理可以创造出许多其他有吸引力的工具：基于熵最大化的自然探索策略、逆向强化学习的有效工具以及部署解决强化学习问题的强大的近似推理算法的能力。此外，概率推理和控制之间的联系为奖励函数的含义及其对最优策略的影响提供了一种有吸引力的概率解释。强化学习中奖励或成本函数的设计往往与科学一样艺术，奖励的选择往往模糊了算法与目标之间的界限，为任务定制的启发式算法和任务目标组合成单个奖励。在作为推理框架的控制中，奖励诱导随机变量的分布，最优策略的目标是明确匹配由奖励和系统动力学定义的概率分布，这可能为今后的工作提供一种系统化奖励设计的方法。

本文将提出一种概率模型，用于将控制或强化学习的最大熵泛化嵌入 PGM 框架中，描述如何在该模型（确切地说是在确定性动力学机制下，或随机动力学机制下的结构化变分推理）中进行推理，并讨论基于函数逼近的近似方法如何在该框架中拟合。虽然控制的特殊变分推理解释与以往的研究有所不同，但本文的目的并不是要提出一种从根本上看待控制与推理之间联系的新方法。更确切地说，本文是以独立和可访问的教程形式统一处理该主题，并将该框架与最近在强化学习方面的研究相联系，包括最近提出的深度强化学习算法。此外，本文还对近年来与控制作为概率推理的观点相关的强化学习文献进行了综述，并对未来的研究方向提出了一些看法。

在控制问题中利用图模型进行推断

在这一部分，我们将证明基础的图模型可以让我们在 PGM 框架中嵌入控制，并讨论该框架如何导出多种标准强化学习和动态编程方法的变体。这部分展示的 PGM 对应标准强化学习问题的泛化，其中 RL 目标函数增加了一个熵项。奖励函数的量在奖励最大化和熵最大化之间进行权衡，使原始强化学习可以由无限大奖励值极限导出。我们首先定义符号，然后定义图模型，再展示多种推断方法，并解释它们和强化学习、动态编程的标准算法的联系。最后，我们将讨论该方法的一些局限，启发第三部分的变分方法。

变分推断和随机性动力学

在随机性动力学的情况下，最大熵框架的根本困难（参见 2.3、2.4）在于假设智能体被允许同时控制它的动作和系统动态，以生成最优轨迹，但它对系统动态的控制权基于对真实动态的偏差而被惩罚。因此，等式（10）中的 log p(s_t+1|s_t, a_t) 项可以分离到等式之外，生成附加项，其对应的是后验动态 p(s_t+1|s_t, a_t,O1:T) 和真实动态 p(s_t+1|s_t, a_t) 之间的交叉熵。这解释了 2.3 节中讨论的该方法的追逐风险的本质：如果智能体被允许影响它的动态，即使很微弱，它也将合理地移除危险动作的发生可能性不大但却极端糟糕的输出。

当然，在实际的强化学习和控制问题中，这种对系统动态的操控是不可能的，并且得到的策略会导致灾难性的糟糕输出。我们可以通过修改推断过程修正这个问题。在这一部分中，我们将通过固定系统动态，写下对应的最大熵目标函数，来推导这种修正，并导出一个动态编程过程来对其进行优化。然后，我们将表明该过程可以应用到多种结构化变分推断中。

用函数逼近实现近似推断

在上一部分中，我们讨论了动态编程反向算法结合类似 Bellman backup 的更新过程，可以得到类似最大熵强化学习框架中的价值函数和 Q-函数，随机最优化策略可以由 Q-函数和价值函数得到。在这一部分中，我们将讨论高维或连续的强化学习问题的实用算法如何从这个理论框架中使用函数逼近推导出来。然后，我们能得到很多类似标准强化学习中概念的对应技术：策略梯度、actor-critic 算法和 Q-学习。

论文：Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

论文地址：https://ift.tt/2JMO8wv

摘要：强化学习或最优控制的框架为智能决策提供了数学形式，使其变得强大和应用广泛。虽然强化学习问题的一般形式可以有效地推理不确定性，但强化学习和概率模型推断的联系并不是很明显。然而，在算法设计中考虑这样的联系还是有价值的：在原则上将一个问题形式化为概率推断，使我们能应用多种近似推断工具，将模型以灵活、强大的方式进行扩展，并对组合性和部分可观测性进行推理。在本文中，我们将讨论强化学习或最优控制问题的一般形式（有时称为最大熵强化学习）如何与确定性动力学的概率推断等价，并与随机性动力学的变分推断等价。我们将展示该框架的细节推导，概述以前的相关研究和相关思想来提出新的强化学习和控制算法，并展望了未来的研究方向。

]]> 原文： https://ift.tt/2wdXCz5

机器知心

2018年5月3日星期四

CMU机器学习系主任Manuela Veloso加入摩根大通，华尔街金融巨头的AI投资

2017 年 5 月份，前微软人工智能首席科学家、IEEE Fellow 邓力离职，加盟华尔街对冲基金公司 Citadel。今日，又有一人工智能专家加入金融巨头：CMU 机器学习系主任 Manuela Veloso 加入摩根大通，担任人工智能研究院负责人。

摩根大通今日宣布卡耐基梅隆大学机器学习系主任 Manuela Veloso 博士加入摩根大通，担任人工智能研究院负责人。

此举正值金融业巨头竞相使用 AI 技术之际。AI 可被于欺诈检测和贷款审批等服务，提高内部运营效率。摩根大通已经在其业务中广泛应用机器学习技术。AI 已经是摩根大通 108 亿年度技术预算的一部分，其中超过一半的预算用于新投资。

密歇根大学计算机科学教授、为 USAA 等金融公司开发人工智能解决方案的 Clinc 公司 CEO Jason Mars 表示：「这些机构中的很多高层都已经开始重视人工智能和流程管理，这是一项应该大量投资的工作。」

摩根大通联席总裁及 Corporate & Investment Bank 总裁 Daniel Pinto 在股东信中说道：「我们组建了一支才华横溢的团队以推动人工智能、区块链技术、大数据、机器学习和机器人的创新，我们的目标是提高效率，为更多的顾客提供更高效、深层、精细化的服务。」「不投资的银行将会失去优势，其后的追赶过程将会漫长而艰难。」

他补充说，招聘人才是这一使命的一部分。「在未来 5 到 10 年的时间里，技术创新的步伐只会加快，因为人工智能、机器人、机器学习、分布式账本技术和大数据都将塑造我们的未来。」

J.P.Morgan 近期关于 AI 技术应用的研究报告中指出，AI 的概念已经出现了超过 50 年，但现在才是 AI 技术应用的关键点。由于大数据、高性能计算和高级算法的涌现，AI 技术得以借助更快、更低的成本实现。可以在这里查看该报告的 summary：https://www.jpmorgan.com/global/research/machine-learning。

关于 Manuela Veloso

Veloso 于 2014 年开始担任卡内基梅隆大学教授，并被该大学授予最高学术荣誉，同时也是 Herbert A. Simon Chair 荣誉获得者。她曾被中科院邀请担任爱因斯坦讲座教授。此外，她还是 AAAI、RoboCup 联盟的前任主席，AAAI、IEEE、美国计算机协会和美国科学促进协会的 fellow。

如下为 Google Scholar 展示的论文引用量，Manuela M. Veloso 从 14 年开始每年都有近 2000 的引用量。此外，她在机器人与演示学习领域有非常优秀的研究成果，例如引用量最高的一篇论文就是 2009 年关于演示学习（Learning from Demonstration）的综述与调查。

随着深度学习的流行，Manuela M. Veloso 也做了很多这方面的研究。在最近的一篇关于 CNN 的论文中，Manuela 等研究者通过理解网络的结构与穿过各层级的信息流来分析深度网络最后的输出，并借此理解深度网络实现分类的过程。她还独立进行了很多关于贝叶斯的前沿研究，包括深度网络中的先验信息与最大后验推断方法等。

从 Manuela 教授的研究主题可知，她对机器人领域做了非常多的贡献。从早期关于多智能体与机器人路径规划问题的研究，到现在利用深度模型和半监督学习等先进技术实现机器人的目标搜索、路径规划以及协作等任务。Manuela 利用这些不同的模块能同时构建足球机器人、服务机器人和问答智能体等多种智能体。

]]> 原文： https://ift.tt/2KAsRaT

机器知心

阿里巴巴「鹿班」算法技术负责人星瞳：用可控视觉生成引擎完成智能设计

在阿里巴巴，有一位接触设计不过两年时间，就从零开始做了 10 亿张海报，达到阿里巴巴 P5（中级）设计师水平的传奇「人物」。它叫「鲁班」，是阿里巴巴神秘的智能设计系统。在第七届 UCAN 用户体验设计论坛上，「鲁班」正式以「鹿班」为名加入「阿里动物园」，对外开放核心能力，首批计划邀请一百名设计师。同时面向优秀设计师推出「驯鹿计划」，邀请 ta 们训练机器，完成有自己风格的设计。论坛期间，机器之心受邀访问了鹿班智能设计系统技术负责人星瞳，在首批受邀设计师之前，一窥鹿班如何看待设计，又如何进行设计的秘密。以下为采访实录。

机器之心：首先，我们非常好奇，在鹿班的眼里，设计由哪些部分组成？

星瞳：用 Photoshop 做过设计的人就会知道，一张图里有若干个图层，一个图层里有背景、另一个图层里有修饰、再一个图层里有商品等等。鹿班也是这样，认为图是由基本元素组成的。每一个元素（或者像素集合）又可以有多个维度的描述，包括空间的（位置坐标 x、y、z，其中 z 指深度空间维度）、视觉的、内容的描述等。

鹿班的「元素」体系是一个两层的树状结构，即不过分复杂，又能给元素一定的区分度。第一层把元素分成若干个大类，比如主体、文案、修饰、标识、背景等。第二层再对大类做细分，比如主体就可以分为商品、物体或者模特；文案分为主题文案、辅助文案、行动利益点等；修饰也有区域修饰、点状、线条、碎片修饰等等不一而足。除了分类外，每个元素也有「语义层」对其进行更详尽的描述，例如一个「商品主体」的色系、风格、适合场景等是什么。

如果你展示给鹿班一张成品设计图，鹿班会对图片进行「设计结构化」，用分类和分割的方法，进行一个反向设计的过程，将图像还原成结构化、带有语义的元素集合。

机器之心：为了生成一张设计图，鹿班需要用户或者说设计师提供哪些输入？

星瞳：鹿班的定义是一个可控的视觉内容生成系统，这里的「可控」就指用户通过输入需求来描述对结果的视觉预期、对生成过程进行控制。从另一个角度讲，我们希望生成过程是一个可解释的过程，而不是一个黑盒。

用户的需求可能会以多种形式出现，他可以用自然语言描述、可以给一张之前的图做示例、也可以画一个草图把想要的元素简单排列，即使用户什么都没有给出，鹿班作为一个在线系统也能捕捉到一些上下文信息，例如设计是否用于某个特定的活动、有特定的主题之类的。

得到上述四类用户输入之后，我们对这部分「数据」进行规范化与结构化，变成系统可以理解的「信息」标签，进行后续的处理。

当然，用户输入信息并不是一个基于规则的固定系统，一方面，我们不希望信息输入是一个不自然的过程，所以用户可以选择输入的详细程度，而系统会对用户没有指定的部分进行自我补全与自我推荐；另一方面，我们也希望系统在以用户需求进行约束后，仍然能给出有灵活度和自由度的结果。

机器之心：系统能够接受的信息都有哪些种类？

星瞳：大体上可以分为内容标签和视觉标签。

视觉标签的典型例子有构图：是采用上下结构还是左右结构；色彩：整体的色调是红蓝还是黑白。

内容标签则会描述风格：是清新、轻奢还是黑暗等；以及语义标签：例如「双十一」或者「三八妇女节」；虽然语义约束大多蕴含在图像中，但仍然可以以标签的形式提取出来。

机器之心：系统拿到标签，进行设计之后，输出给用户的是什么？

星瞳：会根据用户需求，提供像素级别的成图，或者可以嵌入到各式 App 里面的、可用于后期渲染的结构化信息。这个过程被称为「数据可视化」。你可能会在手机淘宝的首页 Banner 上或者商品详情页里看到这张图，也可能在线下看到打印成海报的版本。

机器之心：设计的过程可以分为几部分？

星瞳：智能设计是一个理解设计、抽象设计、重构设计、增强设计（而不仅仅是拟合）的过程，需要满足高质且多样的要求，所以鹿班的框架流程本身是一个非常复杂的过程。

人类设计虽然千变万化，但其中仍然有一定规律可循。比如，平面设计可以被拆分为草图、细化、视觉、评估四个步骤，三维设计可以被分解成点云、mesh、贴图、渲染等。所以，我们的主系统可以被认为由四部分组成，分别是：规划器、行动器、构建器和评估器，辅以一些预处理和后处理过程。

首先是规划器，规划器接受用户的约束后，以此为条件，序列化地生成一个粗略的草图。「序列化」是说，摆放元素是有先后顺序的。这个顺序可以是一个树状模型，也可以是一个二维或多维的有序过程，比如，可以先摆放第一个元素（图层），然后根据第一个元素优化第二个元素的摆放位置，然后根据前两个元素优化第三个元素的摆放位置，以期达到整体的协调一致。

之所以选择在「元素级」而不是「像素级」进行序列化生成，是因为像素级的可选状态数量太多，且可选范围太大。图像「生成」的本质就是重复做两件事：选择像素的颜色（视觉角度），选择往哪摆（空间角度）。以一张 256 x 256 的图片的生成为例，像素级生成的每一步都相当于有超过 6 万个状态需要选择；如果采用 RGB 色彩模式，每一个状态有超过 1600 万种颜色 (256 x 256 x 256) 可以选择……这远远超过了语言、围棋等其他序列化优化问题的规模。因此「像素级」的生成会变得不可控。所以我们选择在「元素级」或者「超像素级」（像素级和元素级的中间态）进行生成。

机器之心：规划器需要规划的序列有多长？

星瞳：视用户需求而定。在用户的输入中有一类约束叫做「复杂度」。复杂度较低的设计可能有 8-10 种元素需要摆放，复杂度较高的设计可能有超过 50 种，当然，我们也会为序列设置上限，不会让它无限地生成下去。

机器之心：行动器的职责是什么？

星瞳：行动器是把草图细化的过程。这里就和我们分层的元素体系挂钩了。例如色彩上，规划器约定了某一元素的色系是红，然而具体用到的红，是浅红、深红还是紫红，就是在行动器部分决定的。而在空间上，行动器就就好比把一个 64 x 64 规模的草图，变成 256 x 256 级别的精细构图。

我们用两个思路处理细化问题：

第一个是用多智能体强化学习（Multi-agent Reinforcement Learning）来把细化问题变成一个组合优化的过程。我们用了数以千计的智能体，每个智能体在色彩、空间等方面都有若干个受限的动作（Action，此时受限是为了保持生成的可控性）。此时，单个动作的好坏是没有意义的，只有多个智能体结合起来得到一个较好的效果，我们才认为获得了一个较优的状态。

因为强化学习和监督学习不一样，没有明确的标签可以进行分类。我们倾向于让智能体在行动中不断拟合设计师已经做好的优质作品的构图。然而构图是由复杂的元素及其性质组成的，因此我们计算每个智能体和最终的智能体之间在各个指标上的「距离」，再通过一些求和方法，得到最终指导智能体继续行动的方向。这一部分我们和 UCL 汪军教授团队进行了紧密的合作，取得了一些成果。

另一个思路是用生成对抗网络（GAN）的思路来解细化问题。我们希望理解设计，然后把优质作品中关于色系、空间布局、风格的内容抽象出来，进行重构与增强。然而生成不等于复制，我们不希望得到千篇一律的或者和样本类似的设计。因此我们在每个中间环节加入一些变化因子，使最后的结果既满足那些从原有设计中抽象出来的逻辑，还添加了一些新的变化。

机器之心：「优质作品」的来源有哪些？「优质作品」中蕴含的设计师的理念又如何传递给行动器？

星瞳：优质作品的来源主要有二。第一，我们有许多合作方，例如我们会和鹿班的共同发起方、阿里巴巴 UED 团队的设计师有紧密的合作关系。第二，我们也会利用阿里和淘宝的平台优势，找到效果出色的设计作品，进行抽象和理解。第三，我们也会和外部素材资源方进行合作。

优质作品的理念抽象无外乎三种，一种是人的知识的抽象，设计师把长期积累的经验以知识图谱的形式表现出来；一种是数据里隐含的理念，一幅好作品可能说明不了什么问题，但如果成千上万的好作品组成一个数据集，那么其中自然而然地蕴含了一些共性；还有一种则是在线上规模化使用过程中，有实际效果的设计。

机器之心：构建器进行了哪些工作？

星瞳：构建器负责把细化过的结构草图变成像素级别的成图。其中涉及两个部分：

第一是要把尺寸统一的结构草图按照需求做成尺寸千差万别的成图。假设草图是 256 x 256 的，但是成图需要一张 1000 x 800 的，还需要一张 200 x 400 的。实现「多尺寸」最重要的是找到合适的元素，我们用了元素库检索、迁移和生成三种方式来覆盖用户千变万化的需求。获得元素后在进行渲染、组合、贴图等。

机器之心：最后由评估器对像素级的成图进行评估？

星瞳：是的。规划器、行动器和构建器一起生成了数十张图，其中真正会呈现给用户的可能只有「最好」的一张或两张。此时，对众多成图进行打分的就是评估器。

评估器也用了非常复杂的函数，从视觉、内容等角度衡量成图的效果。例如在视觉角度，评估器要衡量元素间颜色是否相搭、元素间空间是否存在遮挡；在内容角度，要让商品和装饰相匹配，文字和商品相匹配。除此之外，我们也和合作方一起，搭建了一些美学角度的考量。在对多个角度进行评判后，我们根据成图的综合得分进行排序，决定是否反馈给用户。

机器之心：评估器的衡量内容和之前三者存在一定程度的重合，原因是什么？

星瞳：有两个方面原因。第一是研究与实践之间的差距。规划器与行动器设计得再精妙，最后生成的成图彼此之间仍然会存在质量上的差距。因此我们用评估器去确保「可控生成」是真正的「可控」。第二是「满足设计感要求」和「投放效果好」之间的差距。即使一张图满足了设计上的需求，也不保证能获得好的投放效果，因此要在生成之后进行效果的预估。

机器之心：能否请您概括一下，鹿班智能设计系统能如何帮助设计师完成工作？

星瞳：设计师进行设计需要花费大量的时间，鹿班可以完成设计师较难满足的实时在线需求以及「千人千面」、「千货千面」或者「千场千面」的差异化需求。另外，设计师在进行设计时大多很难接触到真实的场景，很难获得个人设计作品的「点击、成交、转化」等历史反馈信息。因此，人类设计师更多从美学、视觉的层面上思考，而很难从产品、效果层面进行思考，这是鹿班通过评估器中的针对效果的评估而获得的优势。

机器之心：在最后，能否请您从算法的角度总结一下鹿班中的不同模块中蕴含的 AI 能力，并介绍一下鹿班未来的「进化」方向？

星瞳：鹿班可以说是各种 AI 技术的集中使用者，因其理解视觉，方可生成视觉。总体来说有五个方面：

首先是分类问题。系统要在「设计结构化」阶段分类成图，也要在「数据可视化」阶段分类元素。这些分类问题又包含多个层级。
然后是检测和分割问题。系统要从成图中检测目标主体并进行分割。
第三是序列模型。规划器的主体就是一个序列模型。
第四是强化学习，强化学习除了用于上述提到的行动器之外，还用于对训练数据进行数据扩增（data augmentation）。
第五是各类对抗生成网络（GAN）技术，尤其是 conditional GAN 及照片级别 GAN 技术。

当然还有一些比较基础的技术，如特征表达、多维索引搜索等。

现在的系统是一个非常复杂的系统，我们希望在未来可以引入一些「端到端」的思想，在不损失可控性和可解释性的情况下，对一些模块进行融合。我们也很关注学界里不同种类的对抗生成网络的进展，包括如何将对抗生成网络与强化学习结合起来。

此外，在设计知识图谱这一领域，我们希望与外界合作，做得更加完善和灵活。设计水平是很难衡量的，我们希望在此做出一些探索和改进，更好地量化生成效果。

从产品的角度来讲，从平面设计扩展到 3D 设计，从静态图扩展到动态图，从单张影像到视频等，对于设计师来说都是成本高而相对收益低的工作。因此我们希望智能设计也能完成形式更新颖的设计，并且做到高效高质、普惠低成本。

所思即所见是我们的愿景，目前我们还只是刚刚在路上，希望有更多同仁加入进来，把视觉生成这个领域做大做强。

]]> 原文： https://ift.tt/2HMfVRb