AI 人工智能新闻资讯

2017年12月6日星期三

NIPS风波｜获奖者登台开炮：ML是炼金术，大神LeCun强硬回怼

夏乙问耕发自凹非寺量子位出品 | 公众号 QbitAI

谁能想到，NIPS这种顶会都能风波乍起。

Ali Rahimi（阿里·拉希米），因为2007年发表的一篇论文，获得今年的"Test of Time"最具时间价值大奖。当然，阿里作为最佳论文作者理所应当的登台演讲。

起初，这个演讲主要介绍之前的研究成果。阿里说从很多方面来讲，我们的状况都比10年前好多了。在技术上，取得了很大的进步，街上跑着自动驾驶汽车，人工智能可以干很多事情……基于机器学习技术，能产生出几十亿美元的公司。

后来，火药味逐渐浓烈起来，阿里朝着整个深度学习界开了一枪，他说：

但某些方面更糟糕了。

空气中飘荡着一种自鸣得意的感觉，我们会说"人工智能是新的电力"。（安德鲁老师最爱的说法）

我想换个比方：机器学习已经成了炼金术。

炼金术挺好的，炼金术没毛病，它自有它的地位，炼金术"管用"。

炼金术带来了冶金、纺织、现代玻璃制造工艺、医疗等等领域的发明。但同时，炼金术还相信水蛭能治病，廉价金属能变成金子。

从当年的炼金术到现在的物理、化学，到我们现在对宇宙的认识，科学家们要消解掉2000年的炼金术理论。

如果你要做个照片分享系统，用"炼金术"就行。但我们现在所做的远远超出了这个范围，我们所做的系统用在医疗领域，用在社交媒体上，甚至能影响大选。

我希望我所生活的世界里，这些系统都建立在严格、周密、可验证的知识之上，而不是基于"炼金术"。

我有点怀念十年前NIPS上质疑各种想法够不够严谨的"学术警察"，希望他们回来。

（不关心技术细节的可以跳过下面的例子）

举个例子，不知道你有没有经历过这样的情况：从零开始搭建、训练了一个神经网络，然后发现它不管用的时候，总觉得是自己的错。这种状况我大约每三个月就要经历一次，我想说，这不是你的错，是梯度下降的错。

比如说这个最简单的深度神经网络，两层线性网络：

左边是我的模型，右边是损失函数，底下是不同参数设置下梯度下降的过程。有时候loss一开始下降得很快，后来就不动了。你可能会觉得遇到了局部最小值，或者鞍点，loss和0相差还很远。

换一个下降的方向，很快就能优化到最低。

你可能会觉得这个例子不自然，或者说梯度下降在更大的神经网络上表现得不错，我的回答是：第一，很多人都被梯度下降坑过；第二，我们把自己的工具用在简单的例子上，从中学习知识，然后应用到更复杂的场景，这正符合我们建立知识的方式。

梯度下降带来的痛苦是真实存在的。

上个月，我的朋友Boris给我发了封邮件：

周五，另一个组有人改动了TensorFlow内部的默认舍入模式，从"舍到0"改成了"四舍五入到偶数"。我们的训练就崩溃了，误差从＜25%飙升到了~99.97%。

这样的邮件我收到过不少，网上也有人在讨论类似的问题。

会发生这种情况，是因为我们把脆弱的优化技巧用到了我们不理解的loss上，我们的解决方案在本来就已经很神秘的技术上增加了更多神秘性。

Batchnorm是加速梯度下降的一种方法，把Batchnorm插入到深度神经网络的层中，梯度下降的速度就会更快。

我不排斥使用一些自己不懂的技术，比如说我是坐飞机来的，并不完全清楚它的工作原理，但知道有整个航空界都在研究这项技术就很安心了。

而对于Batchnorm的工作原理，我们只知道它的功能是"reducing internal covariate shift"。

可是为什么这样就能加速梯度下降了？有没有相关的理论或者实验？你甚至都不清楚internal covariate shift是什么，就不想要一个定义吗？

Batchnorm已经成了构建深度神经网络的一个基础工具，但我们对它几乎一无所知。

想想过去一年里你为了刷竞赛榜单而做的实验、尝试的新技术；再想想过去一年里你为了解释奇怪现象、寻找其根源而做的努力。前者，我们做得很多，后者，我们应该再多做一些。简单的实验和理论是帮我们理解复杂系统的基础。

我们还有一件事可以做。现在，所有商用硬件上运行的成熟计算引擎都是梯度下降的变体，处理着数百亿的变量。

想象一下，如果我们有能在标准商用硬件上运行，处理数百亿变量线性解算器或者矩阵分解引擎，想象一下这样我们能做出多好的优化算法，用多好的模型来做实验，当然，这在数学上和系统上都很难，但这正是我们要解决的问题。

我对这个圈子有真挚的爱，这也是为什么我会站在这儿，号召大家更严格精确，别那么像炼金术师。

希望我们可以共同努力，将机器学习从"炼金术"变成"电力"。

LeCun：实名反对

一石激起千层浪，阿里的演讲引发了热烈的讨论。

深度学习专家、前谷歌大脑成员Denny Britz说："对很多人来说，这是NIPS的高光时刻。深度学习就像炼金术，我们不知道发生了什么。我们需要在这个领域更加严谨。如果你知道背后没有可靠的科学理论，你会坐上飞机么？"

当然也有人立刻抛出不同意见。比如号称"三巨头"之一的Yann LeCun。他在Facebook上发表了一篇"长篇大论"进行了阐释。

原文概要如下：

阿里发表了一个有趣的演讲，但我压根不同意他说的话。他的核心思想是说：机器学习（ML）现在的实践，类似于"炼金术"（他的原话）。

这是种侮辱，是的。但是不要担心：他是错的。

阿里抱怨目前ML使用的许多方法，缺乏（理论上）的理解，尤其是在深度学习领域。理解是好事，这也是NIPS群体中很多人追求的目标。

但另一个更重要的目标是发明新的方法、新的技术，以及新的技巧（tricks）。

翻看科学技术发展的历史，工程实践总是先于理论理解出现：透镜和望远镜先于光学理论，蒸汽机先于热动力学，飞机先于空气动力学，无线电和数据通信先于信息理论，计算机先于计算机科学。

因此只是因为目前理论工具还没赶上实践，就批评整个ML群体（还是个相当成功的群体）在搞"炼金术"，这是一个非常危险的行为。

为什么说危险？因为正是这种态度，曾让ML群体抛弃神经网络超过10年，尽管有充分的证据表明他们在很多情况下效果很好。具有非凸损失函数的神经网络不能保证收敛。所以人们连婴儿带洗澡水一起泼掉了。

只是因为可以进行理论研究就固守一套方法，而且还忽视另一套从经验上来说更好的方法，仅仅是因为还没有从理论上理解它？

是的，我们需要更好的理解我们所用的方法。但是，正确的态度应该是尝试去解决问题，而不是因为还没解决就跑去羞辱整个群体。

致阿里：你每天也在用这些方法，如果你对如何理解他们不满意，请动手研究深度学习的理论，而不是抱怨其他人没做，更不是建议NIPS世界只用"理论正确"的方法。这是错的。

阿里随后跟帖回复：

Yann，感谢你深思熟虑的反馈。你最后的让我进行理论研究的建议，正是Moritz Hardt一年前曾对我说的话。只是一小群人很难取得进步，老实说，我被这个任务的规模压得喘不过气来。这次的演讲也是寻求更多人的帮助。

我呼吁简单的实验和简单的定力，以便我们都可以毫无困惑的传达见解。你可能已经非常擅长建立深度模型，在这方面你的经验可能比几乎任何人都多。但是想象一下新手会有怎样的困惑，一切看起来都像魔术。大家谈论的都是整个模型如何工作，而不是每一个小部分在干什么。

我认同炼金术的方法很重要。这让我们加速向前，解决了眼前的问题。我对那些能迅速建立起直觉以及可工作系统的人怀有最深的敬意。你和我在Google的许多同事都有这样令人印象深刻的技能，但你们只是少数。

我呼吁你们不但授人以鱼，而且还授人以渔，让大家都能达到你的生产力水平。我所期望的"严谨"是：简单的实验，简单的定理。

LeCun再回复：

简单和通用理论很好。

热力学的原则，让我们免于浪费时间去寻找永动机。在ML领域我们已经有这样的理论，适用于所有的学习机器，包括神经网络。

但是很有可能不会有专注于神经网络的"简单"定理，原因类似于我们没有纳维-斯托克斯方程或者三体问题的解析解。

背景交代

Ali Rahimi，去年5月加入Google，目前担任Member of Technical Staff（这个职位类似于主任工程师）。2005-2011年期间，他供职于英特尔担任研究员。

这次被NIPS 2017评为最佳时间检验奖的论文《Random Features for Large-Scale Kernel Machines》，就是他在英特尔期间发表的。

1997年，阿里在UC Berkeley获得学士学位，随后在MIT获得硕士和博士学位。

如果你对他感兴趣，可以看看他的个人主页。在欣赏了他的女友、兄弟和女朋友们的照片后，量子位感觉这也是一个"逗逼型"科学家。

主页地址：http://ift.tt/2zUnXj1

炼金术又是啥？

根据维基和百度百科，炼金术（Alchemy）的目标，是想把"贱金属"炼制成"贵金属"，比方把铅变成黄金。（当然还有炼丹，想造出长生不老药）。包括牛顿也曾研究过这门技术。不过现代化学证明，这种方法是行不通的。

OMT

以上，就是这次NIPS大会上关于真理标准的大讨论。

最后推荐一款应景的T恤，就是下面这款啦

在国外的服装定制平台Teespring有售，如果你对这件T恤感兴趣，而且熟悉海外购物流程，在量子位微信账号（QbitAI）回复："炼"一个字，就能获得购买地址。

—完—

欢迎大家关注我们的专栏：量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

via 量子位 - 知乎专栏 http://ift.tt/2zVCTxs

RSS5

百度BROAD-Video Highlights视频精彩片段数据集简要介绍与分析

前两天在微信上看到这条新闻，百度搞了一个数据集开源计划 Baidu Research Open-Access Dataset (BROAD)，其网址为 Baidu Research Open-Access Dataset。首期开放了3个数据集，其中有一个数据集称为 Video Highlights 。我发现这个数据集与我研究的temporal action detection 以及temporal action proposal 任务基本符合，感觉是个蛮有趣的数据集，所以在这篇笔记里对这个数据集进行简要的介绍与分析。

任务描述

该数据集（下文中简称为BROAD-VH数据集）在介绍中将其定义为视频精彩片段提取任务。具体而言，就是提取视频中可能包含精彩片段的时间区域，而不需要对精彩片段的类别进行分类。该任务实际上与我之前介绍过的temporal action proposal 任务（相关介绍和算法可以参考Temporal Action Detection (时序动作检测)方向2017年会议论文整理）是完全相同的。

视频及数据信息

BROAD-VH数据集主要来源于爱奇艺视频。视频类型为综艺节目，目前包括1500个长视频，视频总时长约1200小时。该数据集的视频时长分布图如下图所示（长度单位为帧）。按照总帧数和总时长的比例，估计采样的fps大概为1.5吧，算是比较低的采样频率了。

训练/验证/测试集的视频数量划分为1262/120/117。

该数据集通过爱奇艺网页link的方式提供了原始视频（即需要爬虫下载或手动下载），此外还提供了提取好的image feature和audio feature。这两种特征均在视频的每一帧上提取，维度均为2048。比如对于一个长度为1000帧的视频，image和audio特征矩阵的大小均为1000*2048。

标签信息及分布

该数据集中一共有18000个精彩片段的时序标注，平均一个视频有12个时序标注。这些精彩片段的总时长占1500个小时中的750个小时，即有一半左右的视频时长被标注为了精彩片段。

我对训练集的标签信息进行了分析，分析的主要内容为精彩片段时长的分布，分布直方图如下图所示。

可以看出，大部分精彩片段的长度都在30-300帧的范围。

测评方式

测评方式部分与通常temporal action proposal任务中不同，并没有使用average recall (平均召回率），而是同detection任务一样使用了mAP，此处将所有highlights片段都看作为了一个动作类别。比较有趣的是，BROAD-VH基本上直接使用了ActivityNet Challenge的detection任务测评代码（略有改动）。

简要分析

根据上面的介绍以及分析内容，可以对这个数据集进行一些简单的评价：

单个视频的时长可能很长（小时级别），单个视频中包含的精彩片段也比较多，这点与THUMOS数据集很像，而与单个视频时长短且包含片段少的ActivityNet数据集差异大
数据集标注的格式，测评代码等方面应该是直接参考的ActivityNet 数据集做的
数据的规模还是比较大的，从时长方面看比ActivityNet要长（ActivityNet时长大约为700小时）
视频的来源均为综艺视频，这点表明这个数据集的来源多样性比较单一
提供特征，其目的应该是节省研究者的计算开销。估计1500小时的视频，提取一遍特需要很长的时间。。根本没法玩。所以有现成的特征挺不错的。

简单的尝试

下完数据集我就先跑了一个最简单的baseline方法，即activitynet challenge 2017 proposal task中的baseline：uniform random 方法。代码主要参考了activitynet官方提供的代码：activitynet/proposals

简单而言，就是在视频随机的位置产生随机长度的proposals，并给予随机的confidence score。在验证集中，对于每个视频我生成了200个proposals，得到的mAP大概在0.027 左右。

小结

总的来说，BROAD-VH算是一个比较有趣的数据集吧，专注于综艺视频中精彩片段提取这一问题。不过由于该数据集目前还没有放出相关的论文，所以还没啥人做，也就没法在这个数据集上比较算法效果。由于提供了提取好的特征，所以在该数据集上跑起实验来也还算比较方便。感兴趣的读者也可以跑实验玩玩看。

via Video Analysis 论文笔记 - 知乎专栏 http://ift.tt/2zWJJ5V

RSS

论文笔记：第一人称视角视频中的行人轨迹预测

本文投稿于AI科技评论公众号。

视频中的人体动作分析是计算机视觉研究领域中的一个重要方向，包括动作分类，时序动作检测，时空动作检测等等方向。前几天日本东京大学在 arXiv 上放出的一篇论文（大概是 CVPR 投稿文章吧）提出了一个新的人体动作分析问题：第一人称视频中的行人轨迹预测问题，并提出了一个新的数据集以及一个新的行人轨迹预测算法。

论文的题目为：Future Person Localization in First-Person Videos [1] ([1711.11217] Future Person Localization in First-Person Videos)。这篇笔记主要对这篇论文进行内容上的提炼和整理，最后附上了自己对这篇论文的讨论。有问题欢迎留言指出~

问题定义

首先，此处所采用的第一人称视频（First-person videos）指可穿戴相机（wearable cameras）所拍摄的视频，比如 GoPro，Google Glass 等。基于第一人称视频相关的研究主要对应的应用领域包括盲人导航，AR 等相关领域。

这篇文章所提出的 Future Person Localization 问题具体而言，就是已知t时刻及之前几帧图像中行人的相关信息，要求算法预测未来几帧中该行人会出现在图像中的什么位置。问题示意图如下图所示。关于这个任务的技术有很多的用途，比如帮助行人避开迎面走来的行人，或是帮助移动机器人来规划运动的路径。

算法构建

要构建行人轨迹预测算法，首先要确定要用什么信息/特征来进行行人轨迹的建模与学习。对于一小段视频中的行人，本文中主要提出了四种 feature 序列，如下所示：

行人检测框的位置序列（Location）；
行人检测框的大小序列（Scale），在第一人称视角中，行人框的大小实际上隐含了透视投影的关系，即"近大远小"；
行人的骨架序列（Pose），骨架信息主要隐含了行人的动作，姿态，朝向等信息；
摄像机本身的运动信息（Ego-motion），由于第一人称视角中相机本身也是在不断运动的，所以相机本身的运动也不得不考虑进算法当中，具体而言，就是相机在每两帧之间的平移和旋转信息。

所以问题可以表示为，已知t时刻及前 Tp 帧的四种 feature 序列，要求预测后 Tf 帧的行人检测框位置序列。本文提出了一个很简单的基于 1 维卷积的网络，如下图所示：

网络的具体配置如下表所示，基本上就是 1D-Conv+BN+ReLU 的堆叠。最终的输出即为所需要的未来检测框位置序列。

First-Person Locomotion (FPL) 数据集

针对第一人称视频的行人轨迹预测这个问题，由于没有现成的数据库，所以作者自己采集了一个新的数据库，称作 First-person locomotion (FPL) dataset。这个数据集是在东京的街头采集的，下图是数据集中的一些示例图像。

该数据集包含 4.5 小时的视频，包括大概 5000 段行人的轨迹。在每段轨迹中，本文采用 1s 的时间窗口，使用前 10 帧的信息作为输入特征，后 10 帧的行人轨迹作为输出标签。此处的定义不是特别明确，可能需要看后续公布的详细数据集信息。

那么数据集的这些标签信息是怎么得到的呢，该数据集并没有采用手工标注的形式，而是使用了几种算法来自动生成标注信息。首先，对于每帧图像，使用今年 CMU 开源的 OpenPose[2] 来提取场景中所有行人的骨架信息，根据骨架信息可以获得行人的检测框。其次，使用 KCF[3] 算法来进行帧间的行人跟踪，产生很多短的跟踪序列，再对这些短跟踪序列按照（1）图像特征相似性（2）位置相近性这两个规则进行拼接，从而获得较长的跟踪序列。此处的特征相似性使用的是 Faster-RCNN 所提取的特征的余弦距离。通过上述操作，就可以得到行人相关的三种 feature 序列：行人位置，行人大小以及行人骨架序列。对于相机自身的运动信息，本文则采用了[5]中的算法来进行进行估计。通过上述操作，最终得到了 5000 段轨迹样本。

测评方式方面，本文采用了与[6]中相似的方式，使用 Final Displacement Error (FDE) 作为测评指标。FDE指标即最终预测轨迹和最终实际轨迹之间的L2距离。为了更加精细的评估，该数据集还把行人轨迹分为了1) toward 2) away 3)across三个子集，分别计算了 FDE 以及 3 个子集的平均 FDE。

实验结果

这篇文章主要与如下几个方法进行了对比：

ConstVel: 该方法计算输入轨迹的速度和朝向，直接生成后续的轨迹
NNeighbor：在测试时，选取轨迹最像的 16 个训练集轨迹，通过平均来生成输出轨迹
Social LSTM[6]: 行人轨迹预测的一个 state-of-the-art 方法，不过并非提出于第一人称视角的场景。

实验结果如表所示：

可以看出本文方法比几个 baseline 还是要好很多的。

此外作者还对输入的几种特征进行了 ablation study，结果如下表所示：

可见综合多种信息对于轨迹的预测效果有着显著的提高效果。

本文结果的可视化效果图如下所示。总体来说效果还不错。

个人讨论

以上为这篇文章的基本内容。可以看出，这篇文章主要在行人轨迹预测这个问题中进一步限定了场景（第一人称视角视频）并提出了对应的数据集和算法。虽然这篇文章提出的算法比较简单，但总体还是很有启发性的：

在第一人称视角的场景下，这篇文章的方法基本涵盖了行人轨迹特征预测所能用到的各种信息，其中骨架信息和相机自身信息我认为是相当重要的。
这个问题其实可以进一步拓展为运动相机场景下的行人轨迹预测问题，这样就能够用于智能驾驶等更多的应用场景中了。
本文中的模型构建的非常简单，可能只是想做一个简单的 baseline 吧，采用 LSTM 网络或是构建更加复杂的特征融合算法应该能够获得更好的轨迹预测精度。
本文提出的数据集在提取各种信息时，分别采用了 kcf，openpose 和 ego-motion estimator 三种算法，其综合速度应该是不太理想的。所以想要将这个算法用到真实的场景下，还有很多算法优化，工程实现的工作要做。也值得一做。

参考文献

[1] Takuma Yagi, et.al. Future Person Localization in First-Person Videos. In arXiv preprint arXiv: 1711.11217, 2017.

[2] Z. Cao, T. Simon, S.-E.Wei, and Y. Sheikh. Realtime multi- person 2d pose estimation using part affinity fields. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7291 – 7299, 2017.

[3] J. F. Henriques, R. Caseiro, P. Martins, and J. Batista. High- speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3):583–596, 2015.

[4] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: To- wards real-time object detection with region proposal net- works. In Advances in Neural Information Processing Sys- tems, pages 1–9, 2015.

[5] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe. Unsuper- vised learning of depth and ego-motion from video. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851 – 1860, 2017.

[6] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 961–971, 2016.

via Video Analysis 论文笔记 - 知乎专栏 http://ift.tt/2zVb8Vv

RSS

ReQuest: 使用问答数据产生实体关系抽取的间接监督

在这篇伊利诺伊大学、南加州大学与上海交大合作的 WSDM 2018 论文中，研究人员提出了一个全新框架：ReQuest，它可以借助问答数据作为实体关系提取的一个间接监督源，这种方法可以用于减少从知识库中产生监督信息而伴随产生的噪声，为关系提取任务提供间接，有效的训练数据。ReQuest 框架可以将隐藏于问答数据 (以及用户反馈信息) 内的关于实体关系的知识迁移到实体关系抽取任务上，提升信息抽取系统的效能。

关系提取是一项重要的任务，通过将非结构化文本数据转换成关系元组作进一步分析，它可以被用于理解大量的文本语料。例如，它可以检测到一句话中的实体「Donald Trump」和「United States」之间的关系是「president_of」。这种信息可以被用于下行文本分析任务中（例如，作为信息提取和知识库（KB）补全的前置步骤，以及辅助问答系统）。

在这篇论文中，为了解决远监督关系提取中存在的问题，我们研究了从外部数据使用间接监督进行关系提取的问题。因此研究提出了一个新的框架--ReQuest。

首先，ReQuest 构造了一个表征异构图来表达三种不同的对象：关系提述（relation mentions）、文本特征（text features），以及由知识库链接做好标签的关系提取训练数据的关系类型（relation types）。其次，ReQuest 构造了为问答数据集构建了第二个表征实体提述对（entity mention pairs）以及特征的异构图，其中实体提述对包括问题和答案实体提述对（question and answer mention pairs）。这两个图通过特征重叠结合成了一个单独的图。我们构造了一个全局目标函数来将这个图嵌入到一个低维空间中。在这个空间中，关系类型语义联系密切的关系提取对象也具有相似的表征，同一个问题下由正面实体（问，答）提述对和链接的问答对象也具有相似的表征。特别地，我们设计了一个新型的边际损失（margin-based loss）来给问答对的相似度进行建模，并且通过共享特征，将这种信息传递到特征和关系类别表征中去。

总结一下，这篇论文的主要贡献如下：

（1）我们提出了一种新型的思想，为关系提取任务从问答数据集中应用间接监督，以帮助消除远监督中的噪声。

（2）我们设计了一个新颖的联合优化架构—ReQuest，来在特定域的语料中提取类型化的关系。

（3）在两个公开的关系提取（RE）数据集上结合 TREC QA 的实验证明 ReQuest 能够显著地提升目前最先进的关系提取系统的性能。

论文：Indirect Supervision for Relation Extraction using Question-Answer Pairs

论文链接：http://ift.tt/2lCPWB6

摘要：为了以更加有效的方式解释大量文本语料，对感兴趣的类型进行自动关系提取（automatic relation extraction）是很重要的。传统的 RE（relation extraction）模型在训练的时候严重依赖于人工标注的数据，人工生产标签数据的成本是很高的，而且人工标签会成为处理多种类型关系时的障碍。因此，更多的关系提取系统转向建立在基于通过和知识库链接自动获取的训练数据（远监督方法）。然而，因为知识库的不完整和语境不可知的自动标签的原因，通过远监督（distant supervision）得到的训练数据含有很多噪声。在最近几年，解决问答任务越来越受关注，这类任务的用户反馈和数据集都容易获得了。在这篇论文中，我们提出了一个新颖的框架 ReQuest 来利用问答对（QA pairs）作为关系提取的一个间接监督源，还研究了如何使用这种监督来减少从知识库中产生的噪声。我们的模型将关系提述、类型、问答实体提述对以及文本特征联合地嵌入到了两个低维空间中（关系提取和问答），在这个低维空间中，具有相同关系类型或者语义相似的问答对会拥有相似的表征，共享的特征将这两个空间连接起来，从两个源中传递更加清晰的语义知识。然后 ReQuest 使用这些学习到的向量去估计测试集的关系提述（relation mentions）的类型。我们构造了一个全局目标函数，采用一个新型的边际问答损失指标，通过利用问答数据集中的语义特征去降低知识库所产生的噪声。结合两个公开的关系提取数据集 TERC QA 数据集，我们的实验结果在 F1 score 上达到了 11% 的提升。

3. 方法

框架概览

我们提出了一个基于 embedding 的间接监督框架（如图 2 所示）：

（1）给每一个关系提述或者问答实体提述对生成文本特征，然后将四种对象结合起来构造一个异构图，四种对象分别是：关系提取语料中的关系提述，问答语料中的实体提述对，以统一的形式对前面提到的信息进行编码的目标关系类型和文本特征（section 3.1）。

（2）将关系提述、问答对、文本特征和类型标签联合起来嵌入到一个通过共享特征连接在一起的低维空间中，在这个低维空间中关系密切的对象倾向于共享相同的类型或者问题（section 3.2）。

（3）通过搜索目标类型集合 R，为学习到的向量中的每一个关系提述 z 估计类型标签 r ∗（section 3.3）。

图 2. 框架全貌

图 3. 由于自动生成的训练语料中存在噪声，学习到的向量和关系类型之间的联系可能受到错误标签的样本的影响。然而，问答通过逐个交互的思想有潜力从问答语料中重叠的特征里引入额外的语义细节的方法来矫正这种错误。

表 1：论文中用于关系提述的文本特征（基于解析的依存句法特征和实体类型特征）。（「Donald Trump」，「United States」）就是一个示例的关系提述，对应的源句子是：「NYC native Donald Trump is the current President of the United States」。

ReQuest 学习的具体过程可以在 Algorithm 1 中看到：

4. 实验

为了测试我们提出的框架 ReQuest 的有效性，我们把它关系提取任务中用到的其他方法做了比较。精准度、召回率、F1 score 以及模型的学习时间都在两个数据集上做了对比，如表 6 所示。

表 6：在两个数据集上进行端对端关系提取性能对比（ReQuest 的 F1 score 最高）。

图 4：问答数据集的 F1 score 处理结果。

P_NP-N_NP：正的问答名词短语对+反的问答名词短语对； P_NP-N_NER：正的问答名词短语对+反的问答命名实体对；DepPath：将问答语句转换成依存句法树上的最短路径；NFromP：从正和反的答句取样反问答对。

任翔，南加州大学（USC）助理教授（曾赴斯坦福大学作访问学者，伊利诺伊大学（UIUC）博士，Google PhD Fellow），2018 年计划招收 2-3 名博士生和数名访问学者。主要研究方向：Machine learning and NLP methods for mining structured knowledge from massive, unstructured data。主要研究问题：非结构化数据上的知识获取 (信息抽取，知识表示与推理，知识图谱构建和应用, 问答系统)。专注方法：weakly-/noisily-supervised methods for sequence modeling, structured prediction, text generation, graph embedding/generation; dual learning and reinforcement learning。感兴趣的同学请 email：xiangren@usc.edu (mailto:xiangren@usc.edu)

]]> 原文： http://ift.tt/2zWQYuE

机器知心

不只是围棋！AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero

在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后，这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天，AlphaGo 研究团队提出了 AlphaZero：一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称，新的算法经过不到 24 小时的训练后，可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序（这些程序早已超越人类世界冠军水平），也可以轻松击败训练 3 天时间的 AlphaGo Zero。AlphaZero 为何如此强大？机器之心对论文全文进行了编译介绍，希望能以此带你一探究竟。

8 个小时训练击败李世石版本AlphaGo
12 小时训练击败世界顶级的国际象棋程序 Stockfish
14小时训练击败世界顶级将棋程序 Elmo

计算机国际象棋和计算机科学本身一样古老。查尔斯·巴贝奇、艾伦·图灵、克劳德·香农和冯诺依曼都曾设计硬件、算法以及理论来让计算机分析和玩国际象棋。国际象棋随后成为了一代人工智能研究者努力希望克服的挑战，最终，我们也实现了超越人类水平的国际象棋程序。然而，这些程序高度局限于它们所处的领域，在没有人类大幅度修改的情况下，无法被泛化去处理其他任务。

创造可以以简单规则为基础不断自我学习的程序一直是人工智能领域的重要目标。最近，AlphaGo Zero 算法在围棋上实现了超过人类水平的成绩，而背后使用的是卷积神经网络，只通过强化学习进行自我对弈训练。在本论文中，DeepMind 实现了类似但完全泛化的算法（fully generic algorithm）——在未输入游戏规则以外任何知识的情况下，其推出的全新算法 AlphaZero 在国际象棋和日本将棋上实现了和围棋同样的高水平。DeepMind 宣称该研究证明了 AlphaZero 作为一个通用性强化学习算法可以从零开始，在多种具有挑战性的任务上实现超越人类的水平。

人工智能领域的一个里程碑事件是 1997 年「深蓝」击败了人类世界冠军卡斯帕罗夫。在随后的 20 年里，计算机程序的国际象棋水平一直稳定处于人类之上。这些程序使用人类大师仔细调整的权重来评估落子步骤，同时结合了高性能的 α-β 搜索技术，通过大量启发式机制和对特定领域的适应而扩展出大的搜索树。这些程序包括 2016 年 Top Chess Engine Championship（TCEC）世界冠军 Stockfish；其他强大的国际象棋程序，包括「深蓝」，也使用了非常相似的架构。

在计算复杂性方面，日本将棋（Shogi）要比国际象棋复杂得多：前者有一个更大的棋盘，任何被吃的棋子都可以改变阵营重新上场，被放置在棋盘的大多数位置。此前最强大的将棋程序，如 Computer Shogi Association（CSA）世界冠军 Elmo 直到 2017 年才击败了人类世界冠军。这些程序和计算机国际象棋程序使用了类似的算法，同样基于高度优化的α-β搜索引擎和很多对特定域的适应性调整。

围棋非常适合 AlphaGo 中的神经网络体系结构，因为游戏规则是转移不变的（与卷积神经网络的权重共享结构相对应），是根据棋盘上相邻点位的自由度来定义的（与卷积神经网络局部结构相对应），而且是旋转和镜像对称的（这允许数据增强和数据合成）。此外，围棋的动作空间很简单（一个子可能被落在每一个可能的位置上），游戏的结果仅限于二元的输或赢，而两者都有助于神经网络进行训练。

国际象棋和日本将棋可以说相对不适用于 AlphaGo 的神经网络架构。因为其规则是依赖于棋盘位置的（如两种棋类的棋子都可以通过移动到棋盘的某个位置而升级）而且不对称（如一些旗子只能向前移动，而另一些如王和后可以更自由的移动）。这些规则包含了远程互动（例如，后可以一步穿越整个棋盘，从远距离对王将军）。国际象棋的动作空间包含两名棋手棋盘上棋子的所有合法落子位置；而日本将棋甚至还允许被吃掉的棋子重返棋盘（加入另一方）。国际象棋和日本将棋都允许胜负之外的其他结果；事实上，人们相信国际象棋的最优解是平局。

AlphaZero 算法是 AlphaGo Zero 的通用化版本，后者首先被应用在了围棋任务上。它使用深度神经网络和从零开始的强化学习代替了手工编入的知识和特定领域的增强信息。

AlphaZero 不使用手动编写的评估函数和移动排序启发式算法，转而使用深度神经网络 (p, v) = f_θ(s) 和参数θ。该神经网络将棋盘位置 s 作为输入，输出一个针对每个动作 a 的分量 p_a = P_r（a | s）的移动概率 p 的向量，以及从位置 s 估计期望结果 z 的标量值 v ≈E [z | s]。AlphaZero 完全从自我对弈中学习这些步的获胜概率；这些结果随后用于指导程序的搜索。

和α-β搜索使用领域特定的增强信息不同，AlphaZero 使用了一个通用的蒙特卡罗树搜索（MCTS）算法。每一次搜索由一系列的自我对弈的模拟比赛组成，遍历了从根 s_root 到叶的整个树。每一次模拟通过在每个状态 s 中选择一个动作 a，a 具有低访问次数、高走棋概率（通过遍历从 s 选择了 a 的模拟的叶状态取平均得到）和根据当前神经网络 f_θ决定的高价值。搜索会返回一个向量π表示走棋的概率分布，通常相对于根状态的访问次数是成比例的或贪婪的。

从随机初始化的参数 θ 开始，AlphaZero 中的深度神经网络参数 θ 通过自我对弈强化学习来训练。双方玩家通过 MCTS 选择游戏动作为 a_t ∼ π_t。在游戏结束时，根据游戏规则对终端位置 s_T 进行评分，以计算游戏结果 z：-1 为输，0 为平局，+1 为赢。更新神经网络参数θ以使预测结果 v_t 和游戏结果 z 之间的误差最小化，并使策略向量 p_t 与搜索概率π_t 的相似度最大化。具体而言，参数 θ 通过梯度下降分别在均方误差和交叉熵损失之和上的损失函数 l 进行调整。

其中 c 为控制 L2 权重正则化程度的参数，更新的参数将用于自我对弈子序列对弈。

本论文描述的 AlphaZero 算法主要在以下一些方面与原版的 AlphaGo Zero 算法有不同。

若假设一局对弈的结果为胜利或失败两个状态，AlphaGo Zero 会估计并最优化胜利的概率。而 AlphaZero 反而会估计和优化结果的期望值，它会同时考虑平局或其它潜在的可能结果。

无论使用怎样的旋转和镜像映射，围棋的规则都是不变的。AlphaGo 和 AlphaGo Zero 都利用了这一事实。首先，通过为每个位置生成 8 次对称，来增强训练数据。其次，在 MCTS（蒙特卡罗树搜索）中，在神经网络进行评估之前使用随机选择的旋转或反射转换棋盘局势，以使蒙特卡罗评估在不同的偏差中进行平均。象棋和将棋的规则是不对称的，且通常无法假设对称。在 MCTS 中，AlphaZero 不增强训练数据，也不转换棋盘局势。

在 AlphaGo Zero 中，自我对弈是由前面所有迭代步中最优玩家生成的。在每次训练的迭代结束后，新玩家的性能通过与最优玩家的对抗而衡量。如果新玩家能以 55% 的优势胜出，那么它就替代当前最优的玩家，而自我对弈的结果将由该新玩家产生。相反，AlphaZero 只是简单地维护单个神经网络以连续更新最优解，而不需要等待一次迭代的完成。

图 1：将 AlphaZero 训练 700,000 步。假设每手棋用时一秒，利用不同棋手之间的评估游戏计算国际等级分（Elo rating）。a. AlphaZero 在象棋中的表现，与 2016 TCEC 世界冠军 Stockfish 进行对比。b. AlphaZero 在将棋中的表现，与 2017 CSA 世界冠军 Elmo 进行对比。c. AlphaZero 在围棋中的表现，与 AlphaGo Lee 和 AlphaGo Zero 进行对比（20 block / 3 day）（29）。

自我对弈通过使用这个神经网络最新的参数而生成，且省略了评估的步骤和最佳玩家的选择。

AlphaGo Zero 通过贝叶斯优化搜索超参数，而 Alpha Zero 对于所有的对弈使用相同的超参数，而不会使用特定的超参数调整方法。唯一的例外是为了保证探索（29）而添加到先前策略的噪声，这与符合（对弈类型）规则的典型移动数成正比。

如同 AlphaGo Zero 一样，棋盘状态仅基于每个对弈的基本规则空间进行编码。这些动作是由其它空间平面或平面向量进行编码，且仅仅基于每个游戏的基本规则。

我们把 AlphaZero 算法应用到了国际象棋、日本将棋和围棋上。除非另做说明，这三种棋类游戏使用的都是同样的算法设置、网络架构和超参数。我们为每一种棋类游戏训练了独立的 AlphaZero 实例。训练进行了 70 万步（批尺寸为 4096），从随机初始化参数开始，使用 5000 个第一代 TPU 生成自我对弈棋局和 64 个第二代 TPU 训练神经网络。关于训练过程的更多细节在 Method 中。

图 1 展示了 AlphaZero 在自我对弈强化学习中的性能，作为训练步的函数，以 Elo Scale 表示（10）。在国际象棋中，AlphaZero 仅仅经过 4 小时（30 万步）就超越了 Stockfish；在日本将棋中，AlphaZero 仅仅经过不到 2 小时（11 万步）就超过了 Elmo；而在围棋中，AlphaZero 经过 8 小时（16.5 万步）就超过了 AlphaGo Lee（29）。

我们评估了经过充分训练的 AlphaZero 在国际象棋、日本将棋和围棋上分别和 Stockfish、Elmo 以及经过 3 天训练的 AlphaGo Zero 的 100 场竞标赛的结果（从 AlphaZero 角度的赢/平/输），每个程序都是一步一分钟的思考时间。AlphaZero 和 AlphaGo Zero 使用 4 个 TPU 的单个机器进行比赛。Stockfish 和 Elmo 使用 64 个线程和 1GB 的哈希表进行比赛。AlphaZero 令人信服地打败了所有的对手，未输给 Stockfish 任何一场比赛，只输给了 Elmo 八场（补充材料理由几场比赛的示例），见表 1。

表 1：AlphaZero 在国际象棋、日本将棋和围棋上分别和 Stockfish、Elmo 以及经过 3 天训练的 AlphaGo Zero 的 100 场比赛的结果（从 AlphaZero 角度的赢/平/输），每个程序都是一步一分钟的思考时间。

我们还分析了 AlphaZero 的蒙特卡罗树搜索（MCTS）和 Stochfish、Elmo 使用的当前最佳α-β搜索引擎的性能对比。AlphaZero 在国际象棋中每秒搜索了 8 万个位置，在日本将棋中每秒搜索了 4 万个位置，而 Stockfish 每秒需要搜索 7000 万个位置，Elmo 每秒需要搜索 3500 万个位置。

AlphaZero 通过使用深度神经网络重点聚焦于最具潜在价值的走法（可以认为这是一种更加类似人类思考方式的搜索方法，由香农首次提出（27））。图 2 展示了每个玩家关于 Elo scale 的思考时间的可扩展性。AlphaZero 的 MCTS 相比 Stochfish 和 Elmo 能更有效地伸缩思考时间，这使我们对人们广泛接受的 α-β 搜索在这些领域的内在优势提出了质疑。

最后，我们分析了由 AlphaZero 发现的象棋知识。表 2 分析了 12 个最常见的人类国际象棋开局分析（在线数据集记录出现超过了 10 万次）。每一个开局都由 AlphaZero 在自我对抗训练过程中独立发现并频繁使用。从每一个人类国际象棋开局开始，AlphaZero 都能击败 Stockfish，这表明它确实掌握了大量的国际象棋棋谱知识。

使用国际象棋比赛展示 AI 研究的前沿进展已经有几十年的历史。当前最佳的程序都是基于能搜索几百万个位置、利用人工编入的领域专业知识和复杂的领域适应性的引擎。AlphaZero 是一个通用的强化学习算法（最初为围棋而设计），可以在数小时内达到优越的结果，其需要搜索的位置少了几千倍，除了国际象棋的规则外不需要任何的领域知识。此外，同样的算法不需要修改就可以应用到更具挑战性的日本将棋上，同样在数小时内超过了当前最佳结果。

表 2：12 个最常见的人类国际象棋开场局的分析（在线数据集记录出现超过了 10 万次）。每一个开局由其 ECO 码和常用名标记。这些图展示了 AlphaZero 在自我对抗训练棋局中使用这种开场局的比例随训练时间的变化。我们还报告了 100 场 AlphaZero vs. Stockfish 每个比赛的开局和结果（从 AlphaZero 角度的赢/平/输，无论作为白方还是黑方）。最后，还报告了 AlphaZero 每个开局后的整体棋局主要变化。

图 2：AlphaZero 的思考时间的可扩展性。a. AlphaZero 和 Stockfish 在象棋上的 Relative Elo 对比，横坐标为每一步的思考时间。b. AlphaZero 和 Elmo 在日本将棋上的 Relative Elo 对比，横坐标为每一步的思考时间。

论文：Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

论文链接：http://ift.tt/2nvQQ3f

摘要：国际象棋是人工智能史上被研究最为广泛的领域。解决国际象棋问题最为强大的技术是通过复杂搜索技术、特定领域的适应性调整以及人类专家几十年来不断手动编写改进的评估函数。相比之下，AlphaGo Zero 程序最近在围棋项目中实现了超过人类的表现，而且它是完全从零开始进行自我强化学习的。在本论文的研究中，我们泛化了这个方法而得到了单个 AlphaZero 算法，使其可以从零开始自我学习，并在很多种具有挑战性的领域里超越人类的性能。模型从随机动作开始初始化，除了游戏规则，我们未向程序输入任何知识，而 AlphaZero 在 24 小时内像围棋一样掌握了游戏，达到了超越人类的国际象棋和日本将棋水平，并令人信服地在每个项目中击败了目前业内顶级的各类程序。

]]> 原文： http://ift.tt/2izCmKh

机器知心

滴滴副总裁：用人工智能技术保障出行平台信息安全

导语：长期关注人工智能的科技媒体机器之心Synced发表文章称，Uber数据泄露事件的影响正在波及整个行业。为了加强信息安全，研究者正在探索人工智能解决方案。在近期于加拿大多伦多举行的"世界人工智能峰会"上，这正是"交通自动化未来论坛"的一大热门话题。

今年11月，媒体爆料Uber迟迟没有披露牵涉5700万司机和乘客的数据泄露事故，对Uber提出了质疑并密切关注事件进展。Uber首席信息安全官乔伊·萨利文（Joe Sullivan）曾试图拿出10万美元来摆平相关的黑客，但最终被解雇。

在人工智能世界论坛上，中国共享出行巨头滴滴出行的信息安全战略副总裁弓峰敏指出了这类数据泄露事故带来的风险程度："对于具备放大效应的平台，你做的任何事情都会影响许多人。"

2016年，滴滴出行收购了Uber的中国业务，巩固了在中国市场的地位。Uber在应对黑客事件时采取的做法有些轻率，给它在亚洲的同行敲响了警钟，也带来了经验。

弓峰敏带领的部门每天需要处理来自超过4.4亿用户的2500万个打车订单，以及4500TB的数据。他承担的角色是保护这些数据不受攻击，保证信息安全。

随着汽车自动化程度越来越高，信息安全成为了汽车行业的最高优先级工作之一。弓峰敏解释道："在今天的交通运输行业，无论是自动驾驶还是互联汽车还是智慧交通，所有层面都在引入更多技术复杂度。"作为白帽子黑客，弓峰敏认为，随着自动驾驶汽车连接至中心化云计算平台，人机交互应用带来进一步增强，以及连接至其他交通网络，我们将看到五花八门的系统漏洞。

滴滴出行将这些信息安全威胁分为四个层面：数据安全、程序安全、网络安全，以及最重要的，出行者和路上行人的安全。

在去年中国举办的一场活动上，弓峰敏详细阐述了他的白帽子理念："核心业务必须统一，并在闭环中进行。信息安全防御正在转变为不间断的大规模检测，利用大数据和人工智能来探测安全和异常。简而言之，这意味着部署分布式的信息安全探测系统，用于中心化的数据分析。"

企业可以使用机器学习技术，以及来自终端设备的云数据去分析并学习恶意软件的行为模式。随着不断学习新出现的安全威胁的特征，模型会形成更有效的预防措施，从而变得更健壮。

弓峰敏提出，在人工智能时代，应当采取"基于生态系统的方法"保障信息安全。"围绕关键业务建立保护层，优化会话、数据、用户信息和操作流程，以整体化的方法提供保护，这非常重要。"

机器之心英文版地址：http://ift.tt/2iXmFR8

]]> 原文： http://ift.tt/2kslDwZ