AI 人工智能新闻资讯

2018年5月6日星期日

AAAI 2018学术见闻——NLP篇

一、会议概况介绍

AAAI2018（https://aaai.org/Conferences/AAAI-18/）于2018年2月2日到2018年2月7日在美国新奥尔良举办。本次会议共收到投稿3808篇，最终录用938篇论文，录用率为24.6%。

本次会议接受最多的投稿来自中国，多达1242篇，比去年增长58%，美国紧随其后，有934篇。对比去年两国投稿数量（中国785篇、美国776篇）可以明显感受到中国人工智能研究的飞速发展。但同时也应注意到，尽管投稿数远超美国，但是两国的论文录用数却基本持平（中国265篇，录用率21.3%、美国268篇，录用率28.4%），因此如何提高论文质量从而提升录用率，也是今后需要重视的问题。

此外，从研究领域来看，今年投稿及录用前三的领域分别是机器学习方法（Machine Learning Methods）、视觉（Vision）和自然语言处理及机器学习（NLP and Machine Learning）。与去年的前三名（机器学习、自然语言处理和应用）相比，视觉领域可谓异军突起，投稿率和录用率增幅分别达257%和285%。

由于AAAI会议囊括了人工智能领域几乎所有分支的内容，许多活动时间重复，因此本文主要介绍自然语言处理相关领域的学术见闻。

图1 本次会议接受论文按领域分布情况

二、讲习班简介

会议前两天（2月2日到3日）是讲习班时间，本次会议共有26个涵盖了人工智能各个领域的讲习班，由于许多讲习班是同时进行的，这里只对其中两个进行简介。关于讲习班更具体的信息及slides可以在https://ift.tt/2roInOS 找到。

1、结构化预测的近期发展

该讲习班的主讲人是来自华盛顿州立大学的Jana Doppa助理教授、来自塔夫茨大学的Liping Liu助理教授和来自俄勒冈州立大学的博士生Chao Ma。结构化预测（structured prediction）方法被广泛地应用于自然语言处理、计算机视觉及生物信息学等研究领域。近年来结构化预测领域有许多新的研究进展，包括新的框架、算法、理论及分析等。三位主讲人在讲习班中系统地介绍了现存的各种解决结构化预测问题的框架，并着重讲解了该领域近年来的发展。例如：基于搜索的结构化预测、摊销推理（amortized inference）、PAC理论与推理、多任务结构化预测以及如何将深度学习方法应用到结构化预测中。最后，他们指出了该领域有可能的发展和研究方向。

2、网络表示学习

该讲习班的主讲人是来自清华大学的助理教授崔鹏。如今，大型复杂网络被应用在越来越多的实际场景中，网络数据也被公认为是复杂且具有挑战性的，有效处理图结构数据的最主要的挑战就是网络数据的表示，即如何合适地表示网络使后续的模式挖掘、分析预测等高阶任务更快的完成，同时不浪费过多的空间资源。在讲习班上，主讲人介绍了近年来在网络嵌入方面的研究成果，对若干重要概念(Graph Embedding vs Network Embedding)加以区分讲解，并讨论了一系列网络嵌入中的重要基本问题，如我们为什么要重新审视网络表示，网络嵌入的研究目标是什么，如何学习有效的网络嵌入方法，评价网络表示的若干基本要素，还有网络嵌入方面的未来若干主要研究方向。另外，崔鹏教授所在团队发表一篇网络嵌入的综述，可以作为本讲习班的一个扩展阅读，arXiv地址：https://ift.tt/2AfsmNR 。

三、特邀演讲介绍

本次会议特别邀请了人工智能领域七位重量级嘉宾做了主题演讲，这七位特邀嘉宾分别为 Subbarao Kambhampati教授、Yejin Choi助理教授、Cynthia Dwork教授、Zoubin Ghahramani教授、Joseph Halpern教授、Charles Isbell教授和Percy Liang助理教授。他们分别从自己研究领域出发，分享自身研究成果，为观众带来一场AI知识盛宴。

1、人类感知AI系统的挑战——Subbarao Kambhampati

AAAI 2018主席，亚利桑那州立大学的Subbarao Kambhampati教授的演讲主题是《人类感知AI系统的挑战》（Challenges of Human-Aware AI Systems）。随着AI技术与我们日常生活越来越紧密的结合，使用AI系统协助人类工作的需求日益增加。要满足这些需求，AI系统需要更重视情感智能、社交智能等能帮助人类互相协同的智能方面。演讲中，Kambhampati教授介绍了设计具有人类认知功能的AI系统过程中遇到的挑战，包括对人类的心理状态进行建模、识别人类的意图、提供积极的帮助、采取具有可解释性的动作以及产生信任。此外，他还谈到人类感知AI系统的问题。探索这一问题可以扩大人工智能企业的研究范围，有效促进了真正的跨学科合作，甚至能够提高公众对人工智能技术的接受程度。

图2 Subbarao Kambhampati教授演讲现场

2、从纯粹的物理世界到内涵：用语言来学习和推理世界——Yejin Choi

华盛顿大学助理教授Yejin Choi的演讲主题是《从纯粹的物理世界到内涵：用语言来学习和推理世界》（From Naive Physics to Connotation: Learning and Reasoning about the World using Language）。常识性知识对于机器理解语言十分重要。然而这些常识往往不被言明，因而从语言交流中学习这些常识十分困难（例如人们往往不会在交流中直接说出类似于"房子比人大"这种常识）。Yejin Choi在演讲中介绍从语言中还原出这些日常知识的方法。方法的核心思想是：人们共有的隐性知识系统地影响着人们使用语言的方式，以语言使用方式为线索，真实世界的常识可以从语言中推理出来。（例如，从"我进入了房子"这句话就能推断出房子比我大。）在具体实施过程方面，她首先介绍了如何利用框架语义组织多种多样的常识，这些常识包括最简单的具体知识以及抽象的内涵知识。除了这种以框架语义表示为中心的方法外，她还介绍了利用神经网络的方法。最后，她讨论了这些方法所面临的挑战，并指出了该领域未来可能的研究方向。

图3 Yejin Choi助理教授演讲现场

3、我们应该如何评价AI的机器学习——Percy Liang

著名华人NLP专家，来自斯坦福大学的助理教授Percy Liang这次带来的演讲主题是《我们应该如何评价AI的机器学习》（How Should We Evaluate Machine Learning for AI?）。机器学习帮助人工智能取得的巨大成功，但它同时也带来了一种"训练-测试-评价"的范式。这种标准范式过分注重提高系统的平均表现，忽视系统在对抗样本上的表现，无法保证系统的鲁棒性。除此之外，这种范式对于交互式系统（对话系统）或没有正确答案的任务也无可奈何。Percy Liang在演讲中介绍了自然语言处理领域里一些其它的评价范式，并讨论了如何指导人工智能向有意义的方向发展。

图4 Percy Liang助理教授演讲现场

另外四位特邀嘉宾中，Cynthia Dwork教授讲了有关公平问题的研究，Zoubin Ghahramani教授讲了概率机器学习前沿动态，Joseph Halpern教授讲了关于真实推理问题的研究，Charles Isbell教授则讲了交互式机器学习研究中的问题和技巧。具体信息可以参考https://aaai.org/Conferences/AAAI-18/invited-speakers/。

在此次会议上，AAAI还专门推出了AI和人类协作新兴课题计划，其目的就是为了突出这些技术的挑战和机遇，同时展现新的人与AI伙伴关系的价值。因此，除七位特邀演讲嘉宾之外，还邀请了四位嘉宾，从他们的研究领域出发，分别从四个不同的角度对这一新兴课题进行阐述。具体信息可以参考https://aaai.org/Conferences/AAAI-18/haic/。

四、论文选介

1、最佳论文

本次会议的最佳论文（Outstanding Paper）奖一栏包括以下四篇文章：

1）最佳论文奖（Outstanding Paper）：Chenjun Xiao, Jincheng Mei, Martin Müller.Memory-Augmented Monte Carlo Tree Search

2）最佳学生论文奖（Outstanding Student Paper）：Jakob N. Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, Shimon Whiteson. Counterfactual Multi-Agent Policy Gradients

3）最佳论文奖提名（Outstanding Paper, Honorable Mention）：Juan D. Correa, Jin Tian, Elias Bareinboim. Generalized Adjustment Under Confounding and Selection Biases

4）最佳学生论文奖提名（Outstanding Student Paper, Honorable Mention）：Rachel Freedman, Jana Schaich Borg, Walter Sinnott-Armstrong, John P. Dickerson, Vincent Conitzer. Adapting a Kidney Exchange Algorithm to Align with Human Values

其中最佳论文奖的一作二作都是中国留学生，他们的导师Martin Müller是计算机围棋领域的顶级专家，主要研究领域包括：博弈树搜索和规划中的蒙特卡洛方法、大规模并行搜索、组合博弈论等。而AlphaGo的主要设计者David Silver和Aja Huang都曾师从于他。本文提出了一种记忆增强的蒙特卡洛树搜索算法，其核心思想是为蒙特卡洛树搜索增加一个记忆结构用来保存特定状态的信息，然后通过组合该记忆结构中相似状态的估计值对近似值进行估计。围棋任务上的实验表明该算法的性能在相同模拟次数情况下优于普通蒙特卡洛树搜索算法。

本次会议共录用自然语言处理领域论文73篇，其中句法语义分析、问答系统、表示学习、情感分析、文本生成、机器翻译和对话系统等领域录用数量相对较多。这里从每个领域中选取一篇有代表性的论文进行介绍。

2、句法语义分析

* Xiaochang Peng, Daniel Gildea, Giorgio Satta. AMR Parsing with Cache Transition Systems

AMR（Abstract Meaning Representation）是句子的一种语义表示，每个句子的含义都用一个有向图来表示，图5给出了一个AMR的例子。本文提出了一种新的转移系统，使得原本用于分析依存树结构的基于转移的分析方法能用于分析这种AMR语义图。具体来说，在原来转移系统的栈（stack）和缓存（buffer）之外，作者新增了一个具有固定长度的cache结构用于暂时保存图中节点，其中的所有节点都能与缓存中第一个节点之间产生弧，也就解决了分析图结构的问题。

图5 AMR语义图结构近年来随着研究者们对语义结构的日益重视，出现了越来越多图结构的语义语料库，相应的对语义图的分析方法研究也越来越多。本次会议上除了这篇文章之外，也有对依存语义图的分析方法的研究工作：

* Yuxuan Wang, Wanxiang Che, Jiang Guo, Ting Liu. A Neural Transition-Based Approach for Semantic Dependency Graph Parsing

当然，也有一些对传统短语结构树或者依存树的分析方法的研究工作：

* Lemao Liu, Muhua Zhu, Shuming Shi. Improving Sequence-to-Sequence Constituency Parsing

* Yi Zhou, Junying Zhou, Lu Liu, Jiangtao Feng, Haoyuan Peng, Xiaoqing Zheng. RNN-Based Sequence-Preserved Attention for Dependency Parsing

3、问答系统

* Lei Sha, Jin-ge Yao, Sujian Li, Baobao Chang, Zhifang Sui. A Multi-View Fusion Neural Network for Answer Selection.

社区问答(CQA)任务要求根据给定的问答从候选集合中选择最恰当的答案，之前的基于神经网络的方法通过计算attention的方式来收集、组合有用的信息，这种single-view的方法不能从多个方面来审视问题和候选答案，进而导致信息的丢失。本文提出了Multi-View Fusion Neural Network从多个view来表示答案。图6为inquiry type、inquiry main verb、inquiry semantic三个view的示意图，图7为co-attention view的示意图。

图6 inquiry views示意图

图7 co-attention view示意图

然后本文提出Fusion RNN来融合基于所有view的答案表示，Fusion RNN的结构如图8所示，在结构设计上借鉴了残差网络的思想。模型在WikiQA和SemEval-2016 CQA任务上取得了超过SOTA的结果。

图8 Fusion RNN示意图

此外，机器阅读理解可以被视为基于给定上下的问答任务，为今年来十分热门的一个研究任务，推荐本次会议录用的以下几篇论文作为扩展阅读内容：

* Chuanqi Tan*, Furu Wei, Nan Yang, Bowen Du, Weifeng Lv, Ming Zhou. S-Net: From Answer Extraction to Answer Synthesis for Machine Reading Comprehension.

* Tom Kenter*, Llion Jones, Daniel Hewlett. Byte-level Machine Reading across Morphologically Varied Languages.

* Haichao Zhu, Furu Wei, Bing Qin*, Ting Liu. Hierarchical Attention Flow for Multiple-choice Reading Comprehension.

* Xiao Zhang*, Xiao Zhang, Ying Su, Zhiyang He, Xien Liu, Ji Wu. Medical Exam Question Answering with Large-scale Reading Comprehension.

4、表示学习

* Noah Weber*, Niranjan Balasubrama, Nathanael Chambers. Event Representations with Tensor-based Compositions.

鲁棒和灵活的事件表示方法对许多语言理解的核心领域有重要意义，之前基于脚本的方法被用来表示事件序列，然而获取一个有效表示来建模类似脚本的事件序列非常有挑战性，需要同时捕捉事件和场景语义。本文提出了一种新的基于tensor的组合方法来表示事件，能够捕捉事件和事件实体间更加细微的语义交互，得到的表示在多个事件相关的任务上都非常有效。并且，藉由这种连续的向量表示，本文提出了一种简单的Schema（类似脚本的关于特定场景的知识）生成方法，得到比之前基于离散表示的方法更好的结果。

具体地，本文提出了两个tensor-based组合模型:

Predicate Tensor Model结构如图9所示，首先函数h组合谓词(predicate)的embedding和两个参数张量W（图9中蓝色张量W）、U来生成谓词张量W（图9中粉色张量W），然后函数g则将谓词张量和subject，object的embedding组合为最后的事件向量表示。

图9 Predicate Tensor Model示意图

但有时不需要共同建模谓词和其所有论元才能确定使用的上下文，比如知道football是throw的一个论元就可以确定该事件归属体育类。因此，本文提出了Role Factored Tensor Model，函数f根据参数张量T分别将谓词与subject和object组合得到，然后分别经变化并相加后得到最终的事件表示。Role Factored Tensor Model比Predicate Tensor Model使用了更少的参数，并且能够泛化到有任意数量论元的事件。

图10 Role Factored Tensor Model示意图

本次会议还有几篇关于更基本的词向量学习的论文：

* Qian Liu, Heyan Huang*, Guangquan Zhang, Yang Gao, Junyu Xuan, Jie Lu. Semantic Structure-Based Word Embedding by Incorporating Concept Convergence and Word Divergence

* Peng Fu*, Zheng Lin, Fengcheng Yuan, Weiping Wang, Dan Meng. Learning Sentiment-Specific Word Embedding via Global Sentiment Representation

* Danushka Bollegala*, Yuichi Yoshida, Ken-ichi Kawarabayashi. Using k-way Co-occurrences for Learning Word Embeddings

* Chen Li, Jianxin Li*, Yangqiu Song, Ziwei Lin. Training and Evaluating Improved Dependency-Based Word Embeddings.

* Mikel Artetxe*, Gorka Labaka, Eneko Agirre. Generalizing and Improving Bilingual Word Embedding Mappings with a Multi-Step Framework of Linear Transformations

5、情感分析

* Yukun Ma, Haiyun Peng, Erik Cambria. Targeted Aspect-Based Sentiment Analysis via Embedding Commonsense Knowledge into an Attentive LSTM

基于aspect的情感分析和基于target的情感分析是目前情感分析领域中两个重要问题。一句话可能对多个不同的事物表达不同的情感倾向，基于aspect的情感分析将一句话中的情感分成多个aspect，从而能预测出一句话中对不同事物的不同情感。而基于target的情感分析的目的则是分析出一句话对上下文中出现的给定目标（target）的情感倾向。本文提出了一种利用常识知识同时解决这两个问题的方法。作者在LSTM结构的基础上使用了多级注意力机制（hierarchical attention mechanism），分别计算了target级的注意力表示和句子级的注意力表示用以预测情感极性。此外，他们还对LSTM的结构做了改进，从而将常识知识的表示向量加入网络结构中。

图11 Attentive神经网络结构

图11是本文提出模型的基本网络结构，首先将句中每个词的词向量作为双向LSTM的输入，然后用每个词位置的隐层输出来表示对应词。其中棕色表示target词，这些词的表示被用来计算target级注意力表示向量。之后该表示向量与不同的aspect向量组合得到句子级注意力表示向量。最后将该句子级向量输入一个多分类器获得该句子对应aspect的情感倾向。

本次会议的情感分析方面论文还有几篇也是解决基于aspect的情感分析问题的，可以看出随着该领域近年来的快速发展，研究目标已经越来越细化，不局限于分析一个句子表现的整体情感倾向，而要分析对不同目标表现出的不同情感。

* Bailin Wang, Wei Lu. Learning Latent Opinions for Aspect-level Sentiment Classification

* Jun Yang, Runqi Yang, Chong-Jun Wang, Jun-Yuan Xie. Multi-Entity Aspect-Based Sentiment Analysis with Context, Entity and Aspect Memory

* Yi Tay, Anh Tuan Luu, Siu Cheung Hui. Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis

6、文本生成

* Lei Sha*, Lili Mou, Tianyu Liu, Pascal Poupart, Sujian Li, Baobao Chang, Zhifang Sui.Order-Planning Neural Text Generation From Structured Data

把结构化数据转换成文本对问答和对话等自然语言处理任务有重要意义。对于table-to-text任务，内容生成的顺序往往有一定的规律，如国籍经常出现在职业前(British writer)，因此本文提出order-planning文本生成模型显示建模内容生成的顺序。具体模型如图12所示，Encoder将表格的域(Field)和值(Content)一起作为LSTM-RNN的输入。Decoder解码的过程中使用的hybrid attention由content-based attention和link-base attention组成，首先对Encoder中LSTM-RNN的输出计算content-based attention ，link-based attention用于显示建模内容生成顺序，使用上一时刻的hybrid attention 和Link Matrix()来得到当前时刻的link-based attention ，其中指示域出现在域后的可能性。最后通过自适应的gate机制来组合得到。同时，模型的decoding时也引入了生成模型中常用的copy机制来更好的根据表格内容生成文本。提出的模型在WIKIBIO数据集上取得了目前最好的结果，并且做了充分的分离实验和样例分析。

图12 Hybrid Attention示意图

在本次会议中还有另外两篇专注Table-to-Text生成任务的文章，将结构化数据转换为自然语言形式的文本是近来比较热门的任务之一。

* Tianyu Liu*, Kexiang Wang, Lei Sha, Zhifang Sui, Baobao Chang. Table-to-text Generation by Structure-aware Seq2seq Learning.

* Junwei Bao*, Duyu Tang, Nan Duan, Zhao Yan, yuanhua Lv, Ming Zhou, Tiejun Zhao.Table-to-Text: Describing Table Region with Natural Language

7、对话系统

* Xiaoyu Shen*, Hui Su, Vera Demberg, Shuzi Niu. Improving Variational Encoder-Decoders in Dialogue Generation

Varitional encoder-decoder (VED)已经被广泛应用于对话生成，但与用于编码和解码的强大RNN结构，隐向量分布通常由一个简单的多的模型来近似，导致了KL弥散和难以训练的问题。在本篇论文中，作者将训练过程拆分为两个阶段：第一个阶段负责学习通过自编码(AE)将离散的文本转换为连续的embedding；第二个阶段学习通过重构编码得到的embedding来泛化隐含表示。这样一来，通过单独训练一个VED模型来对高斯噪声进行变化，进而采样得到隐变量，能够得到一个更加灵活的分布。在与当前流行的对话模型对比的实验中，本文提出的模型在自动评测和人工评价上均取得了显著提升。

图13 模型示意图

相比抽取式的回复生成方法，生成式的方法近来受到越来越多的关注，本次会议中如下几篇论文为有关研究生成式回复生成的文章：

* Nurul Lubis*, Sakriani Sakti, Koichiro Yoshino, Satoshi Nakamura. Eliciting Positive Emotion through Affect-Sensitive Dialogue Response Generation: A Neural Network Approach

* Weinan Zhang*, Lingzhi Li, Dongyan Cao, Ting Liu. Exploring Implicit Feedback for Open Domain Conversation Generation

* Yu Wu*, Wei Wu, Zhoujun Li, Can Xu, Dejian Yang. Neural Response Generation with Dynamic Vocabularies

8、机器翻译

* Kehai Chen*, Rui Wang, Masao Utiyama, eiichiro sumita, Tiejun Zhao. Syntax-Directed Attention for Neural Machine Translation

注意力机制（attention mechanism）对于神经机器翻译（NMT）来说具有决定性作用。传统NMT中使用的注意力机制的权重往往是距离目标词线性距离越远就越小，却忽略了句法距离的限制。本文扩展了NMT中的传统的局部注意力机制，用句法距离代替线性距离决定权重。从而提高了系统性能。此外，他们还将该方法与全局注意力机制结合，进一步提高了系统性能。

图14 句法距离注意力机制示意图

图14中上图是原句的句法树结构，上面用蓝色标出了每个词在树结构上与当前词"分子"的距离。下图用不同颜色表示了每个词与当前词"分子"在句法树上的距离，具体见下方柱形图（例如：绿色表示句法距离为2）。

本次会议录取的机器翻译领域论文较多，也有独立的session，这些工作中有利用了多语言数据的，也有提出了新的网络结构的：

* Zhirui Zhang, Shujie Liu, Mu Li, Ming Zhou, Enhong Chen. Joint Training for Neural Machine Translation Models with Monolingual Data

* Chen-Tse Tsai, Dan Roth. Learning Better Name Translation for Cross-Lingual Wikification

* Shenjian Zhao, Zhihua Zhang. Attention-via-Attention Neural Machine Translation

* Jinsong Su, Shan Wu, Deyi Xiong, Yaojie Lu, Xianpei Han, Biao Zhang. Variational Recurrent Neural Machine Translation

五、总结

虽然本文主要只从自然处理相关领域的视角介绍了AAAI 2018会议，但管中窥豹可见一斑，从这些介绍中就能看出AAAI会议的盛况及其在人工智能领域越来越大的影响力，同时也能发现越来越多华人的身影活跃在人工智能研究的世界舞台上。AAAI 2019将在美国夏威夷州火奴鲁鲁市举办，期待中国学者能在人工智能领域获得更卓越的成果。

本期责任编辑：刘一佳

本期编辑：吴　洋

"哈工大SCIR"公众号

主编：车万翔

副主编：张伟男，丁效

责任编辑：张伟男，丁效，赵森栋，刘一佳

编辑：李家琦，赵得志，赵怀鹏，吴洋，刘元兴，蔡碧波，孙卓

微信超链接地址：https://mp.weixin.qq.com/s/P2uL9eM9w852Gbgq9eLd3Q

]]> 原文： https://ift.tt/2jyrs8c

机器知心

这家专门为盲人制造AI可穿戴设备的公司，估值刚刚达到10亿美元

美国空军退役军官 Stephen Hamilton 在完全失明并放弃治疗之前，已经接受了 7 次失败的角膜移植手术和 18 次外科手术。失明后的他不得不辞去网络工程师和建筑师的工作。

Stephen Hamilton他曾经参加过一个为期数月的训练课程，该课程针对的是弱视和失明的退伍军人，帮助他们在内华达州里诺市的 VA 中学习方位导航，Hamilton 有机会尝试了一个小型的阅读辅助设备。

这款附着在眼镜上的可穿戴设备叫做 OrCam MyEye，当用户用手指指向一处印刷文本时，比如一个符号、一本书、一张报纸、一份菜单等，它就会利用深度学习来解析该文本语言，并通过一个小喇叭将其朗读出来。

尽管 Hamilton 已完全失明，但他的表现也展示出，他有能力使用 MyEye，而这款产品主要是为弱视人士设计的。

在他第一次返回中心房间时，他驻足在门前（他知道房间在哪里，因为他已经学会了计算到那里的时间）并用手指向标志。「Stephen Hamilton，」设备朗读道。「我哭了出来，因为我意识到，自己是可以获得一些自理能力的，」Hamilton 说。

现在，Hamilton 随处都带着它。制造这款穿戴设备的以色列公司在 2017 年 10 月发布了一款全新的无线版文本识别设备 MyEye 2，Hamilton 在第一个月就买下了它。

可以说 OrCam 改变了 Hamilton 的生活。

这家公司由计算机科学家 Amnon Shashua 和企业家 Ziv Aviram 于 2010 年创立，在 2018 年估值达到 10 亿美元。

这款产品的成功主要归功于其聪颖而直观的界面，该界面操作起来简洁易懂，操作过程主要基于「用手去指」这个手势。

用户只需指向任何想要读取的文本，摄像头就会对手进行识别，然后对文本拍照并朗读内容。

该设备异常精确，你可以指向一页中的特定一行，它会从那个位置开始阅读。

「我们认为，用手指向某物，这是最自然的人类行为，」该公司的 CEO Aviram 说道，「比如儿童，他们会指着某物问，这是什么？」

基于指向手势的 MyEye 在绝大多数情况下都能正常工作，提醒用户页面是否颠倒，或是没有足够的自然光。不过它也有很多其它用途：

它可以记住并识别 100 张面孔、识别出数百万种产品、存储 150 种附加对象，比如信用卡信息或杂货店购买清单，还能识别颜色，这在用户出门前选衣服时特别有用。

MyEye 根据用户所指向的位置决定阅读内容，这对于全盲用户来说或许有些困难，尽管 Hamilton 称他在几周后便适应了这种导航操作。该产品还有个自动面部识别模式，可以读出所有进入用户视线的人的名字。

用户只需转一转手腕，像假装看表那样，MyEye 就会播送当下的时间；要禁用阅读功能，用户只需做出一个停止的手势。

「在我的想象中，盲人就是残疾人。但我不再感到自己是残疾人了，」Hamilton 说，「我感受到了从未奢求过的自由。」

原理解析

OrCam 花了 5 年的时间开发 MyEye，包括于 2015 年推出的手势界面。在开发过程中，Aviram 说，他和他的团队与数百名潜在用户交谈，其中有 90% 的人表示，他们想要获得阅读能力。这令他感到惊讶，因此，为了加深对这一需求的理解，他试图花一天的时间来做试验，避免让自己通过眼睛阅读。

「一个小时后，我明白了为什么这很重要，」他说。「只要 5 分钟，你就会明白，我们的世界有太多东西是由书面材料构成的。」

MyEye 的其余功能也来自用户研究。

一些用户要求颜色识别能力，这是 Aviram 也未曾想到的。有人说：「我不能在一米远的地方认出我的妻子，」Aviram 说，并促使团队增加面部识别功能。

许多这些功能也可以在其它产品中见到，但后者往往只提供其中之一。Hamilton 注意到了他的许多其它设备：一个笨拙的文本阅读器、一个条形码读取设备、一个颜色识别设备。「它并不是那么实用，」他说道，「我不可能把那个大东西拖到邮箱里，然后浏览我的邮件。」

第一版 MyEye 还包括一个智能手机大小的计算包，通过一根电缆连接到相机。MyEye 2.0 则不再需要这个额外的计算包——整个装置的尺寸约等于你的手指大小，只有 0.8 盎司。

难以置信的是，所有功能——文本-语音转化以及面部 & 物件识别——都没有使用云端协助，完全是在该微型设备内进行。OrCam 1.0

MyEye 使用深度学习算法进行训练，基于数百万张文本和产品图像。「这差不多类似于儿童学习新事物的过程。」Aviram 说，「将其暴露于大量的数据和复杂的算法中，你可以教设备识别不同的产品、面孔和语言。」所有处理过程都是实时离线完成的，这是保护用户隐私的重要举措。

据该公司称，这款设备已经为 Hamilton 及成千上万个用户提供了一种新式自理能力。「去书店坐下来，阅读一本书，这是一件乐事。」Hamilton 说，「除非看到我的手杖，否则没有人知道我是盲人。如果他们真的发现了，就会感到有点不知所措，因为我正在餐馆里看一本普通的书或菜单。」

该设备经历过若干小时的训练，同样，用户也需要经历若干星期才能适应它，特别是在头部定位方面。

目前，Hamilton 对该产品的最大抱怨在于，它的续航能力只有 1.5~2 个小时，而充电过程则需要 40 分钟。无论去哪里，他都得随身携带一个备用电池组。他也希望有那么一天，自己无需再配戴眼镜，MyEye 可以被安装到耳朵后面去。

但 MyEye 也会犯一些错误。Hamilton 回忆说，有一次他在餐馆用餐，MyEye 1.0 将女服务员误认成了男性；但是二代 MyEye 再没有犯过这种错误。

OrCam 的潜在用户不仅仅是弱视者和盲人，还包括难语症患者或有其它阅读障碍的人，以及厌倦快速阅读的老年人。

到目前为止，OrCam 称它已经在 23 个国家售出了数万台设备，并支持 18 种语言——该团队目前正在研究东亚语言。

同时，Aviram 也在展望这种手势界面的未来。

MyEye 2.0 包括一个麦克风，「是为更加高级的接口做准备，」他说。他设想将语音助手和手势系统集成在一起，这样用户就能够进行更自然的人机对话。

例如，用户可以指向一个文档，并问 MyEye 那是什么。如果那是他们的电话账单，那么用户就可以向 MyEye 询问话费，而不是要求该设备读取整个页面，或是随机指向来找出正确信息。

这种手势-语音的组合界面将允许用户让 MyEye 只读取相关标题，然后再要求它阅读特定章节的完整内容。

眼下，令一些用户懊恼不已的是，MyEye 无法为他们提供更多有关其面前场景的信息。在 OrCam 的销售总监 Rhys Filmer 给我演示这个设备时，他告诉我有些人希望它能描述他们面前的场景——从本质上说，他们希望它完全取代自己的视觉。

但这项技术还不太成熟，而且需要将 MyEye 连接到智能手机或云端，而这就涉及到隐私问题了。

现在，MyEye 向我们展示了手势界面的未来，我们可以使用自己的声音和身体来与一个智能助手进行轻松的交流，它会为你转述并响应这个世界。

虽然这种技术不能帮助盲人重拾光明，但却可以帮助他们更有效地导航方位——在一个不是为他们而设计的世界里。

]]> 原文： https://ift.tt/2FNASFM

机器知心

世界上「秘密最多」的梵蒂冈档案室，将因为AI技术而大白于天下

梵蒂冈秘密档案室是世界上最伟大的历史收藏馆之一，然而也是最无用的收藏馆。

伟大之处显而易见。梵蒂冈秘密档案室位于梵蒂冈城墙之内，紧邻使徒图书馆，位于西斯廷教堂北侧，秘密档案室内存放的书架甚至可追溯到 12 世纪之前，排列起来可达 53 英里。

其中包括教皇利奥十世下令驱逐马丁路德的教令、苏格兰玛丽女王被斩首前写给天主教教宗西都斯五世的求情信。无论是在收藏规模或是收藏范围上，梵蒂冈秘密档案室都是无可比拟的。

然而，因为能够接触到的文件极其有限，梵蒂冈秘密档案室对现代学者来说没有太多用处。在这长达 53 英里的文件中，有少部分文件经过扫描提供在线访问。仅有更少量的文件被转录为计算机文本能够进行搜索。如果你想要研读其他文件，你必须申请特殊的访问权限，一路通行前往罗马，最后手动浏览每一页。

一项新兴的项目可能会改变现状。这项技术被称为 In Codice Ration，将人工智能和光学字符识别（OCR）软件相结合来转录这些被忽视的文本，首次让这些记录文本大白于天下。

如果成功的话，这项技术还能开启其他隐藏在世界各个历史档案馆中的文件。

多年来，OCR 一直用于扫描书籍、打印文件，但是这项技术并不适用于存放在梵蒂冈内的机密档案。传统的 OCR 通过查找字符之间的空白将单词分解成一系列字母图像。然后 OCR 将字母图像与内存中的字母库进行比对。找出与图像最匹配的字母，软件将该字母转录为计算机 ASCII 编码，从而让文本实现可搜索化。

然而，这个过程却只能用于排版后的文本。对于手写文本，传统 OCR 的表现很糟糕——而绝大多数古老的梵蒂冈文件却正是手写文本。下图是一份 12 世纪早期文件的例子，是以所谓的卡罗琳小写字体书写的，看起来就像是书写体和手写体的混合：

这个例子的主要问题就在于字母间缺少空格（所谓的脏分割），OCR 无法分辨单个字母的起止位置，因此也就无法统计字母的数量。最终就造成了一个计算上的僵局，有时也被称为 Sayre 悖论：

OCR 软件需要将单词分割成单个字母从而进行识别，但是手写文本有大量的连写，软件要想分割字母必须要先识别字母。这就是矛盾所在，就像是《第 22 条军规》。

一些计算机科学家想要重新开发 OCR 技术，不再仅识别单个字母，而是识别整个单词。单从技术上来讲，改进的 OCR 很不错——计算机不会「关心」它们解析的是单词还是字母。但建立系统并让它正常运转是一种负担，这需要庞大的存储库作为支撑。

新型系统的记忆库不再是寥寥数十个字母，取而代之的是大量普通单词，系统需要根据这些单词库进行单词图像识别。这意味着你还需要一组对中世纪拉丁语有充分造诣的学者，查阅旧档，获取单词的图像。

事实上，每个单词你需要几张不同的图像，来解释笔迹的不同或者糟糕灯光或是其他因素造成的单词差异。这是一项艰巨的任务。

In Codice Ratio 团队采取了一种新的手写 OCR 方法避免了上述问题。

这个项目四位主要的科学家分别是——罗马第三大学的 Paolo Merialdo、Donatella Firmani 和 Elena Nieddu 以及 VSA 的 Marco Maiorino——他们以一种新型的「拼图分割」方法成功绕开了 Syaer 悖论。

该团队在论文中表示，拼图分割没有将单词分割为字母，而是分割成一种更接近单个笔画的东西。OCR 通过将单词划分为一系列垂直、水平带，并寻找局部最小——更薄的部分，那里的墨水较少（实际上是像素更少）。然后软件则根据这些局部点分割字母。最终得到的结果是一系列拼图块：

然而，这些拼图块并没什么用。但是 OCR 软件可以用不同的方式把它们重新组合，重现出一些可能的字母。它只需要知道重组后的字符哪些代表真正的字母，哪些是假的。

为了让软件学会这一点，研究员们向一个特殊群体寻求帮助：高中生。该团队在意大利 24 所学校招募学生建立项目自己的记忆库。学生们登录一个网站，屏幕上出现三个部分的图片：

最上面绿色方框中包含的就是清晰的中世纪拉丁文「g」的例子。

中间的红框则是一些 g 的虚假例子，Codice 科学家们称其为「假朋友」。底部的网格则是程序的核心部分。每一副图像均由几个拼图构成，OCR 则尝试将其组合在一起猜测出可能的字母。

随后学生们则会判断 OCR 得出的结果，告诉它哪些猜测是好的，哪些猜测不好。他们把每张图片和绿框中的例子相比较，如果相匹配，就点击那个复选框。

一张又一张图片，一次又一次的点击，学生们就这么教会软件——中世纪拉丁文的 22 个字母（a-i，l-u，还有一些 s 和 d 的不同写法）到底是什么样子的。

软件最初的设置确实需要一些专家们的努力：学者们需要找出绿框中完美的例子，以及红框中的「假朋友」。但是一旦他们完成这些工作，后续就不再需要他们了。学生们甚至都不需要能阅读拉丁文。他们需要做的就是视觉模式匹配。

最初，「他们觉得让高中生参与进来这个实在是愚蠢，」Merialdo 说道（Merialdo 凭空想出了 In Codice Ratio 项目）。但是现在正是由于这些高中生的努力才使得 OCR 正在学习。每个人都做出自己微小的，简单的贡献，确实有助于解决一个复杂的问题，我喜欢这种方式。

当然，最后学生们也帮不上忙了。一旦他们在足够多的例子上投下「是」的赞成票，软件就会开始独立地将碎片拼在一起，自行判断字母。软件本身就成为了一个专家——成为了人工智能。

至少是某方面的人工智能。事实证明，把拼图块拼成看似合理的字母是不够的。计算机还需要额外的工具来理清手写文本其他的问题。想一下你正在读一封信，你会发现这句话：

这究竟是对他们来说是「清楚（clear）」还是「亲爱的（dear）」？

很难说，因为构成「d」和「cl」的笔画实际上是相同的。OCR 软件面临同样的问题，尤其对 Caroline 小写字体这种高度风格化的文本来说更是如此。你尝试破译一下这个单词：经过不同的拼图组合的尝试之后，OCR 举手回答了。它猜是 aimo、amio、aniio、aiino 中的一种，甚至猜测是童谣『老麦当劳有个农场』中的一个单词 aiiiio。

事实上，这个单词是 anno，拉丁语表示「年」，软件确定了 a 和 o，但是中间这四个平行的柱子让它有些搞不清。

为了解决这一问题，In Codice Ratio 团队必须教授软件一些常识——实践性智能。

他们找出了 150 万本已经数字化的拉丁词语料库，对字母进行了两两组合以及三三组合。他们确定哪些字母的组合常见，哪些字母的组合不会出现。OCR 软件使用这些统计数据为不同的字母组合分配概率。最终，软件发现「nn」比「iiii」更有可能。

对软件进行改进之后，OCR 终于能够自主阅读一些文本了。团队决定向 OCR 馈送一些 Vatican Registers 文件，一份超过 18000 页的文件，秘密档案的一部分，其中包括写给欧洲国王的信件、法律的裁定等。

最初的结果好坏参半。到目前为止，在文本转录过程中，有三分之一的单词包含一个或多个拼写错误，这也让 OCR 猜错了字母。（最常见的拼写错误包括 m/n/i 的混淆和另一种分辨不清的情况：字母 f 和一种古式的拉长型 s 写法）。

不过，该软件在手写信件中还是达到了 96% 的正确率。而且，即使是「不完美的转录也能提供足够的信息和背景资料」，这是很有用的，Merialdo 如是说道。

文章来源：https://ift.tt/2JUYxGv

]]> 原文： https://ift.tt/2ro9MQW

机器知心

当我们在谈论 DRL：从AC、PG 到 A3C、DDPG

本系列意在长期连载分享，内容上可能也会有所增删改减；

因此如果转载，请务必保留源地址，非常感谢！

知乎专栏：当我们在谈论数据挖掘

引言

在"当我们在谈论 DRL：从Q-learning到DQN"中，我们简单回顾了 RL 的基础知识，并介绍了结合 RL 与 DL 的 DQN。其中介绍的算法基本都是先计算出 Value Function，然后依靠某种规则得到 Policy。在本篇中，我们聚焦于那些直接对 Policy 进行参数化并优化的方法，即 Policy Based 算法。其中有些算法会需要同时对 Policy 和 Value Function 进行参数化并计算，即 Actor Critic 算法。

需要解释的是，由于我希望对 Policy Based 算法有个较系统的梳理，所以本文涉及的知识点会比较多；但限于篇幅，不会对每个细节进行详细的介绍。这里先给出一张 RL 算法分类/演进示意图（图出自强化学习（Reinforcement Learning）的方法分类）。需要深入理解相关知识的同学可以按图索骥。

Policy Approximation

这里我们用 \pi(a|s, \theta) 表示参数化的 Policy ，其中 \theta 为需要优化的参数，即

\pi(a|s, \theta) = P[A_t=a|S_t =s, \theta_t=\theta]

于是通过提升/降低某些 P(a|s) 我们就能对 Policy 进行调整，即优化 Policy 成为了优化 \theta 的问题。

对离散 Action，我们一般可以使用 softmax 来计算 \pi(a|s, \theta) ，其中 h(s, a, \theta) 可以看作对此状态的倾向

\pi(a|s, \theta) = \frac{exp(h(s, a, \theta))}{\sum_b exp(h(s, a, \theta))}

Policy Gradient

我们将优化目标 \eta 定义为

\eta(\theta) = v_{\pi_{\theta}}(s_0)

其中 v_{\pi_{\theta}} 表示 \pi_{\theta} 的 Value Function，于是有

\frac{\partial \eta}{\partial \theta} = \frac{\partial \eta}{\partial \pi}\frac{\partial \pi}{\partial \theta}

由于 \eta(\pi) 的解析式一般很难求解，计算其梯度自然也是不太可能的。幸运的是，Sutton 在 "Policy gradient methods for reinforcement learning with function approximation. 2000"给出了更加简易的求解式，并将 \nabla \eta(\theta) 与 q(s,a) 联系了起来，即影响深远的 Policy Gradient Theorem，如下

\begin{align} \nabla \eta(\theta) &= \nabla v_{\pi_{\theta}}(s_0) \\ &= \sum_s \sum_{k=0}^{\infty}{\gamma^k P(s_0 \rightarrow s,k,\pi)} \sum_\alpha \nabla \pi(a|s) q_\pi(s,a)\\ &= \sum_s d_\pi(s) \sum_a \nabla \pi(a|s) q_\pi(s,a) \\ \end{align}

其中， P(s_0 \rightarrow s,k,\pi) 表示当起始状态为 s_0 ，通过 Policy \pi 执行 k 轮后，状态为 s 的概率。 d_\pi(s) 表示此折扣型回报条件下的折扣分布。此式的证明可以参考原文或《reinforcement learning :an introduction》的 Section 13.2，此处不再赘述。

有了 \nabla \eta(\theta) ，我们就能根据梯度下降来更新 \theta （使 \eta 增长最快的方向）。

REINFORCE 算法

Policy Gradient Theorem 虽然简化了 \nabla \eta(\theta) 的计算，但一般 d_\pi(s) 仍然是未知的。观察公式可以看出， d_\pi(s) 其实是加权的概率，若我们将折扣因子提出来后，剩余部分则可以通过采样的方式来近似，即

\begin{align} \nabla \eta(\theta) &= \sum_s d_\pi(s) \sum_a q_\pi(s,a) \nabla_\theta \pi(a|s,\theta) \\ &= E_\pi[\gamma^t \sum_a q_\pi(S_t,a) \nabla_\theta \pi(a|S_t,\theta)] \\ \end{align}

可以看出， \nabla \eta(\theta) 已经可以通过采样来计算。但是这样每次计算梯度都需要采样多个 Action，效率比较低，若我们仅采样一个 Action 用于估计其期望，有

\begin{align} \nabla \eta(\theta) &= E_\pi[\gamma^t \sum_a \pi(a|S_t,\theta) q_\pi(S_t,a) \frac{\nabla_\theta \pi(a|S_t,\theta)}{\pi(a|S_t,\theta)}] \\ &= E_\pi[\gamma^t q_\pi(S_t,A_t) \nabla_\theta log \pi(A_t|S_t,\theta)] \\ &= E_\pi[\gamma^t G_t \nabla_\theta log \pi(a|S_t,\theta)] \\ \end{align}

至此，我们每步仅需要采样一个 Action 即可估算梯度。这就是 Williams 在"Simple statistical gradient-following algorithms for connectionist reinforcement learning. 1992"提出的 REINFORCE 算法，其具体步骤如下

可以看出，REINFORCE 算法是典型的 Monte-Carlo 算法，因此也就拥有 MC 算法的特点：很好的收敛性，但收敛较慢；只能处理有终止 State 的任务，且较高的 Variance。

也有简单的办法减少 REINFORCE 算法的 Variance，即 REINFORCE with Baseline。由于

\sum_a b(s) \nabla_\theta \pi(a|s,\theta) = b(s) \nabla_\theta \sum_a \pi(a|s,\theta) = b(s) \nabla_\theta 1 = 0

其中 b(s) 是一个与 a 无关的变量，于是有

\nabla \eta(\theta) = \sum_s d_\pi(s) \sum_a (q_\pi(s,a)-b(s)) \nabla_\theta \pi(a|s,\theta)

通常，可以将 b(s) 设置为 v(S_t, w) 。然后在优化的过程中，同时更新参数 w,\theta ，实现对 v(s),\pi(s) 的求解。REINFORCE with Baseline 具体的流程如下

Actor Critic

Actor Critic 是一类算法的统称，从概念上跟以前介绍的 GAN 很像，包含两个模块：Actor（执行器）和 Critic（评价器）。其中，Critic 用于评价当前状态，具体来说就是 bootstrap 地估计 Value Function；而 Actor 用于改进当前 Policy，即根据 Value Function 来更新 Policy 参数。凡是有此类性质的算法都属于 Actor Critic 算法。

上面介绍的 REINFORCE 算法虽然也同时学习了 Policy 和 Value Function，但它并不属于 Actor Critic。原因在于，它学习出的 Value Function 只是作为 baseline，而不是用于 bootstrap。

比如，将上述 REINFORCE with Baseline 算法修改为 Actor Critic 形式，可以将 G_t 用 One Step Return 来替代，则有

Deterministic Policy Gradient

上面我们介绍的都是 Stochastic Policy，即采取的 Action 是不确定的，如上面所写

\pi(a|s, \theta) = P[A_t=a|S_t =s, \theta_t=\theta]

对 Stochastic Policy 计算题度时，如上述公式所述

\nabla \eta(\theta) = \sum_s d_\pi(s) \sum_a q_\pi(s,a) \nabla_\theta \pi(a|s,\theta)

即必须同时对 State 空间和 Action 空间进行采样，对于高维 Action 空间任务，代价是很大的。

Deterministic Policy Gradient 由 Silver 在"Deterministic policy gradient algorithms. 2014"中提出。对于 Deterministic Policy，State 与 Action 的映射关系是确定的，写作

a = \mu_\theta(s)

按常理推断，如果 Deterministic Policy 的梯度也存在的话，其计算应该只需要对 State 空间采样即可。这能显著提高 Action 空间较大的任务的优化，如典型的机器人任务。不过为了达到能对 Environment 进行探索的目的，可以借助 Actor Critic 与 Off Policy。

如前文所说，Off Policy 即 Actor 和 Critic 的 Policy 是不一样的，即 \beta(s) \ne \mu(s) 。于是我们可以将优化目标定义为 Target policy 的 Value Function 的积分，并且根据 Behavior policy 进行加权，有

\begin{align} J_\beta(\mu_\theta) &= \int_S \rho^\beta(s)V^\mu(s)ds \\ &= \int_S \rho^\beta(s)Q^\mu(s, \mu_\theta(s))ds \\ \end{align}

根据论文推导，梯度的计算为

\begin{align} \nabla_\theta J_\beta(\mu_\theta) &\approx \int_S \rho^\beta(s) \nabla_\theta \mu_\theta(a|s) Q^\mu(s,a)ds \\ &= E_{s\sim \rho^\beta}[\nabla_\theta \mu_\theta(s) \nabla_a Q^\mu(s,a) |_{a=\mu_\theta(s)}] \\ \end{align}

可以看出，梯度计算已经不需要对 Action 进行采样了。具体的推导比较复杂，这里就不再展开，建议参考原文。

Deep Deterministic Policy Gradient

与 DQN 一样，有学者尝试将 DPG 与 DL 结合，于是有了"Continuous control with deep reinforcement learning. 2015"中的 DDPG。DDPG 与 DPG 的最主要区别就在于利用神经网络来学习 \mu(s) 与 Q(s,a) 。

在 DQN 中对 Q(s,a) 的学习方法概括下来就是：

\begin{align} & \mu(s) = argmax_a Q(s,a) \\ & Q^*(s,a) = r + \gamma Q(s',\mu'(s');\theta^{Q'}) \\ & L(\theta^Q) = E_{s,a,r}[(Q^*(s,a) - Q(s,a;\theta^Q))^2] \\ \end{align}

其中， Q^*(s,a) 为我们期望学习的目标。虽然DQN 本身已经能处理大规模连续空间的问题，但是按照作者的说法，每一步都求解 \mu(s) = argmax_a Q(s,a) 的效率是很低的。如果能直接求解 \mu(s) 那么效率就大大提升了。

于是可结合上文所述的 Policy Gradient 方法，刚好我们在 DPG 中已经有了求解 \mu(s) 的算法，即

\nabla_{\theta^\mu} J \approx E_{s\sim \rho^\beta}[\nabla_{\theta^\mu} \mu(s|\theta^\mu) \nabla_a Q(s,a|\theta^Q) |_{a=\mu(s)}]

接下来，就是将 \mu(s;\theta^\mu) 与 Q(s,a;\theta^Q) 利用神经网络来表示，并利用梯度下降来更新。由于整套方案几乎就是融合了 DQN 和 DPG，具体细节不再赘述，可以参考相关章节。其步骤如下

A3C

A3C(Asynchronous Advantage Actor-Critic) 是 DeepMind 在"Mnih V, Badia A P, Mirza M, et al. Asynchronous Methods for Deep Reinforcement Learning. 2016"中提出的一种 DRL 算法，主要优势在于大大提高了训练的效率。同时A3C也代表着一种新的 Actor Critic 算法训练框架，可以与不同的 RL 算法结合使用，具有很强的扩展性。下面我们详细介绍一下

A3C 中的 Value Function

作者首先定义了Advantage A 如下

A(s,t) = Q(s,a)-V(s)

这里 A 可以理解为采用当前 Action 得到的 Q(s,a) 比平均 Value Function V(s) 要优秀多少，这也是为什么叫做 Advantage。

Q(s,t), A(s,t) 的估计可以通过采样获得，即

\begin{align} & Q(s,t) = r + \gamma V(s') \\ & A(s,t) = Q(s,a)-V(s) = r + \gamma V(s') - V(s) \\ \end{align}

其中， V(s) 需要用网络来学习。

当然，上述 Q(s,t) 是 One Step 的，而 A3C 中作者使用的是 N Step，即

Q(s,t) = r_t + \gamma r_{t+1} + ... + \gamma^{n-1} r_{t+n-1} + \gamma^n V(s')

按照作者的说法，N Step 中单次 Reward r 能直接影响先前 n 个 pairs，可以加速收敛。

A3C 中的 Policy

A3C 中 \pi(a|s) 也需要用网络来学习。在 REINFORCE with Baseline 部分，我们提到过

\nabla \eta(\theta) = \sum_s d_\pi(s) \sum_a (q_\pi(s,a)-b(s)) \nabla_\theta \pi(a|s,\theta)

通常， b(s) 被设置为 Value Function v(s) ，于是公式可以写成

\nabla_\theta \eta = \sum_s d_\pi(s) \sum_a A(s,a) \nabla_\theta \pi(a|s)

A3C 中的 Actor Critic

如上述所说， \pi(a|s),V(s) 都用网络来表示，即

其中，则 \pi 作为 Actor，需要学习出更优秀的 Policy；而 V(s) 为 Critic，需要学习出更准确的 Value Function 对现状进行评价。

A3C中的 Asynchronous 训练框架

在"当我们在谈论 DRL：从Q-learning到DQN"的 DQN 部分，我们介绍了利用 Experience Replay 来减少训练数据相关性，来提高训练效果的方法。在 A3C 中，作者利用多线程并行（异步）地对环境进行探索，分别产生训练数据。不同线程的数据天然是不相关的，自然也就不再需要 Experience Replay 了。同时，异步探索使得采样速度更快、分布更加均匀，也能提高训练效果。其示意图可以用下图来描述

最后，A3C 的具体步骤如下

小结

本文跟随 Policy Based 算法的发展，简单介绍了过程中较为著名的 RL/DRL 算法。可以看出，不论是 PG -> DPG -> DDPG -> A3C，甚至包括上一篇文章介绍的 Q-learning ->DQN，其实都有着很明确的逻辑链条（更多的是继承，以及每次一小步的突破），才终于缓慢进化到如今的 Alphago、Dota AI、StarCraft AI 等，每每想来总会感慨学术发展的不易。当然，限于水平与时间有限，RL/DRL 部分只能以极短的篇幅简单介绍，大家需要更深入的学习还是得回归论文与书籍。

尾巴

"当我们在谈论 Deep Learning"系列从开始写到现在大半年的时间，从最初的 Backpropagation，到超参数，再到架构如 CNN、RNN 等，再到 Unsupervised Learning，以及最后的 Reinforcement Learning 与 Deep Reinforcement Learning，算是基本完成了本人最初"对 Deep Learning 相关理论知识的简单梳理与介绍"的目标。同时在此，也对过程中提出改进建议与参与阅读的同学表示感谢！

当然，新的系列仍然还是会写下去，只不过内容与形式我还没有确定下来，或许会换换口味哈哈。

本系列其他文章：

专栏总目录（新）

via 当我们在谈论数据挖掘 - 知乎专栏 https://ift.tt/2FOtJF3

RSS6

专栏总目录（新）

当我们在谈论GBDT【完结】

由于 GBDT 效果一直比较好，加上 XGBoost 的易用性，GBDT 近几年在Kaggle等竞赛中受到追捧。同时，也带火了相关的一些 Ensemble Learning 算法。我想系统的梳理一下相关的知识点，但网上有关 GBDT 的文章相对琐碎，所以有了这个系列。这个系列主要从理论层面去梳理相关概念，包含的文章如下：

当我们在谈论GBDT：从 AdaBoost 到 Gradient Boosting

当我们在谈论GBDT：Gradient Boosting 用于分类与回归

当我们在谈论GBDT：其他 Ensemble Learning 算法

当我们在谈论 Deep Learning

Deep Learning 是众多机器学习算法中的一种。它起源于60年代的 Perceptron，经过80年代的 Artificial Neural Network，现阶段被称为 Deep Learning。迄今为止，是"有监督学习"领域最强大的算法类型，暂时还没有"之一"。同时，它也正在往"无监督"和"强化学习"领域扩散。网络上虽然已经有不少介绍 Deep Learning 的文章，但是大多不成系统，或作者并没有持续更新。因此便想自己写一个系列，梳理 Deep Learning 经典结构或算法，尽量保持更新。本系列包含的文章如下：

Supervised Learning：

当我们在谈论 Deep Learning：DNN 与 Backpropagation

当我们在谈论 Deep Learning：DNN 与它的参数们（壹）

当我们在谈论 Deep Learning：DNN 与它的参数们（贰）

当我们在谈论 Deep Learning：DNN 与它的参数们（叁）

当我们在谈论 Deep Learning：CNN 其常见架构（上）

当我们在谈论 Deep Learning：CNN 其常见架构（下）

当我们在谈论 Deep Learning：RNN 其常见架构

Unsupervised Learning：

当我们在谈论 Deep Learning：AutoEncoder 及其相关模型

当我们在谈论 Deep Learning：GAN 与 WGAN

Reinforcement Learning：