AI 人工智能新闻资讯

2018年2月5日星期一

专访 AAAI 2018 最佳论文作者，记忆增强蒙特卡洛树搜索细节解读

AAAI 2018 大会已于 2 月 2 日在美国新奥尔良开幕。在此之前，大会获奖论文的结果已经放出，阿尔伯塔大学提交的论文《Memory-Augmented Monte Carlo Tree Search》获得了 AAAI 2018 大会的杰出论文奖。该论文作者分别为博士生 Chenjun Xiao、梅劲骋与教授 Martin Müller。

Chenjun Xiao 硕士与博士阶段均就读于阿尔伯塔大学，师从 Martin Müller 教授。

梅劲骋本科毕业于华南理工大学，研究生赴上海交通大学，师从计算机系吕宝粮教授。2015 年起，他来到阿尔伯塔大学攻读博士，导师为 Dale Schuurmans 教授。

该论文的导师，阿尔伯塔大学教授 Martin Müller 则因计算机围棋而闻名于世。Müller 教授所带领的团队在博弈树搜索和规划的蒙特卡洛方法、大规模并行搜索和组合博弈论方面颇有建树。围棋程序 AlphaGo 的设计研发主导人物 David Silver 和黄士杰（Aja Huang）（他们分别是 AlphaGo Nature 论文的第一作者和第二作者，也名列于最近的 AlphaGo Zero 论文中）都来自于 Müller 门下。

这篇论文提出了记忆增强的蒙特卡洛树搜索（M-MCTS）方法，M-MCTS 的核心思想是将 MCTS 结合一种记忆结构，其中每一项记录包含一个特定状态的信息。通过结合相似状态的估计，这些记忆被用于生成一个近似值估计。研究人员在围棋中评估了 M-MCTS，实验结果表明 M-MCTS 的性能优于原始蒙特卡洛方法。

在得知获奖信息后，机器之心第一时间联系到了 Martin Müller 教授，并对论文的三位作者共同对论文中的内容、未来研究方向以及一些感兴趣的问题进行了交流。

对于论文的两名中国作者而言，得知获奖后的第一反应是惊讶和幸运。不过，在国际人工智能重要会议的最佳论文奖项上，中国人名字的出现早已成为常态，华人正在 AI 领域扮演着越来越重要的角色。阿尔伯塔大学里，Martin Müller 教授带领的博士生中有很多来自国内。「在阿尔伯塔大学，我们幸运地拥有很多世界级的学生前来攻读学位。」Müller 介绍道，「经我指导已经毕业的中国博士包括 Fan Xie（现为谷歌软件工程师），正在带的博士生有 Gaojian Fan、Chao Gao 和 Chenjun Xiao。他们都是在中国接受本科或研究生教育之后来到阿尔伯塔的，他们在理论背景上训练有素，同时也具备相关领域工作的实践经验。」

作为阿尔伯塔大学的博士生，Chenjun Xiao 等人可以说和 David Silver 和黄士杰师出同门。他们也对 DeepMind 最新的 AlphaGo Zero 发表了一番看法。

「这是我们目前已知的最佳启发式方法了。」Chenjun Xiao 说道。

Martin Müller 教授则认为 AlphaGo Zero 还未到达算法的极限：「但它仍然是一个启发式方法，非常强大，但并不完美……」

梅劲骋也指出了 AlphaGo 目前存在的限制：「当状态、模型和转换是完美已知的时候，这种方法才能展现能力。」

随着人工智能技术逐渐走向实用化，越来越多的科技巨头开始参与其中，业界的学术影响力也在日益提升。在 AAAI 2018 的论文中，来自谷歌的被接收论文数量高达四十余篇，是第二名 UC Berkeley 的四倍之多。目前大学中的人工智能研究或许正因为计算资源的不足而逐渐落后于科技巨头。但 Martin Müller 认为，在大学环境中，学者们仍然可以进行有意义的研究。最佳论文也对这种观点给出了有力的证明。

在围棋之外，阿尔伯塔大学的研究者们也把蒙特卡洛方法应用在了六贯棋上（Hex，一种在六边形格棋盘上进行的桌游），Martin Müller 博士生 Chao Gao 和 Ryan Hayward 教授正在共同研究这一方向。此外，研究人员们已经在把眼光投向了更为复杂的强化学习任务，如即时战略游戏上。

深度学习作为近期人工智能发展的标志性技术，引出了无数的新方法和新应用，却也因为使用场景受限而遭到越来越多人的诟病。近日，Gary Marcus、Yann LeCun 等人对深度学习的局限性展开了很多探讨。Martin Müller 也对此表达了自己的态度：「深度学习对于学习非常复杂的函数而言非常有用，但搜索会始终在这一过程中扮演重要的角色。搜索永远不会被「纯粹的知识」取代。AlphaGo Zero 就是最好的例子，神经网络加上搜索的 Elo 得分超过了单独的神经网络高达 2000 分！这是一个非常大的差距，随着机器获取的知识越来越多，这个差距只会越来越大。」

AlphaGo Zero 的论文中指出，未使用蒙特卡洛树搜索的网络（Raw Network）其 Elo 评分低于完整的 AlphaGo Zero 达 2000 分之多。

因当时最佳论文还未公开，在文章《学界 | AAAI 2018 获奖论文提前揭晓：两大奖项花落阿尔伯塔、牛津》中我们无法介绍更多技术细节。如今，该论文已经放出，机器之心编译介绍如下：

蒙特卡洛树搜索（MCTS）的核心思想是构建一个搜索树，且搜索树的状态由快速蒙特卡洛模拟（Coulom 2006）评估。若从给定博弈状态开始，并通过随机 Self-play 在观察到最终结果前模拟成千上万次博弈，然后我们就可以将模拟的平均输出作为状态值的估计。同时，MCTS 在模拟中会维护一个搜索树，因而借助它指导模拟的方向，其中我们可以使用老虎机算法（bandit algorithm）来权衡利用（exploitation）和探索（exploration）（Kocsis and Szepesvari 2006）。然而，MCTS 不能有效保证「大型状态空间」的价值估计准确度，因为在相对有限的搜索时间内，状态的平均值作为估计会有较高的方差。因此，不准确的估计会误导搜索树的构建，并严重降低程序的性能。

最近，已经有学者提出几种机器学习方法来克服 MCTS 的这种缺点。例如深度神经网络可以用来学习领域知识和逼近状态值的函数。这些方法和与 MCTS 相结合可以提供启发式的方法以提高搜索样本的效率（Silver et al. 2016; Tian and Zhu 2015）。

机器学习方法的成功可以很大程度上归因于模型的泛化性能，即类似的状态共享相似的信息。泛化空间的领域知识一般由函数近似表征，例如深度网络通过一般数据集或自生成的模拟数据集来离线训练（Silver et al. 2016）。

与从离线学习过程中探索泛化的研究相比，在线实时搜索并没有过多关注利用泛化的优势。本论文提出和评估了一种增强记忆的 MCTS 算法，它提供了一种利用在线泛化优势的替代型方法。我们设计了一种记忆，其中每个元素（entry）都包含特定状态的信息，并可作为构建在线值近似的基础。我们利用围棋的实验证明这种基于记忆的框架对于提升 MCTS 的性能十分有效，不论是在理论还是实践中。

论文：Memory-Augmented Monte Carlo Tree Search

论文链接：https://webdocs.cs.ualberta.ca/~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf

摘要：我们在本文中提出记忆增强的蒙特卡洛树搜索（Memory-Augmented Monte Carlo Tree Search，M-MCTS）并对其进行了评估，提供了利用在线实时搜索的泛化能力的新方法。M-MCTS 的核心思想是将 MCTS 结合一种记忆结构，其中每一项记录包含一个特定状态的信息。通过结合相似状态的估计，这些记忆被用于生成一个近似值估计。我们在本文中表明基于记忆的值逼近在温和条件下高概率地优于原始的蒙特卡洛评估方法。我们在围棋中评估了 M-MCTS。实验结果表明 M-MCTS 在相同的模拟次数下优于原始的 MCTS。

蒙特卡洛树搜索

MCTS 构建树以评估状态并进行快速模拟（Coulom 2006）。树中的每个节点对应一个具体的状态 s∈S，并包含模拟统计 V (s) hat 和 N(s)。在算法的每一次迭代中，一个模拟从一个初始状态 s_0 状态开始，之后进入两个阶段： in-tree 和 rollout。在当前的搜索树表征了状态 s_t 时，会应用树策略选择一个动作，以达到下一个状态。树策略的最常用选择是使用老虎机算法，例如 UCB1（Kocsis and Szepesvari 2006）。对于树之外的策略，树将应用 roll-out 策略模拟一场博弈直到结束，其中被访问的状态的轨迹为 T = {s_0, s_1, . . . , s_T }，并在最后获得返回值 R。树中的 s∈T 的统计根据下式进行更新：

此外，树也同时在生长。在最简单的方案中，第一个被访问的尚未在树中的节点会被添加到树上。

MCTS 结合记忆

我们现在介绍记忆增强 MCTS（M-MCTS）算法。图（1）提供了简要的图示。M-MCTS 和常规的 MCTS 的主要区别在于，M-MCTS 搜索树的每一个节点都会存储统计的一个扩展集合：

这里，N_M 是近似记忆值 V_M(s) hat 的估计次数。在 MCTS 的 in-tree 树搜索期间，我们使用取代 V(s) hat 作为状态 s 的值，用于 in-tree 选择，例如在 UCB 公式中。λ_s 是一个延迟参数，确保不存在非对称的偏差。

图 1：M-MCTS 的简要图示。当搜索到一个叶状态时，会生成一个特征表征φ（s），然后其被用于询问（query）基于记忆的值近似 V_M(s) hat。V_M(s) hat 被用于根据下式更新 s 和 s 的所有过去状态，如图中的红色箭头所示。

我们在围棋游戏中评估了 M-MCTS，我们的基线结果是基于开源的围棋程序 Fuego（Enzenberger and Muller 2008 2017），但是添加了 DCNN 以提升性能。下图展示了实验结果：

图 2：(a)-(c) 展示了测试 M 的不同值的结果。(d) 展示了测试不同记忆规模的结果。在所有的图中，x 轴是每次落子（s 到达下一个状态）的模拟数量，y 轴是与基线方法博弈的胜率。

我们每次落子从 {1000, 5000, 10000} 使用不同的模拟次数，实验结果展示在上图 2(a)-(c) 中。在我们使用设定 {M = 50, τ = 0.1} 时获得了最好的结果，它以每次落子进行 10000 次模拟对抗基线算法并实现了 71% 的胜率。此外，我们也探索了不同记忆大小 {1000, 5000, 10000} 的影响。M 和 τ 分别设置为 50 和 0.1，实验结果在上图的 2(d) 中展示。直观上，我们会认为较大的记忆会有更好的性能，因为 query 会包含更多的候选状态，以上的实验结果也证明了这一点。

结论和未来工作

在本论文中，我们提出了一个有效的方法来利用实时搜索的在线泛化。我们的方法，记忆增强的蒙特卡洛树搜索（M-MCTS），将原始的 MCTS 算法与存储框架相结合，来提供基于存储的在线数值近似。未来，我们计划探索以下两个方向。首先，我们想探索是否可以通过结合离线学习的数值近似来让我们的在线存储框架获得更好的泛化性能；其次，让 M-MCTS 的特征表示重用一个神经网络来预测下一步。

]]> 原文： http://ift.tt/2E4k2X2

机器知心

从搜索到智能客服：阿里开放强化学习技术演进与实践书籍

近日，阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》，这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每⼀个用户迅速发现宝贝、在智能客服中赋予阿里⼩蜜这类的客服机器⼈对应的决策能力、在广告系统中实现了基于强化学习的智能调价技术，因而根据顾客的当前状态去决定如何操作调价。点击「阅读原文」下载此书籍。

下载地址：http://techforum-img.cn-hangzhou.oss-pub.aliyun-inc.com/1517812754285/reinforcement_learning.pdf

强化学习（RL）是关于序列决策的一种工具，它可以用来解决科学研究、工程文理等学科的一系列问题，它也是围棋程序 AlphaGo 的重要组成部分。在 Richard Sutton 的描述中，交互式学习几乎是所有学习与智能理论的基石，而强化学习就是这样的一种理想条件下实现交互式学习的方法。

在探讨阿里的强化学习实践书籍前，我们需要明确几个基本概念。首先，监督学习和强化学习之间的主要区别在于收到的反馈是评估性的还是指导性的。指导性反馈提示如何达到目标，而评估性反馈告诉你达到目标的程度。监督学习一般是基于指导性反馈来解决问题，而强化学习则基于评估性反馈解决问题。因此在很多情景中，强化学习这种评估性的反馈使其具有格外的优势与强大的性能。

因为存在这些差别，阿里表明基于监督学习方式的信息提供手段，缺少有效的探索能力，系统倾向于给消费者推送曾经发生过行为的信息单元（商品、店铺或问题答案）。而强化学习作为⼀种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法，在⼀些阿里具体的业务场景中进行了很好的实践并得到⼤规模应用。

实际上正如阿里的这本书所述，如果把搜索引擎看作智能体（Agent）、把用户看作环境（Environment），则商品的搜索问题可以被视为典型的顺序决策问题（Sequential Decision making Problem）：

(1) 用户每次请求 PV 时，Agent 做出相应的排序决策，将商品展示给用户；

(2) 用户根据 Agent 的排序结果，给出点击、翻页等反馈信号；

(3) Agent 接收反馈信号，在新的 PV 请求时做出新的排序决策；

(4) 这样的过程将⼀直持续下去，直到用户购买商品或者退出搜索。

在以上问题的形式化中，Agent 每⼀次策略的选择可以看成⼀次试错（Trial-and-Error），在这种反复不断地试错过程中，Agent 将逐步学习到最优的排序策略。而这种在与环境交互的过程中进行试错的学习，正是强化学习（Reinforcement Learning，RL）的根本思想。

除了上述所述基于强化学习的实时搜索排序，阿里在很多任务或功能上都采用了强化学习的解决方案。以下展示了该书籍的主要目录，读者可以了解到底阿里在哪些业务或实践上借助强化学习而实现更好的性能。

第一章基于强化学习的实时搜索排序策略调控

1.1 背景

1.2 问题建模

1.2.1 强化学习简介

1.2.2 状态定义

1.2.3 奖赏函数设定

1.3 算法设计

1.3.1 策略函数

1.3.2 策略梯度

1.3.3 值函数的学习

1.4 奖赏塑形

1.5 实验效果

1.6 DDPG 与梯度融合

1.7 总结与展望

第二章延迟奖赏在搜索排序场景中的作用分析

2.1 背景

2.2 搜索排序问题回顾

2.3 数据统计分析

2.4 搜索排序问题形式化

2.5 理论分析

2.5.1 马尔可夫性质

2.5.2 折扣率

2.6 实验分析

第三章基于多智能体强化学习的多场景联合优化

3.1 背景

3.2 问题建模

3.2.1 相关背景简介

3.2.2 建模方法

3.3 应用

3.3.1 搜索与电商平台

3.3.2 多排序场景协同优化

3.4 实验

3.4.1 实验设置

3.4.2 对比基准

3.4.3 实验结果

3.4.4 在线⽰例

3.5 总结与展望

第四章强化学习在淘宝锦囊推荐系统中的应用

4.1 背景

4.1.1 淘宝锦囊

4.1.2 锦囊的类型调控

4.1.3 ⼯作摘要

4.2 系统框架及问题建模

4.2.1 系统框架

4.2.2 问题建模

4.3 算法及模型设计

4.3.1 主体框架

4.3.2 分层采样池

4.3.3 基准约减

4.3.4 算法流程

4.4 实验与总结

第五章基于强化学习的引擎性能优化

5.1 背景

5.2 问题建模

5.2.1 状态定义

5.2.2 动作空间设计

5.2.3 状态转移函数

5.2.4 奖赏函数的设计

5.3 算法设计

5.3.1 Loss Function

5.3.2 Actor-crtitic 方法

5.4 理论分析

5.5 实验效果

5.6 总结

第六章基于强化学习分层流量调控

6.1 背景

6.2 问题建模

6.2.1 Dynamic Action Boundary by CEM

6.3 实验效果

6.4 总结与展望

第七章风险商品流量调控

7.1 背景

7.1.1 为什么进行风险商品流量调控

7.1.2 为什么使用强化学习调控

7.2 基于强化学习的问题建模

7.2.1 状态空间的定义

7.2.2 动作空间的定义

7.2.3 奖赏函数的定义

7.2.4 模型选择

7.2.5 奖赏函数 scale

7.3 流量调控系统架构

7.4 线上效果

第八章虚拟淘宝

8.1 背景

8.1.1 强化学习⾯临的问题

8.1.2 虚拟淘宝

8.2 学习用户行为：监督学习

8.3 学习用户意图：逆强化学习

8.3.1 逆强化学习概述

8.3.2 学习用户意图

8.3.3 生成对抗式模仿学习

8.4 构建用户行为模拟器

8.4.1 问题建模

8.4.2 算法设计

8.4.3 实验结果

第九章组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化

9.1 背景

9.2 问题建模

9.2.1 奖赏

9.2.2 动作

9.2.3 状态定义

9.3 建模粒度

9.4 模型选择

9.5 探索学习

9.6 业务实战

9.6.1 系统设计

9.6.2 奖赏设计

9.6.3 实验效果

9.7 总结与展望

第十章策略优化方法在搜索广告排序和竞价机制中的应用

10.1 业务背景

10.2 ⼴告排序和竞价的数学模型和优化方法

10.3 ⾯向⼴告商、⽤户和平台收益的排序公式设计

10.4 系统简介

10.4.1 离线仿真模块

10.4.2 离线强化学习进⾏排序策略模型初始化

10.5 在线排序策略模型优化

10.6 实验分析

10.7 总结

第十一章 TaskBot －阿里小蜜的任务型问答技术

11.1 背景和问题建模

11.2 模型设计

11.2.1 Intent Network

11.2.2 Belief Tracker

11.2.3 Policy Network

11.2.4 模型

11.3 业务实战

11.4 总结

第十二章 DRL 导购－阿里小蜜的多轮标签推荐技术

12.1 背景

12.2 算法框架

12.3 深度强化学习模型

12.3.1 强化学习模块

12.3.2 最终模型

12.4 业务实战

12.5 总结和展望

最后，强化学习在阿里巴巴内部的实践远不止于此，这本电子书只介绍了其中的⼀部分。我们希望这本书能有助于读者了解强化学习在业界的应用，并从实践和业务的角度了解阿里在商业化技术的能力。

]]> 原文： http://ift.tt/2nMl7HU

机器知心

MIT通用人工智能课视频放出，要教你用工程方法构建人类智能

李林发自凹非寺量子位出品 | 公众号 QbitAI

MIT最近开了一门"通用人工智能（AGI）"课，要带着学生们用工程方法来探索构建人类级智能的研究路径。

据说，这是全球第一门通用人工智能课程。

这门课的全名叫MIT 6.S099: Artificial General Intelligence，属于类似小学期的性质，不在正式的学期课程之中，今天放出了第一节的视频。

对于这门课程，Reddit论坛上评论十分火热，褒贬不一。有直接问视频在哪的，有对客座讲师人选有意见的，也有说课程设置奇怪的，当然，还有在评论中跑题吵其他架的。

课程设置得究竟如何，还是得亲自看一看。

undefined_腾讯视频

AGI课程由MIT博士后Lex Fridman主讲开头结尾两节，还邀请了9位客座讲师，每人会贡献一节讲座。

整个课程涉及"我们目前对计算智能的理解，以及深度学习、强化学习、计算神经科学、机器人、认知建模、心理学等等，还会讲到人工智能安全和道德"。

量子位看了下第一节课的视频，入门概论，条理清晰，业内资深技术人士可能会稍微有点嫌弃。

Fridman 2014年从Drexel大学博士毕业，在Google做过一段时间的访问学者，后来就进入了MIT，主要研究深度学习在半自动驾驶环境下的应用，比如说感知驾驶员状态、场景感知、运动控制、规划等等。

在开设AGI课程之前，他还开了个自动驾驶课，今年已经是第二年，前不久也在网上放出了所有视频和PPT。

量子位前边也说了，这门新开的AGI课，Fridman自己讲得不多，主要靠客座讲师们。Reddit上对这门课的质疑，主要也是嫌弃主讲人只讲个通论，其他就扔给客座讲师了。

不过客座讲师阵容还是比较豪华的：

Josh Tenenbaum，隔壁脑与认知科学系的教授。讲座题目：计算认知科学。
雷·库兹韦尔，Googler、未来学家，Reddit上对客座讲师人选有意见，就是因为…不喜欢他。讲座题目：How to Create a Mind。
Lisa Feldman Barrett，（美国）东北大学心理学教授，主要研究大脑中的情感。讲座题目：情感的创造。
Nate Derbinsky，（美国）东北大学计算机副教授，主要研究人工智能和机器学习。讲座题目：认知建模。
Andrej Karpathy，特斯拉AI总监，李飞飞的得意门生。讲座题目：深度学习。
Stephen Wolfram，Wolfram Research创始人，计算机科学家、物理学家、美国数学学会fellow。讲座题目：基于知识的编程。
Richard Moyes，英国非政府组织Article36联合创始人，致力于防止某些武器引起的不必要的伤害。讲座题目：AI安全与自主武器系统。
Marc Raibert，波士顿动力CEO。讲座题目：机器人。
Ilya Sutskever，OpenAI联合创始人。讲座题目：深度强化学习。

据现场听了这门课的同学在Reddit论坛上说，这些课程的视频正在编辑准备中，稍后会放到网上。

这些讲座，看起来还蛮老少咸宜的，想听课，似乎没有明确的技术门槛。

这个课也没有列出明确的先修课程，但是Fridman在FAQ里说，课上组织了一个小比赛，最好还是有Python和JavaScript基础。

One More Thing

这位小哥很会玩儿，每门课都做了T恤，据说是成本价销售，根据款式不同，11刀-13刀不等，不过嘛，也不知道给不给中国发货，咱们围观一下款式好了：

AGI课的两款：

今年和去年的自动驾驶课程款：

量子位比较喜欢今年的自动驾驶款。

emmm…跑题了，来一份课程链接才是正经事：

One More Thing

AGI课的两款：

今年和去年的自动驾驶课程款：

量子位比较喜欢今年的自动驾驶款。

emmm…跑题了，来一份课程链接才是正经事：

2018年2月4日星期日

深度学习自学指南：6个月，从基础知识到模型构建

原作：Bargava安妮编译自 Medium量子位出品 | 公众号 QbitAI

给你6个月的时间开始学习深度学习，能够达到怎样的程度？

在这篇文章中，数据科学培训老师Bargava就带你半年入门深度学习。

在这份攻略中，我将给大家讲讲零基础入门深度学习可行性强的资料和学习方法。当然，虽说的零基础，但也有一个小门槛，你需要满足以下条件：

在接下来的6个月中，每周花费10-20小时学习
已经具备一些编程技巧，懂一些Python和云的基础知识
有一些数学基础（代数、几何等）
有一台计算机，并且能联网

量子位在这里补充一句，想入门的小伙伴也可以现在开始准备英语了，毕竟……这些课程都是英文的。

第一阶段

如果想学开车，应该坐上车通过模拟真实开车环境学习，而不是首先了解内燃机和离合器的工作原理。学习深度学习亦是如此，我们需要遵循这种自上而下的学习方法。

推荐fast.ai上的教程Practical Deep Learning for Coders—Part 1。这个课程需要学习4到6周的时间，并且包含一个云端运行代码的session。

不如就从这个课程开始入手吧。

当然，也有一些其他不错的服务平台可供你选择，包括Paperspace、亚马逊AWS、谷歌云平台（GCP）、Crestle和Floydhub等。

但切记，现在还没到开始构建模型的时候。

Practical Deep Learning for Coders地址：

http://www.fast.ai/

第二阶段

是时候了解一些基础知识了。在这个阶段，你需要学习微积分和线性代数。

MIT的Big Picture of Calculus课程可以帮你快速概览微积分基础知识。

对于线性代数，MIT知名教授Gilbert Strang的OpenCourseWare是个不二选择。

学习完上面两门课程后，推荐你阅读旧金山大学科学家、fast.ai联合创始人Jeremy Howard的Matrix Calculus For Deep Learning。

Big Picture of Calculus地址：

http://ift.tt/2GJFmPb

OpenCourseWare地址：

http://ift.tt/2dhXd2p

Matrix Calculus For Deep Learning地址：

http://ift.tt/2GvDdqg

第三阶段

经过前面两个基础夯实阶段，现在我们有时间贯彻上面提到的自下而上学习法了。

这个阶段推荐大家修一下Coursera上的Deep Learning专项课程，里面包含5门吴恩达创立的deeplearning.ai的课程。

Coursera上"微专业"获取方式和大学修展业很相似，学习课程后也需要完成相关作业。但讲真你值得修一个专业。

理想情况下，根据你目前的学习基础，完成一门课程需要花费一周时间。

deeplearning.ai课程地址：

http://ift.tt/2vLAXJh

第四阶段

只学习不会玩，聪明的小孩也会变傻。

现在是时候了解深度学习库了，TensorFlow、PyTorch和MXNet等都需要去了解一下，并且可以为你喜欢的问题从头开始构建架构了。

到这里我们可以发现，前三个步骤是在理解深度学习是什么，从第四步开始，你需要学习从头开始实现一个项目，并学习利用各种工具构建模型。

第五阶段

现在，可以去刚刚提到的fast.ai课程的第二部分看看了，也就是Cutting Edge Deep Learning for Coders这一课。这里面包含的问题更高级，你将学习阅读最新的研究论文并且学习去理解它们。

上面的每个阶段都需要4至6周的时间去理解它们。当你按照上面的方法学习了26周后，你会打下坚实的深度学习基础。

Cutting Edge Deep Learning for Coders课程地址：

http://ift.tt/2vVAgdb

下一站

之后，你可以学习斯坦福的CS231n: Convolutional Neural Networks for Visual Recognition和CS224d: Deep Learning for Natural Language Processing两门课程了，它们对视觉和NLP的讲解比较深度透彻。

如果有时间，还推荐你读读这本Deep Learning，对巩固理解很有帮助。

CS231n课程地址：

http://ift.tt/1ERxZ3M

CS224d课程地址

http://ift.tt/1CF36il

Deep Learning电子书地址：

http://ift.tt/1JOI14p

钻研深度学习是一件乐事，用你的每一天去创造吧。

最后，附原文链接：

http://ift.tt/2EcL9ON

— 完 —

欢迎大家关注我们的专栏：量子位 - 知乎专栏

诚挚招聘

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

via 量子位 - 知乎专栏 http://ift.tt/2s2Irqc

AI 人工智能新闻资讯

2018年2月5日星期一

专访 AAAI 2018 最佳论文作者，记忆增强蒙特卡洛树搜索细节解读

机器知心

从搜索到智能客服：阿里开放强化学习技术演进与实践书籍

机器知心

MIT通用人工智能课视频放出，要教你用工程方法构建人类智能

One More Thing

相关链接

RSS5

MIT通用人工智能课视频放出，要教你用工程方法构建人类智能

One More Thing

相关链接

RSS5

2018年2月4日星期日

深度学习自学指南：6个月，从基础知识到模型构建

第一阶段

第二阶段

第三阶段

第四阶段

第五阶段

下一站

RSS5

DeepSeekV4重磅开源!首次打通华为Ascend，也没丢掉英伟达-InfoQ每周精要No.920

标签

标签