AI 人工智能新闻资讯: 这是一份「不正经」的深度学习简述

2018年3月23日星期五

这是一份「不正经」的深度学习简述

不一样在哪儿呢？可能是本文没有按照「正常」的深度学习博客结构：从数学讲起，然后介绍论文、实现，最后讲应用。我希望用讲故事的方式来介绍深度学习，这可能要比只介绍信息和公式要更加平易近人一些。

我为什么要写这篇深度学习简介？

有时候，把自己的思考过程记录下来非常重要。

目前，深度学习（Deep Learning）是数据科学、AI、技术和人类生活中重要的一部分，它值得我们去关注。你不能简单地说：「深度学习就是往神经网络中添加一个层，哇，神奇！」。不，不是这样。我希望读完本文后，大家会对深度学习有不一样的认识。

深度学习时间线

我根据多篇论文和其他文章的内容绘制了这份时间线，旨在使大家看到深度学习不只是神经网络。在它的发展过程中出现了真正的理论进步、软件和硬件进展。

深度学习有何「奇怪」之处？

深度学习已经出现很久了，那么为什么它直到最近 5-7 年才闻名于世，并迅速发展起来呢？

如前所述，直到 21 世纪初，我们仍然缺乏训练非常深层神经网络的可靠途径。现在，随着多个简单却重要的理论、算法进步，硬件发展（大部分是 GPU，现在是 TPU）和数据的指数级增长和积累，深度学习快速发展，并改变我们做机器学习的方式。

深度学习也是非常活跃的研究领域，今天，众多研究者们仍在寻找最好的模型、网络拓扑、最好的超参数优化方法等等。要想像其他活跃的科学领域一样紧跟研究成果很难，但是并非不可能。

Hofer 等人在论文《Deep Learning with Topological Signatures》如此介绍拓扑和机器学习：

近期代数拓扑方法仅在机器学习社区出现，最显著的是，它出现在术语「拓扑数据分析」（topological data analysis，TDA）下面。TDA 帮助我们从数据中推断出相关拓扑和几何信息，因此它提供了一种看待多种机器学习问题的新型、有益的视角。

对我们来说很幸运的是，有很多人在帮助我们理解和消化此类信息，比如吴恩达的课程、一些相关博客等等。

参考阅读：

这对我来说有些奇怪或者不寻常，因为正常情况下你必须花费一段时间（甚至好多年）才能消化论文或期刊中那么多艰深、前沿的信息。当然，现在大部分科学领域从论文到一篇博客解读的时间越来越快，虽然我认为深度学习还有一些不一样的感觉。

深度学习和表征学习的突破性成果

机器学习领域中的大多数人都认为，几十年来深度学习论文中的每个最新思想（具体来说是指神经网络或算法的新型拓扑结构和配置）都是机器学习中的最棒思想（要知道深度学习是机器学习的子领域）。

我在本文中用了很多次「学习」（learning）这个词，那么「学习」究竟是什么意思呢？

在机器学习中，「学习」是指为你正在分析和研究的数据自动搜索更好的数据表征的过程（记得，这并不是让机器来学习）。

「表征」（representation）一词在这个领域中特别重要，那什么是「表征」呢？「表征」就是观察数据的方式。

举个例子，如下图所示，假设问题是画出一条直线将图中的蓝色圆和绿色三角形分开：

Ian Goodfellow et al. (《深度学习》, 2016)

在《深度学习》这本书中，作者解释道：我们使用笛卡尔坐标系来表征数据，这时该问题不可解。

难道就没办法了吗？当然不是。如果我们采用不同的方式来表征数据，使得可以用直线分离不同的数据类型。这种方法在数学中已经出现了好几百年。在这个例子中我们需要的仅仅是一次坐标变换。通过坐标变换，我们得到了问题的解：

Ian Goodfellow et al. (《深度学习》, 2016)

现在我们就可以画出一条直线来分离数据：

因此在这个例子中，我们通过手动探索并选择了能获得更好的表征方式的变换。但是，假如我们能开发一个系统或程序来自动搜索不同的表征（在这个例子中是坐标变换），然后确定新方法的分类准确率的计算方式，这时候就变成了机器学习。

这一点很重要，深度学习是使用不同类型神经网络的表征学习，通过优化网络的超参数来获得对数据的更好表征。

而没有深度学习中的突破性研究，这一切也将不可能出现，这里我列出几个经典案例：

1：反向传播

参考阅读：

被 Geoffrey Hinton 抛弃，反向传播为何饱受质疑？（附 BP 推导）
A theoretical framework for Back-Propagation——Yann Lecun：https://ift.tt/1BboFqP

2：更好的初始化网络参数。需要记住的是：初始化策略需要根据所使用的激活函数来选择。

参考阅读：

「深度学习的权重初始化」——Coursera：https://ift.tt/2pzyzkq
How to train your Deep Neural Network：https://ift.tt/2hWzRCF
斯坦福大学 CS231n Convolutional Neural Networks for Visual Recognition：https://ift.tt/1QgwuB0

3：更好的激活函数。这意味着，可以更快地逼近函数，从而实现更快的训练。

参考阅读：

4：Dropout：防止过拟合等问题。

Learning Less to Learn Better—Dropout in (Deep) Machine learning：https://ift.tt/2hSjJ3F
Geoffrey Hinton 等人的「Dropout: A Simple Way to Prevent Neural Networks from Overfitting」：https://ift.tt/2uRRQxW

5：卷积神经网络（CNN）

参考阅读：

一文看懂卷积神经网络
Yann LeCun 等人的「Gradient-Based Learning Applied to Document Recognition」：https://ift.tt/SHkH4k

6：残差网络（ResNet）

参考阅读：

孙剑等人的论文「Deep Residual Learning for Image Recognition」：https://ift.tt/2wt1yaX
论文「Residual Networks of Residual Networks: Multilevel Residual Networks」：https://ift.tt/2hQBnao

7：基于区域的 CNN，可用于目标检测等。

参考阅读：