2018年1月9日星期二

斯坦福完全可解释深度神经网络:你需要用决策树搞点事

近日,斯坦福大学计算机科学博士生 Mike Wu 发表博客介绍了他对深度神经网络可解释性的探索,主要提到了树正则化。其论文《Beyond Sparsity: Tree Regularization of Deep Models for Interpretability》已被 AAAI 2018 接收。


论文地址:http://ift.tt/2CmyKo0


近年来,深度学习迅速成为业界、学界的重要工具。神经网络再次成为解决图像识别、语音识别、文本翻译以及其他困难问题的先进技术。去年十月,Deepmind 发布了 AlphaGo 的更强版本,从头开始训练即可打败最优秀的人类选手和机器人,表明 AI 的未来大有可期。在业界,Facebook、谷歌等公司将深度网络集成在计算 pipeline 中,从而依赖算法处理每天数十亿比特的数据。创业公司,如 Spring、Babylon Health 正在使用类似的方法来颠覆医疗领域。深度学习正在影响我们的日常生活。


图 1:GradCam - 利用目标概念的梯度突出重要像素,从而创建决策的视觉解释。


但是深度学习是一个黑箱。我第一次听说它时,就对其工作原理非常费解。几年过去了,我仍然在探索合理的答案。尝试解释现代神经网络很难,但是至关重要。如果我们打算依赖深度学习制造新的 AI、处理敏感的用户数据,或者开药,那么我们必须理解这些模型的工作原理。


很幸运,学界人士也提出了很多对深度学习的理解。以下是几个近期论文示例:


  • Grad-Cam(Selvaraju et. al. 2017):使用最后卷积层的梯度生成热力图,突出显示输入图像中的重要像素用于分类。
  • LIME(Ribeiro et. al. 2016):使用稀疏线性模型(可轻松识别重要特征)逼近 DNN 的预测。
  • 特征可视化(Olah 2017):对于带有随机噪声的图像,优化像素来激活训练的 DNN 中的特定神经元,进而可视化神经元学到的内容。
  • Loss Landscape(Li et. al. 2017):可视化 DNN 尝试最小化的非凸损失函数,查看架构/参数如何影响损失情况。

图 2:特征可视化:通过优化激活特定神经元或一组神经元,从而生成图像(Olah 2017)。


从上述示例中可见,学界对如何解释 DNN 存在不同见解。隔离单个神经元的影响?可视化损失情况?特征稀疏性?


什么是可解释性?


我们应该把可解释性看作人类模仿性(human simulatability)。如果人类可以在合适时间内采用输入数据和模型参数,经过每个计算步,作出预测,则该模型具备模仿性(Lipton 2016)。


这是一个严格但权威的定义。以医院生态系统为例:给定一个模仿性模型,医生可以轻松检查模型的每一步是否违背其专业知识,甚至推断数据中的公平性和系统偏差等。这可以帮助从业者利用正向反馈循环改进模型。

决策树具备模仿性


我们可以很轻松地看到决策树具备模仿性。例如,如果我想预测病人心脏病发作的风险,我可以沿着决策树的每个节点走下去,理解哪些特征可用于作出预测。


图 3:训练用于分类心脏病发作风险的决策树。这棵树最大路径长度为 3。


如果我们可以使用决策树代替 DNN,那么已经完成了。但是使用 DNN 尽管缺乏可解释性,但是它的能力远超过决策树。所以我们是否可以将决策树和 DNN 结合起来,构架具备模仿性的强大模型?


我们可以试着做一个类似 LIME 的东西,构建一个模拟决策树来逼近训练后的 DNN 的预测结果。但是训练深度神经网络时会出现很多局部极小值,其中只有部分极小值容易模仿。因此,用这种方法可能最后会陷于一个难以模仿的极小值(生成一个巨型决策树,无法在合理时间内走完)。


表 1:决策树和 RNN 在不同数据集上的性能。我们注意到 RNN 的预测能力比决策树优秀许多。


直接优化提高模仿性


如果我们想在优化过程中提高模仿性,则可以尝试找到更具可解释性的极小值。完美情况是,我们训练一个行为非常像(但并不是)决策树的 DNN,因为我们仍然想利用神经网络的非线性。

另一种方式是使用简单决策树正则化深度神经网络。我们称之为树正则化。


树正则化


若我们有包含 N 个序列的时序数据集,每一个序列有 T_n 个时间步。当没有限制时,我们可以假设它有二元输出。一般传统上,训练循环神经网络(RNN)可以使用以下损失函数:

其中ψ为正则化器(即 L1 或 L2 正则化)、λ 为正则化系数或强度、W 为一组 RNN 的权重矩阵、y_nt 为单个时间步上的标注真值、y_nt hat 为单个时间步上的预测值。此外,损失函数一般可以选为交叉熵损失函数。


添加树正则化需要改变两个地方。第一部分是给定一些带权重 W 的 RNN,且权重 W 可以是部分已训练的,我们将 N 个长度为 T 的数据 X 传递到 RNN 中以执行预测。然后我们就能使用这 N 个数据对训练决策树算法,并尝试匹配 RNN 的预测。

图 4:在优化过程中的任意点,我们能通过一个简单的决策树逼近部分训练的 DNN。


因此,我们现在有了模拟 DT,但我们可以选择一个十分小或十分大的决策树,因此我们需要量化树的大小。


为了完成量化过程,首先我们需要考虑树的平均路径长度(APL)。对于单个样本,路径长度就等于游历树并作出预测的长度。例如,如图 3 所示,若有一个用来预测心脏病的决策树,那么假设输入 x 为 age=70。该样本下路径长度因为 70>62.5 而等于 2。因此平均路径长度可以简单地表示为 ∑ pathlength(x_n, y_n hat)。


图 5:给定一棵决策树与数据集,我们能计算平均路径长度以作为模拟、解释平均样本的成本。通过把这一项加入到目标函数,我们就能鼓励 DNN 生成简单的 DT 树并惩罚复杂而巨大的决策树。


因此我们最后能将损失函数改写为以下形式:

现在只有一个问题:决策树是不可微的。但我们可能真的比较希望能用 SGD 以实现更快速和便捷的最优化,因此我们也许可以考虑更具创造性的方法。


我们可以做的是添加一个代理模型,它可能是一个以 RNN 权重作为输入的多层感知机(MLP),并期望能输出平均路径长度的估计量,就好像我们在训练一个决策树一样。


图 6:通过使用代理模型,我们可以利用流行的梯度下降算法来训练 DNN。为了训练一个代理模型,我们最小化标注真值和预测 APL 之间的 MSE。


当我们优化 RNN/DNN 时,每一个梯度下降步都会生成一组新的权重 W_i。对于每一个 W_i,我们能训练一个决策树并计算平均路径长度。在训练几个 epoch 之后,我们能创建一个大型数据集并训练代理 MLP。


训练过程会给定一个固定的代理,我们能定义正则化目标函数,并优化 RNN。若给定一个固定的 RNN,我们将构建一个数据集并优化 MLP。


小测试数据集


检查新技术有效性的一个好方法是在合成数据及上进行测试,在其中我们可以强调新技术提出的效益。


考虑以下的虚构数据集:给定单位二维坐标系统内的点 (x_i,y_i),定义一个抛物线决策函数。


y=5∗(x−0.5)^2+0.4


我们在单位正方形 [0,1]×[0,1] 内均匀地随机采样 500 个点,所有在抛物线之上的点设为正的,在抛物线之下的点设为负的。我们通过随机翻转 10% 的边界附近(图 7 的两条灰色抛物线之间)的点以添加一些噪声。然后,随机分离出 30% 的点用作测试集。


我们训练了一个 3 层 MLP 用作分类器,其中第一层有 100 个节点,第二层有 100 个节点,第三层有 10 个节点。我们有意让该模型过度表达,以使其过拟合,并强调正则化的作用。


图 7:虚构的抛物线数据集。我们训练了一个深度 MLP,结合不同级别的 L1、L2 正则化和树正则化以测试最终决策边界之间的视觉差异。这里的关键之处在于,树正则化生成了坐标对齐的边界。然后我们用改变的正则化(L1、L2、树)和改变的强度λ训练了一系列的 MLP。我们可以通过描述单位正方形内所有点的行为并画出等高线以评估模型,从而逼近已学习的决策函数。图 7 展示了在不同参数设置下的已学习决策函数的并行对比。


正如预期,随着正则化强度增加,得到的决策函数也更简单(减少过拟合)。更重要的是,这三种正则化方法生成不同形状的决策函数。L1 正则化倾向于生成凹凸不平的线,L2 正则化倾向于球状的线,树正则化倾向于生成坐标对齐的决策函数。这为决策树的工作方式提供了更多的直觉理解。


图 8:正则化模型的 APL 性能对比。这里,决策树(黄线)是原始的决策树(没有 DNN)。我们注意到在 1.0 到 5.0 之间树正则化 MLP 的性能高于(以及复杂度低于)所有其它的模型。


至少在这个虚构示例中,树正则化在高度正则化区域(人类可模拟)能得到更好的性能。例如,树正则化结合λ=9500.0 只需要 3 个分支就可以获得类似抛物线的决策函数(有更高的 APL)。


真实数据集


现在我们对树正则化有了一个直观认识,下面就来看一下真实世界数据集(带有二分类结果),以及树正则化与 L1、L2 正则化的对比。以下是对数据集的简短描述:


  • Sepsis(Johnson et. al. 2016):超过 1.1 万败血症 ICU 病人的时序数据。我们在每个时间步可以获取 35 个生命体征的数据向量、标签结果(如含氧量或心率)和 5 个二分类结果的标签(即是否使用呼吸机或是否死亡)。
  • EuResist(Zazzi et. al. 2012):5 万 HIV 病人的时序数据。该结构非常类似于 Sepsis,不过它包括 40 个输入特征和 15 个输出特征。
  • TIMIT(Garofolo et. al. 1993):630 位英语说话人的录音,每个语句包括 60 个音素。我们专注于区分阻塞音(如 b、g)和非阻塞音。输入特征是连续声系数和导数。


我们对真实世界数据集进行虚拟数据集同样的操作,除了这次我们训练的是 GRU-RNN。我们再次用不同的正则化执行一系列实验,现在还利用针对 GRU 的不同隐藏单元大小进行实验。


图 9:正则化模型在 Sepsis(5/5 输出维度)、EuResist (5/15 输出维度)和 TIMIT 的 APL 上的性能对比。可以看到在 APL 较小时,性能与图 8 类似,树正则化达到更高的性能。更多详细结果和讨论见论文 http://ift.tt/2DfL4ar


即使在带有噪声的真实世界数据集中,我们仍然可以看到树正则化在小型 APL 区域中优于 L1 和 L2 正则化。我们尤其关注这些低复杂度的「甜蜜点」(sweet spot),因为这就是深度学习模型模仿性所在,也是在医疗、法律等注重安全的环境中实际有用之处。

此外,我们已经训练了一个树正则化 DNN,还可以训练一个模仿性决策树查看最终的决策树是什么样子。这是一次很好的完整性检查,因为我们期望模仿性决策树具备模仿性,且与特定问题领域相关。


下图展示了针对 Sepsis 中 2 个输出维度的模仿性决策树。由于我们不是医生,因此我们请一位败血症治疗专家检查这些树。


图 10:构建决策树以仿真已训练的树正则化 DNN(包含 Sepsis 的 5 个维度中的两个)。从视觉上,我们可以确认这些树的 APL 值较小,并且是可模仿的。


考虑 mechanical ventilation 决策树,临床医生注意到树节点上的特征(FiO2、RR、CO2 和 paO2)以及中断点上的值是医学上有效的,这些特征都是测量呼吸质量的。


对于 hospital mortality 决策树,他注意到该决策树上的一些明显的矛盾:有些无器官衰竭的年轻病人被预测为高死亡率,而其他的有器官衰竭的年轻病人却被预测为低死亡率。然后临床医生开始思考,未捕获的(潜在的)变量如何影响决策树过程。而这种思考过程不可能通过对深度模型的简单敏感度分析而进行。


图 11:和图 10 相同,但是是从 EuResist 数据集的其中一个输出维度(服药坚持性)。


为了把事情做到底,我们可以看看一个尝试解释病人不能服从 HIV 药物处方(EuResist)的原因的决策树。我们再次咨询了临床医生,他确认出,基础病毒量(baseline viral load)和事先治疗线(prior treatment line)是决策树中的重要属性,是有用的决策变量。多项研究(Langford, Ananworanich, and Cooper 2007, Socas et. al. 2011)表明高基线的病毒量会导致更快的病情恶化,因此需要多种药物鸡尾酒疗法,太多的处方使得病人更难遵从医嘱。


可解释性优先


本文的重点是一种鼓励复杂模型在不牺牲太多预测性能的前提下,逼近人类模仿性功能的技术。我认为这种可解释性非常强大,可以允许领域专家理解和近似计算黑箱模型正在做的事情。


AI 安全逐渐成为主流。很多会议如 NIPS 开始更多关注现代机器学习中的公平性、可解释性等重要问题。之前我们认真地将深度学习应用于消费者产品和服务(自动驾驶汽车),我们确实需要更好地了解这些模型的工作原理。这意味着我们需要开发更多可解释性示例(人类专家参与其中)。


Notes:本文将会出现在 AAAI 2018 上(Beyond Sparsity: Tree Regularization of Deep Models for Interpretability),预印版可在 arXiv 上找到:http://ift.tt/2CLkF2R NIP 2017 上进行了 oral 解读。


问答


代理 MLP 追踪 APL 表现如何?


让人吃惊地好。在所有实验中,我们使用带有 25 个隐藏节点的单层 MLP(这是相当小的一个网络)。这必须有一个预测 APL 权重的低维表征。


图 12:真节点计数指的是真正训练决策树并计算 APL。已预测的节点计数指的是代理 MLP 的输出。


与原决策树相比,树正则化模型的表现如何?


上述的每个对比图展示了与正则 DNN 对比的决策树 AUCs。为了生成这些线,我们在不同决策树超参数(即定义叶、基尼系数等的最小样本数)上进行了网格搜索。我们注意到在所有案例中,DT 表现要比所有正则化方法更差。这表明树正则化不能只复制 DT。


文献中有与此相似的吗?


除了在文章开头提及的相关工作,模型提取/压缩很可能是最相似的子领域。其主要思想是训练一个更小模型以模拟一个更深网络。这里,我们主要在优化中使用 DT 执行提取。


树正则化的运行时间如何?


让我们看一下 TIMIT 数据集(最大的数据集)。L2 正则化 GRU 每 epoch 用时 2116 秒。带有 10 个状态的树正则化 GRU 每个 epoch 用时 3977 秒,这其中包含训练代理的时间。实际上,我们做的非常谨慎。例如,如果我们每 25 个 epoch 做一次,我们将获得 2191 秒的一个平均的每 epoch 的成本。


在多个运行中,(最后的)模拟 DT 稳定吗?


如果树正则化强大(高λ),最终的 DT 在不同运行中是稳定的(顶多在一些节点上不同)。


DT 对深度模型的预测有多准确?


换言之,这一问题是在问如果训练期间 DT 的预测与 DNN 预测是否密切匹配。如果没有,那么我们无法有效地真正正则化我们的模型。但是我们并不希望匹配很精确。

在上表中,我们测量了保真度(Craven and Shavlik 1996),这是 DT 预测与 DNN 一致的测试实例的百分比。因此 DT 是准确的。


残差 GRU-HMM 模型


(本节讨论一个专为可解释性设计的新模型。)


隐马尔可夫模型(HMM)就像随机 RNN,它建模潜在变量序列 [z1,…,zT],其中每个潜在变量是 K 离散状态之一: z_t∈1,⋯,K。状态序列通常用于生成数据 x_t,并在每个时间步上输出观察到的 y_t。值得注意的是,它包含转化矩阵 A,其中 A_ij=Pr(z_t=i|z_t−1=j),以及一些产生数据的发射参数。HMMs 通常被认为是一个更可阐释的模型,因为聚类数据的 K 潜在变量通常在语义上是有意义的。


当使用 HMM 潜在状态(换言之,当 HMM 捕获数据不足时,只使用 GRU)预测二值目标之时,我们把 GRU-HMM 定义为一个可以建模残差误差的 GRU。根据残差模型的性质,我们可以使用树正则化只惩罚 GRU 输出节点的复杂性,从而使得 HMM 不受限制。


图 13:GRU-HMM 图解。x_t 表征时间步 t 上的输入数据。s_t 表征时间步 t 的潜在状态;r_t,h_t,h_t tilde,z_t 表征 GRU 的变量。最后的 sigmoid(紧挨着橘色三角形)投射在 HMM 状态和 GRU 潜在状态的总和之上。橘色三角形表示用于树正则化的替代训练的输出。


总体而言,深度残差模型比带有大体相同参数的 GRU-only 模型的表现要好 1%。参见论文附录获得更多信息。


图 14:就像从前,我们可以为这些残差模型绘图并可视化模拟 DT。尽管我们看到相似的「sweet spot」行为,我们注意到最后得到的树有清晰的结构,这表明 GRU 在这一残差设置中表现不同。


]]> 原文: http://ift.tt/2qPv8Jg
RSS Feed

机器知心

IFTTT

余凯:不做AI芯片,如何改变世界?

李根 发自 硅谷 量子位 报道 | 公众号 QbitAI

余凯的身上有很多个"第一名"标签,他是深度学习最资深的华人从业者,是中国首个深度学习实验室的创办人,也是AI浪潮中第一个离职创业的百度技术高管……

如今他最看重的,是创办了第一家中国AI芯片公司:地平线机器人。

余凯创业后发布的第一款产品,用时2年。

这个速度和产品价值,现在还难以评价。可能与地平线的创立一样,需要更长的时间才能云开见日——比如AI芯片大热,又如技术应用能够"看得见摸得着"。

但影响和意义则是毋庸置疑的。无论是"AI处理器"的潮流,还是"中国芯"的趋势,地平线的"旭日"和"征程"站立其间,在发布开始就成为了行业新变量。

我们想知道,余凯和他创办的地平线会在2018搅动怎么样的风云变幻?而答案就在量子位对余凯的这次专访中。

在与量子位对话时,余凯毫不掩饰他的雄心壮志,甚至是他的"狂傲";当然余凯也坦率了表露了内心"柔软"的一面。

这是最真实的余凯和他的地平线。

这也是系列报道"变局者"专访的开篇。

2年造芯路

talk is cheap

量子位:创业2年推出芯片,怎么评价这个过程?

余凯:我们很幸运。2015年决定做AI芯片,是中国第一家,那时候很多算法还不成型,做了很多风险不小的决定。

量子位:哪方面的风险?

余凯:打个比方,这辆车的轮子都没有完全装好,我们就上路了。最后芯片一次流片成功,非常难得。我们有很多芯片老兵,一次性芯片成功,直接拿产品出来展示,并不多见。

量子位:跟预计时间比呢?

余凯:时间上差不多。但一开始做确实有点迷茫,因为我一直都是深度学习出身,硬件方面请教了不少人,说法都不一样,有人说3年,有人说更长,起初确实吓到我了。

我们正式流片成功是2017年9月。后来直到12月才召开发布会,在地平线的认知里,芯片流片成功还不算完,一定要把系统做出来,把应用放到场景中做出来,这才是最强大的power展示,而不光是概念。

量子位:所以在发布会现场就展示应用?

余凯:硅谷有句话:"Talk is cheap,show me the code."

今天可能有很多发布会,但全世界真正拿出AI处理器的公司恐怕没几家。我们经过2年潜心研发,拿出了一个非常完美的处理器。

所以虽然是处理发布会,我们现场也已经实时展现了芯片运转处理的实际应用过程。我们是第一家(这样做的公司)。

show me the chip(芯片)

量子位:造芯最大挑战是什么?

余凯:时间。进入研发周期,从芯片架构、设计、定型、验证,流片,再验证,整个周期很固定,不可能压缩或加快整个流程。所以在这个过程当中,最核心的是要耐得住寂寞。

量子位:跟你以前工作状态是完全不同的。

余凯:硬件不像软件,你无法通过多花时间多写几行代码解决问题。从一个软件背景的人去理解、适应这种常态,是需要转折期的,这是最大的挑战,这也是我的新常态。

量子位:如果没一次性成功会怎么样?

余凯:如果流片失败了,那几百万美金就打水漂,整个过程还得重来一遍,即便不是完全从头再来,但整个项目一定会延期6-12个月。

量子位:有这样的心理准备?

余凯:(长舒一口气……)我们芯片团队的人还去烧过香,真的,去雍和宫。

show me the product

量子位:芯片发布后的挑战是?

余凯:推向应用的速度,你不能只是一个芯片。2017年完成了show me the chip,2018的核心就是show me the product.我觉得吹牛都是容易的,但talk is cheap.

量子位:有目标吗?

余凯:我们有一个非常aggressive的目标,但还没想好是不是要对外说。核心会在智能驾驶、泛安防(安防、新零售)等领域去打造应用。

量子位:为什么是这两个?

余凯:在我们看来,第一波AI,肯定是用智能化去重新定义智能终端,最核心的是摄像头。另一个是重新定义汽车。我们认为手机之后最能核心影响人类智能生活的,就是摄像头和汽车。

AI冷热变局

量子位:我们刚谈论了很多AI芯片的过程,但你2015年创立地平线宣布要造芯时,理解的人并不多。这个认知过程你怎么看?

余凯:我们是第一家做AI芯片的公司,这是我们独立思考的结果。

全球范围内,你很难找到第二个比我做深度学习(时间)更长的华人。我从2006年开始做深度学习,并且信仰它,这都是一个很不为人理解、很孤独的过程。

当时全世界没有几个实验室围绕深度学习进行研发,我所在的NEC是为数不多以卷积神经网络为核心的实验室。

所以一定要保持独立思考,而不是随大流,随大流的思考,往往是错误的。真正有价值的东西,一定是大家不理解的,一旦每个人都看得懂了,机会已经晚了。

量子位:之前也有过不理解?

余凯:2012年我在百度启动深度学习实验室(IDL),大家也不理解。当时国内学术会议上,还有教授跟我争辩为何去搞深度学习。但到2015年左右,已经没有人再争论这个事情了。

量子位:2015年你出来创建了地平线。

余凯:对,到大家都理解深度学习的时候,我的想法又不一样了。当大家还在试图搞清楚深度学习、软件、算法和GPU的时候,我已经在思考(其实2014年就开始了):可能GPU不是最适合做深度学习的计算平台,我们需要继续去推进人工智能的革命——关键节点不再是软件算法了。

量子位:这影响了你创业?

余凯:2015年,地平线可以出来做一家人脸识别的公司,那个时候中国可能已经有50家了,我觉得不会给这个世界带来任何本质的不同。

但真正人脸识别、自动驾驶的应用,不会停留在小项目里,而是被大规模应用,应用到任何场景中,是低功耗的芯片中。

我们这个观点是很有远见,你看今年特斯拉也这么做了。

量子位:AI处理器在2017是热门话题。

余凯:是热门话题,越来越多的人涌进来,但我很怀疑他们是否真正思考过AI处理器相关的东西。

在中国,一个人做了加油站赚钱,1万家公司都跑过来做加油站。我觉得应该鼓励独立思考,敢于预设未来,而不是人云亦云,这一点硅谷做得更好些。

量子位:你对AI处理器的思考是什么?

余凯:我的关于AI处理器的思考,可以等到2018年年底再跟你聊一聊。

量子位:为什么?

余凯:一方面是现在说了大家听不懂,另一方面是出于保密。最关键的,还是超前思维。我试图一直保持5年左右的超前思维,跟业界比。无论是深度学习算法,还是ImageNet这样的比赛,我都是最早夺冠的中国团队。

所以回过头来看,地平线所做的事情大家不是非常理解也不奇怪,像大疆DJI,一开始并不被理解,但它反倒有了很长期的时间去准备,积累势能,当展现成动能的时候,别人再copy已经晚了。

我们会享受这一段独特、不被人理解的过程。利用这段时间去打磨好我们的技术和产品。

量子位:你觉得地平线最不被理解的是什么?

余凯:可能外界没有真正理解软硬结合这件事,软硬结合的本质,以及对整个效率的提升。

为什么基于地平线处理器的产品,相似公司去做,可能要晚1.5-2年的时间?因为软硬件的结合非常难,从一开始去思考软硬件结合,而不是硬件出来再去思考,这是本质上的不同。

量子位:例如?

余凯:特斯拉一开始用英伟达的处理器、自己做软件,现在就明确了:硬件自己做,才能更快。但自动驾驶处理器,研发周期肯定不会短。

量子位:什么时候能看到软硬结合的价值?

余凯:我们的目标是2025年(AI处理器)进入3000万辆汽车。如果达到这个目标,地平线的价值就会超过百度。

量子位:超过百度是一个小目标?

余凯:不,这只是一个比方。

2017&2018

计算>算法、数据

量子位:2017还有什么行业事件让你印象深刻?

余凯:AlphaGo Zero,但不在意料之外。2015年我就预见到未来会是这样的,我记得在团队内部也有分享:未来,计算会比数据更重要。

这也是驱动我去做处理器的原因。我认为未来在芯片上做仿真、左右互搏,无需真实数据,就能不断提升决策的能力。

量子位:计算会比数据和算法更关键?

余凯:我认为未来计算会更重要。即便直到今天,大家还都在"大数据"、"大数据"……然而通过演算也能解决很多根本问题。

爱因斯坦从来不做实验,他所有的理论,都是思想实验得到的结论。又开始讲得越来越抽象,可能又要让大部分人听不懂了。

总而言之,我的观点是:持续去投资AI计算,而不是算法本身,这很重要。

量子位:也是地平线的发展路径?

余凯:我们沿着这个路径去实现。当初成立地平线,很重要的一点是对于未来的预判,其中算法的优先性可能没有计算来得重要。我们提三个支点:处理器、算法和数据。

特别是处理器的重要性上,没有处理器,算法就是无根之木。

"战争已结束"

量子位:2017年AI创投也很热,感到竞争在加剧吗?

余凯:我不觉得竞争加剧。看到热才涌进来,这个事情你不一定能很好做下去。

引用之前流传的一句话:当你意识到这是一个战争的时候,战争已经结束了。

对于机会主义者来说,满世界都是机会,而带着使命感的人,会直面冷热、挑战,困难,无论这个世界如何变化,我们肯定会带着自己的使命往前跑。

量子位:冷与热不会影响到你们?

余凯:冷与热与我们没有太大关系。我本人在深度学习、AI领域干了20多年时间,行业起起落落、冷冷热热,其间很多人改行了,但我从来不会思考这些冷与热。

量子位:也没有影响你对商业的理解?

余凯:商业的本质一直没有改变,虽然AI越来越high。我觉得太在意眼前的事情,反而会迷失。

我们如今有这么多AI公司,但还没有一家真正找到创新的商业模式。光靠卖算法、卖SDK,很难成为伟大的公司,所以目前为止,商业本质没有变化。

我的投资人张磊常引用巴菲特的理念:投资要投资长时间里的不变量,做时间的朋友。所以我们一定要思考,什么才是不变的东西?

对于地平线来说,我们希望成为第一家大规模商业化的AI公司。

百度&英特尔

量子位:你也是第一个出走百度的AI创业者?

余凯:对,我是第一个,又是"第一个"(笑)。

量子位:会不会觉得吃亏?如果你再晚一点创业,可能受到的资本追捧会更多。

余凯:不会,地平线现在处于最好的节奏里。我们不会太care估值,虽然我们估值并不低,只不过我们一直不愿意参与这种融资里的喧嚣。很多人吹嘘自己是AI独角兽,但可能并不是。

至于我创业的前同事们,他们目前都做得很不错,我都愿意为他们鼓掌喝彩,我觉得未来他们都用上我们的处理器就会更完美。(笑)

所以我的心愿很直接:景驰、Pony.ai等做得越好,我们的机会越大。地平线做的是底层平台,会是一个AI底层平台公司。

量子位:芯片发布前地平线拿了英特尔的投资,当时有过"中国芯"的顾虑吗?可能有些公司为了展现"中国自主研发",甚至不愿意接触国外资本。

余凯:我觉得一个超牛逼的技术公司,一定是参与全球竞争的。

量子位:英特尔的投资意味着什么?

余凯:我们一方面说我们要成为AI时代的英特尔,有竞争的成分;另一方面我们又收获了来自行业巨头的尊敬。

量子位:英特尔的投资是出于尊敬?

余凯:行业老大把真金白银放在你这里,是干什么的?难道没有出于尊重的意思吗?(笑)

我们拿了英特尔的投资,但也不避讳我们的野心:就是要做AI时代的英特尔。竞争中什么是最重要的?得到最强大的竞争对手的敬畏之心。

2017&2018

量子位:如何总结2017?

余凯:Show me the chip.

量子位:对2018有什么展望?

余凯:Show me the product.

归根结底还是那句话:废话少说。Talk is cheap,show me the product.

互动一则:

谁是你心中AI领域在2017的变局者?欢迎在评论区留言、打call。

还可以留下你最想提问的AI大咖和问题,量子位就是你的提问AI,笔芯。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AJlibI
RSS Feed

RSS5

IFTTT

余凯:不做AI芯片,如何改变世界?

李根 发自 硅谷 量子位 报道 | 公众号 QbitAI

余凯的身上有很多个"第一名"标签,他是深度学习最资深的华人从业者,是中国首个深度学习实验室的创办人,也是AI浪潮中第一个离职创业的百度技术高管……

如今他最看重的,是创办了第一家中国AI芯片公司:地平线机器人。

余凯创业后发布的第一款产品,用时2年。

这个速度和产品价值,现在还难以评价。可能与地平线的创立一样,需要更长的时间才能云开见日——比如AI芯片大热,又如技术应用能够"看得见摸得着"。

但影响和意义则是毋庸置疑的。无论是"AI处理器"的潮流,还是"中国芯"的趋势,地平线的"旭日"和"征程"站立其间,在发布开始就成为了行业新变量。

我们想知道,余凯和他创办的地平线会在2018搅动怎么样的风云变幻?而答案就在量子位对余凯的这次专访中。

在与量子位对话时,余凯毫不掩饰他的雄心壮志,甚至是他的"狂傲";当然余凯也坦率了表露了内心"柔软"的一面。

这是最真实的余凯和他的地平线。

这也是系列报道"变局者"专访的开篇。

2年造芯路

talk is cheap

量子位:创业2年推出芯片,怎么评价这个过程?

余凯:我们很幸运。2015年决定做AI芯片,是中国第一家,那时候很多算法还不成型,做了很多风险不小的决定。

量子位:哪方面的风险?

余凯:打个比方,这辆车的轮子都没有完全装好,我们就上路了。最后芯片一次流片成功,非常难得。我们有很多芯片老兵,一次性芯片成功,直接拿产品出来展示,并不多见。

量子位:跟预计时间比呢?

余凯:时间上差不多。但一开始做确实有点迷茫,因为我一直都是深度学习出身,硬件方面请教了不少人,说法都不一样,有人说3年,有人说更长,起初确实吓到我了。

我们正式流片成功是2017年9月。后来直到12月才召开发布会,在地平线的认知里,芯片流片成功还不算完,一定要把系统做出来,把应用放到场景中做出来,这才是最强大的power展示,而不光是概念。

量子位:所以在发布会现场就展示应用?

余凯:硅谷有句话:"Talk is cheap,show me the code."

今天可能有很多发布会,但全世界真正拿出AI处理器的公司恐怕没几家。我们经过2年潜心研发,拿出了一个非常完美的处理器。

所以虽然是处理发布会,我们现场也已经实时展现了芯片运转处理的实际应用过程。我们是第一家(这样做的公司)。

show me the chip(芯片)

量子位:造芯最大挑战是什么?

余凯:时间。进入研发周期,从芯片架构、设计、定型、验证,流片,再验证,整个周期很固定,不可能压缩或加快整个流程。所以在这个过程当中,最核心的是要耐得住寂寞。

量子位:跟你以前工作状态是完全不同的。

余凯:硬件不像软件,你无法通过多花时间多写几行代码解决问题。从一个软件背景的人去理解、适应这种常态,是需要转折期的,这是最大的挑战,这也是我的新常态。

量子位:如果没一次性成功会怎么样?

余凯:如果流片失败了,那几百万美金就打水漂,整个过程还得重来一遍,即便不是完全从头再来,但整个项目一定会延期6-12个月。

量子位:有这样的心理准备?

余凯:(长舒一口气……)我们芯片团队的人还去烧过香,真的,去雍和宫。

show me the product

量子位:芯片发布后的挑战是?

余凯:推向应用的速度,你不能只是一个芯片。2017年完成了show me the chip,2018的核心就是show me the product.我觉得吹牛都是容易的,但talk is cheap.

量子位:有目标吗?

余凯:我们有一个非常aggressive的目标,但还没想好是不是要对外说。核心会在智能驾驶、泛安防(安防、新零售)等领域去打造应用。

量子位:为什么是这两个?

余凯:在我们看来,第一波AI,肯定是用智能化去重新定义智能终端,最核心的是摄像头。另一个是重新定义汽车。我们认为手机之后最能核心影响人类智能生活的,就是摄像头和汽车。

AI冷热变局

量子位:我们刚谈论了很多AI芯片的过程,但你2015年创立地平线宣布要造芯时,理解的人并不多。这个认知过程你怎么看?

余凯:我们是第一家做AI芯片的公司,这是我们独立思考的结果。

全球范围内,你很难找到第二个比我做深度学习(时间)更长的华人。我从2006年开始做深度学习,并且信仰它,这都是一个很不为人理解、很孤独的过程。

当时全世界没有几个实验室围绕深度学习进行研发,我所在的NEC是为数不多以卷积神经网络为核心的实验室。

所以一定要保持独立思考,而不是随大流,随大流的思考,往往是错误的。真正有价值的东西,一定是大家不理解的,一旦每个人都看得懂了,机会已经晚了。

量子位:之前也有过不理解?

余凯:2012年我在百度启动深度学习实验室(IDL),大家也不理解。当时国内学术会议上,还有教授跟我争辩为何去搞深度学习。但到2015年左右,已经没有人再争论这个事情了。

量子位:2015年你出来创建了地平线。

余凯:对,到大家都理解深度学习的时候,我的想法又不一样了。当大家还在试图搞清楚深度学习、软件、算法和GPU的时候,我已经在思考(其实2014年就开始了):可能GPU不是最适合做深度学习的计算平台,我们需要继续去推进人工智能的革命——关键节点不再是软件算法了。

量子位:这影响了你创业?

余凯:2015年,地平线可以出来做一家人脸识别的公司,那个时候中国可能已经有50家了,我觉得不会给这个世界带来任何本质的不同。

但真正人脸识别、自动驾驶的应用,不会停留在小项目里,而是被大规模应用,应用到任何场景中,是低功耗的芯片中。

我们这个观点是很有远见,你看今年特斯拉也这么做了。

量子位:AI处理器在2017是热门话题。

余凯:是热门话题,越来越多的人涌进来,但我很怀疑他们是否真正思考过AI处理器相关的东西。

在中国,一个人做了加油站赚钱,1万家公司都跑过来做加油站。我觉得应该鼓励独立思考,敢于预设未来,而不是人云亦云,这一点硅谷做得更好些。

量子位:你对AI处理器的思考是什么?

余凯:我的关于AI处理器的思考,可以等到2018年年底再跟你聊一聊。

量子位:为什么?

余凯:一方面是现在说了大家听不懂,另一方面是出于保密。最关键的,还是超前思维。我试图一直保持5年左右的超前思维,跟业界比。无论是深度学习算法,还是ImageNet这样的比赛,我都是最早夺冠的中国团队。

所以回过头来看,地平线所做的事情大家不是非常理解也不奇怪,像大疆DJI,一开始并不被理解,但它反倒有了很长期的时间去准备,积累势能,当展现成动能的时候,别人再copy已经晚了。

我们会享受这一段独特、不被人理解的过程。利用这段时间去打磨好我们的技术和产品。

量子位:你觉得地平线最不被理解的是什么?

余凯:可能外界没有真正理解软硬结合这件事,软硬结合的本质,以及对整个效率的提升。

为什么基于地平线处理器的产品,相似公司去做,可能要晚1.5-2年的时间?因为软硬件的结合非常难,从一开始去思考软硬件结合,而不是硬件出来再去思考,这是本质上的不同。

量子位:例如?

余凯:特斯拉一开始用英伟达的处理器、自己做软件,现在就明确了:硬件自己做,才能更快。但自动驾驶处理器,研发周期肯定不会短。

量子位:什么时候能看到软硬结合的价值?

余凯:我们的目标是2025年(AI处理器)进入3000万辆汽车。如果达到这个目标,地平线的价值就会超过百度。

量子位:超过百度是一个小目标?

余凯:不,这只是一个比方。

2017&2018

计算>算法、数据

量子位:2017还有什么行业事件让你印象深刻?

余凯:AlphaGo Zero,但不在意料之外。2015年我就预见到未来会是这样的,我记得在团队内部也有分享:未来,计算会比数据更重要。

这也是驱动我去做处理器的原因。我认为未来在芯片上做仿真、左右互搏,无需真实数据,就能不断提升决策的能力。

量子位:计算会比数据和算法更关键?

余凯:我认为未来计算会更重要。即便直到今天,大家还都在"大数据"、"大数据"……然而通过演算也能解决很多根本问题。

爱因斯坦从来不做实验,他所有的理论,都是思想实验得到的结论。又开始讲得越来越抽象,可能又要让大部分人听不懂了。

总而言之,我的观点是:持续去投资AI计算,而不是算法本身,这很重要。

量子位:也是地平线的发展路径?

余凯:我们沿着这个路径去实现。当初成立地平线,很重要的一点是对于未来的预判,其中算法的优先性可能没有计算来得重要。我们提三个支点:处理器、算法和数据。

特别是处理器的重要性上,没有处理器,算法就是无根之木。

"战争已结束"

量子位:2017年AI创投也很热,感到竞争在加剧吗?

余凯:我不觉得竞争加剧。看到热才涌进来,这个事情你不一定能很好做下去。

引用之前流传的一句话:当你意识到这是一个战争的时候,战争已经结束了。

对于机会主义者来说,满世界都是机会,而带着使命感的人,会直面冷热、挑战,困难,无论这个世界如何变化,我们肯定会带着自己的使命往前跑。

量子位:冷与热不会影响到你们?

余凯:冷与热与我们没有太大关系。我本人在深度学习、AI领域干了20多年时间,行业起起落落、冷冷热热,其间很多人改行了,但我从来不会思考这些冷与热。

量子位:也没有影响你对商业的理解?

余凯:商业的本质一直没有改变,虽然AI越来越high。我觉得太在意眼前的事情,反而会迷失。

我们如今有这么多AI公司,但还没有一家真正找到创新的商业模式。光靠卖算法、卖SDK,很难成为伟大的公司,所以目前为止,商业本质没有变化。

我的投资人张磊常引用巴菲特的理念:投资要投资长时间里的不变量,做时间的朋友。所以我们一定要思考,什么才是不变的东西?

对于地平线来说,我们希望成为第一家大规模商业化的AI公司。

百度&英特尔

量子位:你也是第一个出走百度的AI创业者?

余凯:对,我是第一个,又是"第一个"(笑)。

量子位:会不会觉得吃亏?如果你再晚一点创业,可能受到的资本追捧会更多。

余凯:不会,地平线现在处于最好的节奏里。我们不会太care估值,虽然我们估值并不低,只不过我们一直不愿意参与这种融资里的喧嚣。很多人吹嘘自己是AI独角兽,但可能并不是。

至于我创业的前同事们,他们目前都做得很不错,我都愿意为他们鼓掌喝彩,我觉得未来他们都用上我们的处理器就会更完美。(笑)

所以我的心愿很直接:景驰、Pony.ai等做得越好,我们的机会越大。地平线做的是底层平台,会是一个AI底层平台公司。

量子位:芯片发布前地平线拿了英特尔的投资,当时有过"中国芯"的顾虑吗?可能有些公司为了展现"中国自主研发",甚至不愿意接触国外资本。

余凯:我觉得一个超牛逼的技术公司,一定是参与全球竞争的。

量子位:英特尔的投资意味着什么?

余凯:我们一方面说我们要成为AI时代的英特尔,有竞争的成分;另一方面我们又收获了来自行业巨头的尊敬。

量子位:英特尔的投资是出于尊敬?

余凯:行业老大把真金白银放在你这里,是干什么的?难道没有出于尊重的意思吗?(笑)

我们拿了英特尔的投资,但也不避讳我们的野心:就是要做AI时代的英特尔。竞争中什么是最重要的?得到最强大的竞争对手的敬畏之心。

2017&2018

量子位:如何总结2017?

余凯:Show me the chip.

量子位:对2018有什么展望?

余凯:Show me the product.

归根结底还是那句话:废话少说。Talk is cheap,show me the product.

互动一则:

谁是你心中AI领域在2017的变局者?欢迎在评论区留言、打call。

还可以留下你最想提问的AI大咖和问题,量子位就是你的提问AI,笔芯。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AJlibI
RSS Feed

RSS5

IFTTT

景略集智2017年度活动大回顾

2017年集智做了哪些活动?其中有没有你的身影?

17年集智收获了很多很多朋友(主要集中在下半年),还举办了很多喜闻乐见的线上/线下活动(找借口和大家一起玩),第一次沙龙、第一次新书试读会、第一次线下培训班、第一次编程竞赛、第一次直播喊麦讲论文...其中有你的身影吗?快来找找自己~

「谈笑风生」系列活动第一期:《人工智能与深度学习》分享会(17.08.12)

集智携手 邹博、蔡庆芃、九品夹、Rina 与大家一起聊聊人工智能并现场体验开发环境

视频地址:http://ift.tt/2EpFfXh

「谈笑风生」系列活动第二期:《深度学习与图像处理》新书试读会(17.10.15)

集智携手胡博强(北京大学博士)、杨培文(Kaggle竞赛 Top 1% ,优达学城 Mentor)两位大佬,一起分享了即将出版的集智人工系列新书——《深度学习与图像处理》。

两位大佬现场带领大家复盘了书中所提到的相关知识并演示了一系列极具价值的案例。在随后的提问环节中,面对现场朋友们的刁难做到了真正的谈笑风生。

感谢友商 北京思腾合力科技 作为硬件提供商的大力支持——4路1080ti

线上直播系列:【科普向】Kaiser带你读Paper!干不过ALPHAGO★ZERO怪我咯?

AlphaGo Zero 为什么那么强?看着论文但是读不懂?kaiser开直播带你读论文!

视频地址:http://ift.tt/2Ep9ygu

GoogleGDG 2017 《Angular 5.0 与现代 WebApp 设计》与《TensorFlow 与概率编程》主题演讲

我司CEO 与 CTO 受邀参加 Google GDG 2017 并发表主题演讲。

视频地址:

http://ift.tt/2FixVOg

http://ift.tt/2EoGPbJ

知乎 Live对话人工智能专题:《为自己的下一个十年》

合作伙伴:

科大讯飞执行总裁

胡郁,中国科学技术大学博士,现任科大讯飞股份有限公司执行总裁,消费者 BG 总裁。

知乎围棋大V @云天外

本次「人工智能」系列 Live 的组织者和策划者,致力于提供数据采集分析的解决方案,制定投资策略。

计算广告技术专家

@北冥乘海生

刘鹏,清华大学信息与通信工程博士,《计算广告》作者

晶泰科技联合创始人

@小赖

赖力鹏,北京大学物理学、数学双学位学士、芝加哥大学物理学博士、麻省理工学院博士后,目前是晶泰科技(XtalPi)联合创始人

泛化智能(gitech)CEO @王汉洋

王汉洋,曾就读于滑铁卢大学数学系, 2015 年回国创办人工智能公司「泛化智能」

IPN创始人 @不鳥萬如一

不鳥萬如一,《一天世界》《灭茶苦茶》作者,IPN 创始人

甲子光年创始人 @张一甲

张一甲,毕业于北京大学,获得数学、经济学双学位,曾任职于奥美、百度,目前是科技智库「甲子光年」的创始人与 CEO

知乎数据大V @路人甲

钟志远,开发出身的数据分析师

造数 创始人 @黄震昕

毕业于电子科技大学,大学时曾创建大数据研究团队 SysLab,此后参与创立新零售平台「快快鱼」,服务近千所高校的近百万用户。

神策创始人 @桑文锋

桑文锋,神策数据创始人兼CEO,浙江大学计算机科学与技术专业硕士,之前任职于百度,拥有 8 年大数据从业经历,2017 年 7月入选第六届中国财经峰会「2017 最佳青年榜样」。

集智与 @云天外 合作讲解《掌握通行 AI 的思维利器:贝叶斯概率思维》主题Live

Live地址:

http://ift.tt/2EqGN3f

「谈笑风生」系列活动第三期:2017无人驾驶智能车HACKATHON挑战赛

集智与kittcamp 共同举办无人驾驶Hackathon,几十名优秀选手自发通宵完成比赛,成果喜人。

除此之外我们还上线了多门新课、在线直播了入门级的Python教程,大大小小几十个活动,总有一款适合你。



via 集智 - 知乎专栏 http://ift.tt/2EqGQvX
RSS Feed

RSS7

IFTTT

M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」-InfoQ每周精要No.900

「每周精要」 NO. 900 2025/11/01 头条 HEADLINE M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」 精选 SELECTED a16z 将 3000 万开发者标价 3 万亿 网友:几个初创公司 + 大模型就...