AI 人工智能新闻资讯

2018年1月9日星期二

从最大似然估计开始，你需要打下的机器学习基石

什么是参数？

在机器学习中，我们经常使用一个模型来描述生成观察数据的过程。例如，我们可以使用一个随机森林模型来分类客户是否会取消订阅服务（称为流失建模），或者我们可以用线性模型根据公司的广告支出来预测公司的收入（这是一个线性回归的例子）。每个模型都包含自己的一组参数，这些参数最终定义了模型本身。

我们可以把线性模型写成 y = mx + c 的形式。在广告预测收入的例子中，x 可以表示广告支出，y 是产生的收入。m 和 c 则是这个模型的参数。这些参数的不同值将在坐标平面上给出不同的直线（见下图）。

参数值不同的三个线性模型。

因此，参数为模型定义了一个蓝图。只有将参数选定为特定值时，才会给出一个描述给定现象的模型实例。

最大似然估计的直观解释

最大似然估计是一种确定模型参数值的方法。确定参数值的过程，是找到能最大化模型产生真实观察数据可能性的那一组参数。

上述的定义可能听起来还是有点模糊，那么让我们通过一个例子来帮助理解。

假设我们从某个过程中观察了 10 个数据点。例如，每个数据点可以代表一个学生回答特定考试问题的时间长度（以秒为单位）。这 10 个数据点如下图所示：

我们观察到的 10 个（假设的）数据点。

我们首先要决定哪个模型最适合描述生成数据的过程，这一步至关重要。至少，我们应该对使用哪种模型有一个不错的想法。这个判断通常来自于一些领域内专家，但我们不在这里讨论这个问题。

对于这些数据，我们假设数据生成过程可以用高斯分布（正态分布）进行充分描述。对以上数值目测一番就可以得知，高斯分布是合理的，因为这 10 个点的大部分都集中在中间，而左边和右边的点都很少。（因为我们只使用了 10 个数据点，做出这样的草率决定是不明智的，但考虑到我是用某个确定的分布函数生成这些数据点，我们就凑合着用吧）。

回想一下高斯分布有两个参数：均值μ和标准差σ。这些参数的不同值会对应不同的曲线（就像上面的直线一样）。我们想知道「哪条曲线最可能产生我们观察到的数据点」？（见下图）。用最大似然估计法，我们会找到与数据拟合得最好的 μ、σ 的值。

10 个数据点和可能得出这些数据的高斯分布。f_1 是均值为 10、方差为 2.25（方差等于标准偏差的平方）的正态分布，也可以表示为 f_1∼N(10, 2.25)。其它曲线为 f_2∼N(10, 9)、f_3∼N(10, 0.25)、f_4∼N(8,2.25)。最大似然的目标是找到最有可能生成已知观察数据分布的参数值。

我生成这 10 个数据的真实分布是 f_1~N(10, 2.25)，也就是上图中的蓝色曲线。

计算最大似然估计

现在我们对最大似然估计有了直观的理解，我们可以继续学习如何计算参数值了。我们找到的参数值被称为最大似然估计（maximum likelihood estimates，MLE）。

我们同样将用一个例子来演示这个过程。假设这次有三个数据点，我们假设它们是从一个被高斯分布充分描述的过程生成的。这些点是 9、9.5 和 11。那么如何用最大似然估计逼近这个高斯分布的参数 μ 和 σ 呢?

我们要计算的是同时观察到所有这些数据的概率，也就是所有观测数据点的联合概率分布。因此，我们需要计算一些可能很难算出来的条件概率。我们将在这里做出第一个假设，假设每个数据点都是独立于其他数据点生成的。这个假设能让计算更容易些。如果事件（即生成数据的过程）是独立的，那么观察所有数据的总概率就是单独观察到每个数据点的概率的乘积（即边缘概率的乘积）。

从高斯分布中生成的单个数据点 x 的（边缘）概率是：

在表达式 P(x; μ, σ) 中的分号是为了强调在分号后的符号都是概率分布的参数。所以千万不要把这个与条件概率相混淆。条件概率一般会用竖线来表达，比如说 P(A| B)。

在我们的例子中，同时观察到这三个数据点的总（联合）概率是：

我们只要找出能够让上述表达式最大化的μ、σ值就可以了。

如果你在数学课上学过微积分，那么你可能会意识到有一种技巧可以帮助我们找到函数的最大值（和最小值）。我们所要做的就是求出函数的导数，把导函数设为零然后重新变换方程，使其参数成为方程的未知数。然后就这样，我们将得到参数的 MLE 值。我将串讲一下这些步骤，但我假设读者知道如何对常用函数进行微分。

对数似然函数

上述的总概率表达式实际上是很难微分，所以它几乎总是通过对表达式取自然对数进行简化。这完全没问题，因为自然对数是一个单调递增的函数。这意味着，如果 x 轴上的值增加，y 轴上的值也会增加（见下图）。这一点很重要，因为它确保了概率的最大对数值出现在与原始概率函数相同的点上。因此，我们可以用更简单的对数概率来代替原来的概率。

原函数的单调性，左边是 y = x，右边是（自然）对数函数 y = ln(x)。

这是一个非单调函数的例子，因为从左至右 f(x) 会上升，然后下降，然后又上升。

取初始表达式的对数能得到：

我们可以用对数的运算法则再一次简化这个表达式，得到：

这个表达式可以通过求导得到最大值。在这个例子中，我们要找到平均值 μ。为此我们对函数求μ的偏导数，得到：

最后，设置等式的左边为零，然后以μ为未知数整理式子，可以得到：

、

这样我们就得到了 μ 的最大似然估计。我们可以用同样的方法得到σ的最大似然估计，这留给有兴趣的读者自己练习。

最大似然估计小结

最大似然估计总是能精确地得到解吗？

简单来说，不能。更有可能的是，在真实的场景中，对数似然函数的导数仍然是难以解析的（也就是说，很难甚至不可能人工对函数求微分）。因此，一般采用期望最大化（EM）算法等迭代方法为参数估计找到数值解，但总体思路还是一样的。

为什么叫「最大似然（最大可能性）」，而不是「最大概率」呢？

好吧，这只是统计学家们卖弄学问（但也是有充分的理由）。大多数人倾向于混用「概率」和「似然度」这两个名词，但统计学家和概率理论家都会区分这两个概念。通过观察这个等式，我们可以更好地明确这种混淆的原因。

这两个表达式是相等的！所以这是什么意思？我们先来定义 P(data; μ, σ) 它的意思是「在模型参数μ、σ条件下，观察到数据 data 的概率」。值得注意的是，我们可以将其推广到任意数量的参数和任何分布。

另一方面，L(μ, σ; data) 的意思是「我们在观察到一组数据 data 之后，参数μ、σ取特定的值的似然度。」

上面的公式表示，给定参数后数据的概率等于给定数据后参数的似然度。但是，尽管这两个值是相等的，但是似然度和概率从根本上是提出了两个不同的问题——一个是关于数据的，另一个是关于参数值的。这就是为什么这种方法被称为最大似然法（极大可能性），而不是最大概率。

什么时候最小二乘参数估计和最大似然估计结果相同？

最小二乘法是另一种常用的机器学习模型参数估计方法。结果表明，当模型向上述例子中一样被假设为高斯分布时，MLE 的估计等价于最小二乘法。

直觉上，我们可以通过理解两种方法的目的来解释这两种方法之间的联系。对于最小二乘参数估计，我们想要找到最小化数据点和回归线之间距离平方之和的直线（见下图）。在最大似然估计中，我们想要最大化数据同时出现的总概率。当待求分布被假设为高斯分布时，最大概率会在数据点接近平均值时找到。由于高斯分布是对称的，这等价于最小化数据点与平均值之间的距离。

有随机高斯噪声的回归线

上一部分讨论了机器学习和统计模型中参数估计的最大似然法。在下文我们将讨论贝叶斯推理的参数估计，并解释该方法如何可作为最大似然法的推广，以及两者等价的条件。

阅读本文需要理解一些基本的概率论知识，例如边缘概率和条件概率。此外，了解高斯分布有助于理解，但并不是必要的。

贝叶斯定理

在介绍贝叶斯推理之前，理解贝叶斯定理是很有必要的。贝叶斯定理的意义在于使我们能利用已有的知识或信念（通常称为先验的）帮助计算相关事件的概率。例如，如果想知道在炎热和晴朗的天气中卖出冰淇淋的概率，贝叶斯定理可以使用「在其它类型天气中可能卖出冰淇淋数量」的先验知识。

数学定义

贝叶斯定理的数学定义如下：

其中，A 和 B 是事件，P(A|B) 是给定事件 B 发生时，事件 A 发生的条件概率，P(B|A) 同理。P(A) 和 P(B) 分别是事件 A 和事件 B 的边缘概率。

示例

假定一副扑克牌里有 52 张牌，其中 26 张是红色的，26 张是黑色的。那么当牌是红色的时候，牌上数字为 4 的概率是多少？

我们将牌为数字 4 设为事件 A，将牌为红色设为事件 B。因此我们需要计算的概率是 P(A|B)=P(4|red)，接下来，我们使用贝叶斯定理计算这个概率值：

1. P(B|A) = P(red|4) = 1/2

2. P(A) = P(4) = 4/52 = 1/13

3. P(B) = P(red) = 1/2

然后根据贝叶斯定理可得到：P(4|red)=P(red|4)·P(4)/P(red)=1/13。

为什么贝叶斯定理能结合先验信念？

仅仅看数学公式很难理解这一点。我们将再次借用冰淇淋和天气的例子。

令 A 为卖出冰淇淋的事件，B 为天气的事件。我们的问题是「给定天气的类型，卖出冰淇淋的概率是多少？」用数学符号表示为 P(A=ice cream sale | B=type of weather)。

贝叶斯定理右边的 P(A) 被称为先验概率。在我们的例子中即 P(A = ice cream sale) 是卖出冰淇淋的边缘概率（其中天气是任何类型）。一般而言，这个概率都是已知的，因此其被称为先验概率。例如我通过查看数据了解到 100 个人中有 30 个买了冰淇淋，因此 P(A = ice cream sale)=30/100=0.3，而这都是在了解任何天气的信息之前知道的。

注意：先验知识本身并不是完全客观的，可能带有主观成分，甚至是完全的猜测。而这也会对最终的条件概率计算产生影响，我将在后面解释。

贝叶斯推理

定义

首先，（统计）推理是从数据中推导群体分布或概率分布的性质的过程。最大似然法也是同样的，如可以通过一系列的观察数据点确定平均值的最大似然估计。

因此，贝叶斯推理不过是利用贝叶斯定理从数据中推导群体分布或概率分布的性质的过程。

使用贝叶斯定理处理数据分布

以上例子使用的都是离散概率，有时可能需要使用连续的概率分布。即卖出冰淇淋的概率可能不只是 0.3，还可能是 0.25 或 0.4 以及其它任何可能值，每个概率对应一个先验信念，因而是一个函数 f(x)，如下图所示。该分布被称为先验分布（prior distribution）。

上图中的两个分布曲线都可以作为上述例子的先验分布，其中两者的峰值都在 x=0.3 处。在 x≠0.3 处，f≠0，意味着我们并不完全确定 0.3 就是卖出冰淇淋的真实概率。蓝线表示先验概率的值更可能在 0-0.5 之间，而黄线表示先验概率可能在 0-1 之间的任何值。相对而言，黄线表示的先验分布比蓝线的「更加不确定」。

在处理模型的时候，大部分都需要用到概率分布的形式。

贝叶斯定理的模型形式

模型形式的贝叶斯定理将使用不同的数学符号。

我们将用Θ取代事件 A。Θ是我们感兴趣的事件，它代表了参数的集合。因此如果要估计高斯分布的参数值，那么Θ代表了平均值μ和标准差σ，用数学形式表示为Θ = {μ, σ}。

我们用 data 或 y={y1, y2, …, yn} 取代事件 B，它代表了观察数据的集合。

其中 P(Θ) 是先验分布，它代表了我们相信的参数值分布，和上述例子中代表卖出冰淇淋的概率分布类似。等式左边的 P(Θ|data) 称为后验分布，它代表利用观察数据计算了等式右边之后的参数值分布。而 P(data| Θ) 和似然度分布类似。

因此我们可以使用 P(data|Θ) 更新先验信度以计算参数的后验分布。

等等，为什么忽略了 P(data)？

因为我们只对参数的分布感兴趣，而 P(data) 对此并没有任何参考价值。而 P(data) 的真正重要性在于它是一个归一化常数，它确保了计算得到的后验分布的总和等于 1。

在某些情况下，我们并不关心归一化，因此可以将贝叶斯定理写成这样的形式：

其中 ∝ 表示符号左边正比于符号右边的表达式。

贝叶斯推断示例

现在我们来展示一个贝叶斯推断的示例。该示例要算出氢键键长。你无需知道什么是氢键（hydrogen bond），我只是用它举例。

我用上图因为它有助于拆分密集文本，且与我们要展示的示例有某种关联。不要担心，无需理解上图也可以理解贝叶斯推断。

假设氢键是 3.2Å—4.0Å。该信息将构成我的先验知识。就概率分布而言，我将将其形式化为均值 μ = 3.6Å、标准差 σ = 0.2Å 的高斯分布（见下图）。

氢键键长的先验分布

我们现在选取一些数据（由均值为 3Å 和标准差为 0.4Å 的高斯分布随机生成的 5 个数据点），代表了氢键的测量长度（图 3 中的黄色点）。我们可以从这些数据点中推导出似然度分布，即下图中黄色线表示的似然度分布。注意从这 5 个数据点得到的最大似然度估计小于 3Å（大约 2.8Å）。

氢键长度的先验分布（蓝线），和由 5 个数据点导出的似然度分布（黄线）。

现在我们有两个高斯分布。由于忽略了归一化常数，因此已经可以计算非归一化的后验分布了。高斯分布的一般定义如下：

我们需要将上述的两个分布乘起来，然后得到下图的粉线所示的后验分布。

蓝色分布和黄色分布的乘积得到粉色的后验分布。

现在我们得到了氢键键长的后验分布，可以从中推导出统计特征。例如，我们可以使用分布的期望值估计键长，或者计算方差以量化对结果的不确定度。对后验分布的最常用的统计计算是众数，它被用于估计感兴趣参数的真实值。在这个例子中，后验分布是一个高斯分布，因此平均值等于众数（以及中位数），而氢键长度的 MAP 估计在分布的峰值处，大约 3.2Å。

结语

为什么我经常使用高斯分布？

你将注意到在我所有涉及分布的实例中，我使用了高斯分布。其中一个原因是它使数学变的更容易。但是对贝叶斯推理实例来说，它需要计算 2 个分布的乘积。此外，因为高斯分布有一个特殊的属性，使其易于计算分布的乘积。对于高斯似然函数来说，高斯分布与它自己共轭，因此如果我把一个高斯似然函数乘以一个高斯先验分布，我将得到一个高斯后验函数。事实是后验和先验都来自相同的分布族（均为高斯），这意味着它们可被称为共轭分布。在这种情况下，先验分布被称为共轭先验。

在很多推理情景中，似然和先验被选择，从而得到的分布是共轭的，因为它使数学变的更简单。数据科学中的一个实例是隐狄利克雷分配（LDA），它是一个无监督学习算法，可以发现若干个文本文档（语料库）中的主题。

当我们获取新数据，会发生什么？

贝叶斯推理的最大优势之一是使用它无需有大量数据。事实上贝叶斯框架允许你有数据后实时、迭代地更新你的信念。其工作如下：你有一个关于什么的先验信念（比如参数值），接着你接收到一些数据。你可以通过计算后验分布更新你的信念，就像上面我们做的那样。随后，甚至有更多的数据进来。因此我们的后验成为新的先验。我们可以通过从新数据中获得的似然更新的新的先验，并再次获得一个新后验。这一循环可无限持续，因此你可以不断更新你的信念。

卡尔曼过滤器（及其变体）是很好的一个实例。它在很多场景中使用，可能数据科学中最醒目就是其在自动驾驶汽车上的应用。在我的数学蛋白质晶体学博士学位期间，我曾使用一种名为 Unscented 卡尔曼过滤器的变体，并为实现它们的开源软件包做出了贡献。为了更好地视觉描述卡尔曼过滤器，请查看 Tim Babb 的这篇文章：http://ift.tt/2qI7Ip0

把先验用作 regulariser

我们在上述氢键长度实例中产生的数据表明，2.8Å是最佳估计。但是，如果我们的估计只依据数据，则存在过拟合的风险。如果数据收集过程出现差错，这将是一个严重的问题。我们可以在贝叶斯框架中使用先验解决这一问题。在我们的实例中，使用一个以 3.6Å为中心的高斯先验得到了一个后验分布，给出的氢键长度的 MAP 估计为 3.2Å。这表明我们的先验在估计参数值时可以作为 regulariser。

先验与似然上的权重数量取决于两个分布之间的相对不确定性。在下图中我们可以看到这一点。颜色与上面一样，蓝色表征先验分布，黄色表征似然分布，粉红表征后验分布。左图中我们看到蓝线不如黄线那么延展。因此后验要远比似然更相似于先验。右图中则情况相反。

因此如果我们愿意增加参数的正则化，我们可以选择缩小与似然性相关的先验分布。

什么时候 MAP 估计与最大似然估计相等？

当先验分布均匀之时，MAP 估计与 MLE 相等。下图是均匀分布的一个实例。

均匀分布

我们可以看到均匀分布给 X 轴（水平线）上的每个值分布相同的权重。直观讲，它表征了最有可能值的任何先验知识的匮乏。在这一情况中，所有权重分配到似然函数，因此当我们把先验与似然相乘，由此得到的后验极其类似于似然。因此，最大似然方法可被看作一种特殊的 MAP。

]]> 原文： http://ift.tt/2mgGb9t

机器知心

刘知远：在深度学习时代用HowNet搞事情

2017 年 12 月底，清华大学张钹院士做了一场题为《AI 科学突破的前夜，教授们应当看到什么？》的精彩特邀报告。他认为，处理知识是人类所擅长的，而处理数据是计算机所擅长的，如果能够将二者结合起来，一定能够构建出比人类更加智能的系统。因此他提出，AI 未来的科学突破是建立一种同时基于知识和数据的 AI 系统。

我完全赞同张钹老师的学术观点。最近一年里，我们在这方面也做了一些尝试，将语言知识库 HowNet 中的义原标注信息融入面向 NLP 的深度学习模型中，取得了一些有意思的结果，在这里整理与大家分享一下。

什么是 HowNet

HowNet 是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库，主要面向中文（也包括英文）的词汇与概念 [1]。

HowNet 秉承还原论思想，认为词汇/词义可以用更小的语义单位来描述。这种语义单位被称为「义原」（Sememe），顾名思义就是原子语义，即最基本的、不宜再分割的最小语义单位。在不断标注的过程中，HowNet 逐渐构建出了一套精细的义原体系（约 2000 个义原）。HowNet 基于该义原体系累计标注了数十万词汇/词义的语义信息。

例如「顶点」一词在 HowNet 有两个代表义项，分别标注义原信息如下，其中每个「xx|yy」代表一个义原，「|」左边为英文右边为中文；义原之间还被标注了复杂的语义关系，如 host、modifier、belong 等，从而能够精确地表示词义的语义信息。

顶点 #1DEF={Boundary|界限:host={entity|实体},modifier={GreaterThanNormal|高于正常:degree={most|最}}}顶点 #2DEF={location|位置:belong={angular|角},modifier={dot|点}}

在 NLP 领域知识库资源一直扮演着重要角色，在英语世界中最具知名度的是 WordNet，采用同义词集（synset）的形式标注词汇/词义的语义知识。HowNet 采取了不同于 WordNet 的标注思路，可以说是我国学者为 NLP 做出的最独具特色的杰出贡献。HowNet 在 2000 年前后引起了国内 NLP 学术界极大的研究热情，在词汇相似度计算、文本分类、信息检索等方面探索了 HowNet 的重要应用价值 [2,3]，与当时国际上对 WordNet 的应用探索相映成趣。

深度学习时代 HowNet 有什么用

进入深度学习时代，人们发现通过大规模文本数据也能够很好地学习词汇的语义表示。例如以 word2vec[4] 为代表的词表示学习方法，用低维（一般数百维）、稠密、实值向量来表示每个词汇/词义的语义信息，又称为分布式表示（distributed representation，或 embedding），利用大规模文本中的词汇上下文信息自动学习向量表示。我们可以用这些向量方便地计算词汇/词义相似度，能够取得比传统基于语言知识库的方法还好的效果。也正因为如此，近年来无论是 HowNet 还是 WordNet 的学术关注度都有显著下降，如以下两图所示。

中国期刊网（CNKI) 统计 HowNet 学术关注度变化趋势

Semantic Scholar 统计 WordNet 相关论文变化趋势

是不是说，深度学习时代以 WordNet、HowNet 为代表的语言知识库就毫无用处了呢？实际并非如此。实际上自 word2vec 刚提出一年后，我们 [5] 以及 ACL 2015 最佳学生论文 [6] 等工作，都发现将 WordNet 知识融入到词表示学习过程中，能够有效提升词表示效果。

虽然目前大部分 NLP 深度学习模型尚没有为语言知识库留出位置，但正由于深度学习模型 data-hungry、black-box 等特性，正使其发展遭遇不可突破的瓶颈。回顾最开始提及的张钹院士的观点，我们坚信 AI 未来的科学突破是建立一种同时基于知识和数据的 AI 系统。看清楚了这个大形势，针对 NLP 深度学习模型的关键问题就在于，利用什么知识，怎样利用知识。

在自然语言理解方面，HowNet 更贴近语言本质特点。自然语言中的词汇是典型的符号信息，这些符号背后蕴藏丰富的语义信息。可以说，词汇是最小的语言使用单位，却不是最小的语义单位。HowNet 提出的义原标注体系，正是突破词汇屏障，深入了解词汇背后丰富语义信息的重要通道。

在融入学习模型方面，HowNet 具有无可比拟的优势。在 WordNet、同义词词林等知识库中，每个词的词义是通过同义词集（synset）和定义（gloss）来间接体现的，具体每个词义到底什么意义，缺少细粒度的精准刻画，缺少显式定量的信息，无法更好为计算机所用。而 HowNet 通过一套统一的义原标注体系，能够直接精准刻画词义的语义信息；而每个义原含义明确固定，可被直接作为语义标签融入机器学习模型。

也许是由于 HowNet 采用了收费授权的政策，并且主要面向中文世界，近年来 HowNet 知识库有些淡出人们的视野。然而，对 HowNet 逐渐深入理解，以及最近我们在 HowNet 与深度学习模型融合的成功尝试，让我开始坚信，HowNet 语言知识体系与思想必将在深度学习时代大放异彩。

我们的尝试

最近我们分别探索了词汇表示学习、新词义原推荐、和词典扩展等任务上，验证了 HowNet 与深度学习模型融合的有效性。

1. 融合义原知识的词汇表示学习

论文：Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.
下载：http://ift.tt/2FhTxKA;
源码：http://ift.tt/2EqCBR8

我们考虑将词义的义原知识融入词汇表示学习模型中。在该工作中，我们将 HowNet 的义原标注信息具象化为如下图所示的 word-sense-sememe 结构。需要注意的是，为了简化模型，我们没有考虑词义的义原结构信息，即我们将每个词义的义原标注看做一个无序集合。

HowNet 义原标注知识的 word-sense-sememe 结构示意图

基于 word2vec 中的 Skip-Gram 模型，我们提出了 SAT（sememe attention over target model）模型。与 Skip-Gram 模型只考虑上下文信息相比，SAT 模型同时考虑单词的义原信息，使用义原信息辅助模型更好地「理解」单词。具体做法是，根据上下文单词来对中心词做词义消歧，使用 attention 机制计算上下文对该单词各个词义（sense）的权重，然后使用 sense embedding 的加权平均值表示单词向量。在词语相似度计算和类比推理两个任务上的实验结果表明，将义原信息融入词汇表示学习能够有效提升词向量性能。

SAT（Sememe Attention over Target Model）模型示意图

2. 基于词汇表示的新词义原推荐

论文：Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.
下载：http://ift.tt/2Eo6OQw;
源码：http://ift.tt/2FhTFd2

在验证了分布式表示学习与义原知识库之间的互补关系后，我们进一步提出，是否可以利用词汇表示学习模型，对新词进行义原推荐，辅助知识库标注工作。为了实现义原推荐，我们分别探索了矩阵分解和协同过滤等方法。

矩阵分解方法首先利用大规模文本数据学习单词向量，然后用已有词语的义原标注构建「单词-义原」矩阵，通过矩阵分解建立与单词向量匹配的义原向量。当给定新词时，利用新词在大规模文本数据得到的单词向量推荐义原信息。协同过滤方法则利用单词向量自动寻找与给定新词最相似的单词，然后利用这些相似单词的义原进行推荐。义原推荐的实验结果表明，综合利用矩阵分解和协同过滤两种手段，可以有效进行新词的义原推荐，并在一定程度上能够发现 HowNet 知识库的标注不一致现象。该技术将有利于提高 HowNet 语言知识库的标注效率与质量。

3. 基于词汇表示和义原知识的词典扩展

最近，我们又尝试了利用词语表示学习与 HowNet 知识库进行词典扩展。词典扩展任务旨在根据词典中的已有词语，自动扩展出更多的相关词语。该任务可以看做对词语的分类问题。我们选用在社会学中享有盛名的 LIWC 词典（Linguistic Inquiry and Word Count）中文版来开展研究。LIWC 中文版中每个单词都被标注层次化心理学类别。我们利用大规模文本数据学习每个词语的分布式向量表示，然后用 LIWC 词典单词作为训练数据训练分类器，并用 HowNet 提供的义原标注信息构建 sememe attention。实验表明，义原信息的引入能够显著提升单词的层次分类效果。

基于 Sememe Attention 的词典扩展模型

ps. 值得一提的是，这三份工作都是本科生（牛艺霖、袁星驰、曾祥楷）为主完成的，模型方案都很简单，但都是第一次投稿就被 ACL、IJCAI 和 AAAI 录用，也可以看出国际学术界对于这类技术路线的认可。

未来展望

以上介绍的三项工作只是初步验证了深度学习时代 HowNet 语言知识库在某些任务的重要作用。以 HowNet 语言知识库为代表的人类知识与以深度学习为代表的数据驱动模型如何深度融合，尚有许多重要的开放问题亟待探索与解答。我认为以下几个方向深具探索价值：

目前的研究工作仍停留在词法层面，对 HowNet 知识的应用亦非常有限。如何在以 RNN/LSTM 为代表的语言模型中有效融合 HowNet 义原知识库，并在自动问答、机器翻译等应用任务中验证有效性，具有重要的研究价值。是否需要考虑义原标注的结构信息，也值得探索与思考。

经过几十年的精心标注，HowNet 知识库已有相当规模，但面对日新月异的信息时代，对开放域词汇的覆盖度仍存在不足。需要不断探索更精准的新词义原自动推荐技术，让计算机辅助人类专家进行更及时高效的知识库标注工作。此外，HowNet 义原知识库规模宏大、标注时间跨度长，难免出现标注不一致现象，这将极大影响相关模型的效果，需要探索相关算法，辅助人类专家做好知识库的一致性检测和质量控制。

HowNet 知识库的义原体系是专家在不断标注过程中反思总结的结晶。但义原体系并非一成不变，也不见得完美无瑕。它应当随时间变化而演化，并随语言理解的深入而扩展。我们需要探索一种数据驱动与专家驱动相结合的手段，不断优化与扩充义原体系，更好地满足自然语言处理需求。

总之，HowNet 知识库是进入深度学习时代后被极度忽视的一片宝藏，它也许会成为解决 NLP 深度学习模型诸多瓶颈的一把钥匙。在深度学习时代用 HowNet 搞事情，广阔天地，大有可为！

以上是清华大学刘知远老师的总结，他带我们讨论了在深度学习时代用 HowNet 做研究与提升模型效果的方法。机器之心以前也关注过 HowNet，在语知科技董强老师的专访中，我们向读者展现了知网知识库的结构、概念的表征方法以及如何应用到分词与相似度的计算中。此外，语知也向我们介绍了如何简单地调用知网知识库以帮助开发者与研究者实现更好的性能。

参考文献：

知网官方介绍：http://ift.tt/2gBaS5M
刘群, 李素建. 基于《知网》的词汇语义相似度计算. 中文计算语言学 7, no. 2 (2002): 59-76.
朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德. 基于 HowNet 的词汇语义倾向计算. 中文信息学报 20, no. 1 (2006): 16-22.
Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NIPS, pp. 3111-3119. 2013.
Chen, Xinxiong, Zhiyuan Liu, and Maosong Sun. A unified model for word sense representation and disambiguation. In EMNLP, pp. 1025-1035. 2014.
Rothe, Sascha, and Hinrich Schütze. Autoextend: Extending word embeddings to embeddings for synsets and lexemes. In ACL, 2015.
Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.
Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.
Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.

]]> 原文： http://ift.tt/2FjnrxY

机器知心

南京大学提出用于聚类的最优间隔分布机

在这篇题为《Optimal Margin Distribution Clustering》的论文中，南京大学周志华教授、张腾博士提出了一种新方法——用于聚类的最优间隔分布机（Optimal margin Distribution Machine for Clustering/ODMC），该方法可以用于聚类并同时获得最优间隔分布。在 UCI 数据集上的大量实验表明 ODMC 显著地优于对比的方法，从而证明了最优间隔分布学习的优越性。

聚类是机器学习、数据挖掘和模式识别中的一个重要研究领域，其目标是分类相似的数据点。它催生出了包括信息检索、计算机视觉、生物信息学等在内的大量新研究，并且不同的聚类算法已被提出超过十年（Jain and Dubes 1988; Xu and Wunsch 2005; Jain 2010）。

最近有一种称为最大间隔聚类（MMC/maximum margin clustering）的方法，它基于支持向量机的大间隔启发（Cortes and Vapnik 1995; Vapnik 1995）。对于好的聚类方法而言，当标签分配到不同簇时，SVM 在该数据上可以得到最大化的最小间隔。由于形式化成的极大极小问题涉及用集合 {+1, −1} 标记每一个实例，它也就不再是一个凸优化问题，而是一个更难处理的混合整数规划（mixed-integer programming）。从那时起，为解决这一问题做了大量努力，这些努力可被分为两类。第一类通过不同的凸松弛技术（Xu et al. 2005）首次将其松弛为凸半定规划（semi-definite programming/SDP），其中一种带有线性约束的正半定矩阵被用于逼近标签外积矩阵。很快，Valizadegan 和 Jin (2006) 引入一个新的形式化，其变量数明显减少，尽管它依然是一个 SDP 问题。最后，Li et al.（2009; 2013）提出一个比 SDP 更紧致的极大极小松弛，并可通过迭代地生成最违反的标签，然后借助多核学习整合它们而被解决。

第二类通过非凸优化的变量直接优化原始的问题。这些案例包括了交替优化（Zhang, Tsang, and Kwok 2007; 2009），其中通过连续地寻找标签和优化一个支持向量回归（SVR）进行聚类；以及 CCCP（Zhao, Wang, and Zhang 2008; Wang, Zhao, and Zhang 2010），其中非凸目标函数或约束被表达为两个凸函数之间的差值；后者进一步替换成其线性近似，因此完全是凸的。此外，很多研究尝试将 MMC 扩展到更加普遍的学习环境。例如，Zhou 等人 2013 年假设数据具有隐变量并开发了 LMMC 框架。Niu 等人 2013 年的研究提出了 MMC 的另一种实现，称为最大容量聚类（maximum volume clustering，MVC），其在理论的意义上更重要。在 2016 年，MMC 的增量版本也被提出（Vijaya Saradhi and Charly Abraham 2016）。

上述的 MMC 方法全部基于大间隔理论，即尝试最大化训练实例的最小间隔。然而，间隔理论的近年研究（Gao and Zhou 2013）表明最小间隔的最大化并不必然导致更好的性能，而优化间隔分布才是关键。受此启发，Zhang 和 Zhou (2014; 2016; 2017) 提出了最优间隔分布机（optimal margin distribution machine，ODM），相比基于大间隔的方法可以获得更好的泛化性能。之后，Zhou 和 Zhou（2016）将该思想扩展为可利用无标签数据和控制不均衡误分类代价的方法。最优间隔分布学习的成功预示着在 MMC 方法上还存在很大的提升空间。

在本文中，作者提出了一种新的方法——ODMC（Optimal margin Distribution Machine for Clustering，用于聚类的最优间隔分布机），该方法可以用于聚类并同时获得最优间隔分布。特别地，他们利用一阶和二阶统计量（即间隔均值和方差）描述间隔分布，然后应用 Li 等人 2009 年提出的极小极大凸松弛法（已证明比 SDP 松弛法更严格）以获得凸形式化（convex reformulation）。作者扩展了随机镜像下降法（stochastic mirror descent method）以求解因而产生的极小极大问题，在实际应用中可以快速地收敛。此外，我们理论上证明了 ODMC 与当前最佳的割平面算法有相同的收敛速率，但每次迭代的计算消耗大大降低，因此我们的方法相比已有的方法有更好的可扩展性。在 UCI 数据集上的大量实验表明 ODMC 显著地优于对比的方法，从而证明了最优间隔分布学习的优越性。

图 1：随机镜像下降方法的一次迭代的图示。

算法 1：用于 ODMC 的随机镜像下降。

表 1：实验数据集的统计。

图 2：IterSVR、CPMMC、LG-MMC、ODMC 的单次迭代的平均时间消耗。

表 2：在 24 个 UCI 数据集上的聚类准确率（Acc）和 Rand Index（RI）的对比。粗体表示在该数据集上的最佳性能结果。黑点表示 ODMC 方法显著地优于对比的方法（配对 t-检验在 95% 的显著性水平）。最后两行总结了 ODMC 相对其它方法的优/平/劣的数量。GMMC 在某些数据集上无法在两天内返回结果。

下一步工作

在未来，作者将应用重要性采样以进一步加速 ODMC 方法，并将其扩展到其它的学习环境，即半监督学习。

论文：Optimal Margin Distribution Clustering

论文链接：http://ift.tt/2EqCvce

最大间隔聚类（Maximum margin clustering，MMC）基于支持向量机（SVM）的大间隔启发，相比传统的聚类方法有更高的准确率。可以直觉地理解为，对于一个足够好的聚类方法，当给不同的聚类分配标签时，SVM 可以在该数据上得到很大的最小间隔。然而，最近的研究揭示出最小间隔的最大化并不必然导致更好的性能，而优化间隔分布才是关键。在本文中，我们提出了一种新的方法——用于聚类的最优间隔分布机（Optimal margin Distribution Machine for Clustering，ODMC），该方法可以用于聚类并同时获得最优间隔分布。特别地，我们利用一阶和二阶统计量（即间隔平均和方差）描述间隔分布，并扩展了一种随机镜像下降法（stochastic mirror descent method）以求解因而产生的极小极大问题。此外，我们理论地证明了 ODMC 结合当前最佳的割平面（cutting plane）算法能得到相同的收敛速率，但每次迭代的计算消耗大大降低，因此我们的方法相比已有的方法有更好的可扩展性。在 UCI 数据集上的大量实验表明 ODMC 显著地优于对比的方法，从而证明了最优间隔分布学习的优越性。

]]> 原文： http://ift.tt/2FhTtdO

机器知心

2018年1月8日星期一

阿里云ET城市大脑新突破：行人检测与识别破世界纪录

阿里云ET城市大脑所要解决的世界级难题，正在催生出一系列世界级的技术。1月8日，全球权威机器视觉算法排行榜KITTI刷新了排名，阿里巴巴人工智能研究机构iDST夺得行人检测单项冠军。于此同时，在知名的行人再识别数据集Market1501中，他们也取得重大突破，首位命中率提升至96.17%，位居世界第一。

行人检测、行人再识别是交通管理、城市平安、无人驾驶等领域的两项核心基础技术。行人检测要求机器能够从图像或者视频中判断是否有行人，行人在哪里；行人再识别则要求机器能够识别出特定人员的所有图像。在景区商场人流预测、人群个性化分析、行人交通安全、无人驾驶、寻找丢失老人儿童等应用上，这两项技术可以发挥巨大的作用。

行人检测技术示意

行人再识别技术示意

这并非简单的人脸识别。阿里巴巴iDST副院长、IEEE Fellow华先胜说，在实际的城市场景下，大多数摄像头拍摄到的图像看不清人脸，但通过行人的整体和局部特征则可实现人员的识别。然而，实际场景中遮挡、光照、拍摄角度、拍摄距离、人物姿态等因素的变化，以及摄像头设备的不同，对行人检测和行人再识别的准确性提出了极大的挑战。

为了解决这一难题，华先胜领导的机器视觉团队采用了多项技术创新：

在行人检测技术方面，他们提出了基于目标尺寸分级的级联检测网络，并基于动态投票和循环推断的边界框定位策略，重点解决行人检测问题中存在的目标尺寸浮动大、语义特征差异大、遮挡、形变且定位不准等问题。

针对小尺寸目标的检测，他们利用了面向不同目标尺寸级别的多分支网络结构，充分发挥感兴趣区域的上下文信息提升网络特征提取的能力，同时在目标定位的问题中采用交叉熵正则约束来优化边框定位准确度。

在行人再识别方面，他们提出了基于局部细粒度信息和全局粗粒度信息相结合的识别网络，并引入了不同摄像头下特征表达一致性的约束，用于多摄像头下的行人再识别任务。

网络结构设计上，团队利用超分辨模块和特定的人头、上半身和下半身注意力网络和识别网络来得到更清晰的局部细节特征，解决行人全局特征中存在的尺寸影响大、清晰度低等问题，引入全局特征和局部特征的动态融合机制解决局部遮挡问题。同时，采用距离正则约束来提高跨摄像头下行人表征的一致性。

除了行人检测、行人识别之外，iDST还长期占据着KITTI的车辆检测世界冠军，他们在计算机视觉国际顶级会议TIP、ACM MM等发表多篇论文，与世界分享中国技术。

目前，这些技术已经全部集成到阿里云ET城市大脑当中，并在多地落地使用。华先胜说，"正如60年代的登月计划带来了通讯技术、生物工程技术大爆发一样，城市大脑已经成为世界顶尖的科技创新的平台，前所未有的难题倒逼科学家们创造前所未有的技术"。不久前，城市大脑正式成为国家四大人工智能开放创新平台之一，未来将吸引全球顶尖的研究机构共同参与创新。

据了解，阿里云ET城市大脑已经在杭州、苏州、衢州、乌镇等地落地。得益于精良的机器视觉算法，杭州城市大脑可以做到准确侦测、发现交通事故，日均事件报警500次以上，准确率达92%。

]]> 原文： http://ift.tt/2qKTeou

机器知心

情绪激动的陆奇在CES发布阿波罗2.0, 带着黑眼圈的景鲲又扩大了DuerOS的朋友圈

撰文 | 彭君韬（Tony Peng）、宇多田

从中国来到美国 CES 的百度低估了到场观众的热情。

美国当地时间 1 月 8 日下午 1：40，在拉斯维加斯召开了第一届「Baidu World@Las Vegas 2018」发布会现场大门敞开。

百度并没有像昨日的 Nvidia 选一个偌大的会议厅，而是在文华东方酒店三楼的一个会议厅举办了这场时长两个小时的发布会。

短短十分钟后，现场就坐无缺席，晚来的观众只能默默地杵在坐席的两边通道，和同样挤在一旁的媒体记者、长枪短炮一起，静候百度发布会的开始。

百度从未像今年这般重视 CES。

过去一年，百度先后推出了自动驾驶开放平台 Apollo 和智能语音交互平台 DuerOS。除了谷歌，世界上没有一家互联网公司能够在这两个领域同时发力而且成绩斐然。CES 成为了百度向全世界展示「中国 AI 速度」的最佳时机。

「Apollo 创造了全球自动驾驶领域的『中国速度』，『开放』是『中国速度』的关键。」发布会上，首先上台的百度集团总裁兼首席运营官陆奇如是说道。

陆奇：中国的 AI 速度无与伦比

一身简单的 US Polo 长袖和牛仔裤，首先登场的陆奇无疑是这场发布会的「巨星」。见惯大场面的陆奇仍然难掩激动情绪：「我迫不及待地要告诉你们百度 AI 的成果！」

在美国主流媒体面前，陆奇毫不掩饰地表达对了中国在 AI 时代中的重要地位：「中国离美国的差距正在急速地缩小。」

这种差距的缩小体现在五个方面：人才、市场、资本、市场、政策。

在如今美国总统特朗普对科技进步态度暧昧的同时，陆奇口中的「中国政策大力支持 AI 发展」让现场的美国媒体眼红。

宏观来说，AI 已经是中国第十三个 5 年规划建议中重要的发展部分，中国希望在 2030 年成为人工智能领域的世界领导者；而微观来说，中国各个城市都在积极推进智能化改革。

陆奇称，保定市人民政府与百度正式签订共建智能交通示范城市的战略合作协议，将在自动驾驶相关技术测试、体验示范、商业运营及标准法规探索等方面合作。

「除了美国，中国可以贡献更多，因为 AI 没有国界，帮助更多人，我们中国公司希望有这个机会，领导并支持这个世界的 AI 创新，」陆奇说。

当然，陆奇的这番言论自然是要为百度铺陈：「百度是中国最强大的 AI 公司。」

陆奇或许有说这句话的资本。从 2013 年就开始在 AI 领域发力的百度，在 2017 看到了一些盼望许久的成果。

机构上，由百度牵头，成立了深度学习技术及应用国家工程实验室，同时百度自身成立 AR 实验室、在硅谷的第二个研究所和在西雅图的研究所；

在产品端，百度开放了 Apollo 平台、DuerOS 平台，和腾讯、阿里巴巴、讯飞一起入选中国唯四的人工智能平台，并且获得了与雄安共同开发智能城市的一纸条约。

此外，百度的 AI 战略框架在这一年来变得愈加清晰：包括 Apollo 及 DuerOS 的技术服务，包含移动百度以及爱奇艺的移动端生态，以及在云端调用的百度大脑和智能云。

尽管所有人都知道，本场发布会的主角是 Apollo 和 DuerOS，但陆奇还是花了不少功夫夸赞了百度大脑——AI 基础技术架构：

「340% 的开发者人数增长率，80 个 AI 服务，2410 亿次百度大脑的日调用率，百度大脑是中国最有活力的架构。」

但最终，陆奇还是回到了 Apollo，并引出了本场发布会最浓墨重彩的一笔：Apollo2.0。

承前启后的Apollo 2.0

「Honest to god（上帝老天爷啊），Apollo 的发展速度太快了。」这是情绪激动的陆奇介绍 Apollo2.0 的第一句话。

根据百度 Apollo 推出的时间轴，自去年 7 月正式推出 Apollo1.0 之后，百度严格遵守着「每周更新，两个月版本迭代」的步伐，9 月推出 Apollo1.5，12 月则是 Apollo 2.0 的上线日期。「大概没有比在 CES 宣布这个新闻更恰当的时机了」。

在此次发布会上，百度 Apollo 也顺理成章地发布了 Apollo2.0。在拉斯维加斯现场的观众们应该是 Apollo 四大模块（云端平台、软件平台、硬件平台、参考车辆平台) 全部开放的见证者。这已经是一个支持简单城市道路自动驾驶的完整平台。

Apollo 平台负责人、百度美国研究所的王京傲用「承前启后」来形容 Apollo 2.0：

承的是 Apollo 平台的进一步完善，启的是 Apollo 平台的产业落地。

相比于过去还是半成品的 Apollo，Apollo2.0 最大的变化是实现了昼夜的简单城市道路中行驶。

根据王京傲的介绍，Apollo2.0 在软件平台上强化了其定位、感知、规划决策和云端仿真等能力。

其中，定位和感知的更新幅度比较大。定位上，Apollo 推出范围更大、更加精准的、基于激光雷达、GPS 和 IMU 的高精度地图。

在感知上，Apollo2.0 加入了基于摄像头和雷达的传感器解决方案，Apollo 的障碍物感知范围目前是 300 英尺，实时的交通灯检测范围则是 500 英尺和 99% 的准确率。

在 Apollo1.5 版本中提出的仿真模拟能力也在新版本中得到提升，过去需要 30 分钟的启动时间被缩减至 30 秒，极大地增加了无人车模拟测试的效率。

在 Apollo1.0 发布会上亮相的美国自动驾驶初创公司 AutonomouStuff，同样成为了首次测试 Apollo2.0 的「小白鼠」。

经过一周时间的调试，AutonomouStuff 成功地在伊利诺伊州第二大城市的皮奥瑞亚完成上路测试。

除此以外，北京、雄安和圣何塞的路面上也都能看到带有 Apollo 标志、车顶激光雷达的林肯 MKZ，这也属于百度的无人车。

除了无人驾驶技术在软件方面的性能，Apollo2.0 首次提出了有关的安全性的全套解决方案，为无人车提供多层级的安全保护。

没有一个乘客会希望车辆在运行过程中出现安全性故障，例如宕机、被黑客攻击等问题，这意味着无人驾驶领域对系统安全性的考量要高的多。而 Apollo2.0 提出的安全性解决方案，就包括了在云端的安全性 OTA，软件端的 IDPS 防火墙，以及在硬件平台的黑匣子。

Apollo 还宣布将在 2018 年全面支持包括 NVIDIA、Intel、NXP、Renesas 在内的四大主流计算平台，推出更低成本的传感器方案，支持小型巴士、SUV、卡车等更多的参考车型，以及提供全球更大范围的高精地图服务。

不过，AutonoMoustuf 的高级工程师 Josh Whitley在接受机器之能采访时表示：

「apollo2.0 最大的提升还是在感知能力上，过去的版本里只有激光雷达，而现在有了摄像头之外，整个工程的过程就变得更加 smooth（顺畅）。」

也就是说，Apollo 在 high speed 上还有问题没有解决，这应该是他们接下来要改进的地方。

当然，无人车技术的赋能，都是为了 Apollo 之后的产业落地服务。

去年 11 月，百度以 Apollo 开放平台为基础，发布了即可量产的自动驾驶产品 Apollo Pilot。陆奇宣布，搭载 Apollo2.0 及更高版本的 Apollo Pilot 将帮助百度的合作商，包括金龙（2018 年）、江淮（2019 年）、北汽（2019 年）和奇瑞（2020 年）实现自动驾驶车辆的量产计划。

而另一个重磅消息则是百度和优达学城（Udacity）联合推出面向全球的 Apollo 自动驾驶在线课程。

百度邀请了在美国颇具声望的 Udacity 创始人，Google 无人车之父 Sebastian Thrun 作为重磅嘉宾出席发布会，并表达了对于双方合作的期待：

「很高兴能够与百度 Apollo 合作，把中国最好的技术带到世界各地，推动民主化教育的愿景，使世界上任何地方的自动驾驶工程师都能掌握这一技术。」

而在发布会的最后，百度总裁张亚勤宣布 L 百度将成立多个 Apollo 全球研究院，以百度位于北、上、深、硅谷、西雅图的技术中心为起点，展开全球自动驾驶人才蓄能，加速自动驾驶技术的研发和创新。

DuerOS 的合作伙伴清单又加了3个

「百度 DuerOS 已经成为中国智能语音市场的绝对领导者，在推动众多嵌入 DuerOS 的消费级产品商业落地的过程中，产品创新和用户体验一直是我们关注的核心焦点。」

在陆奇演讲过后，带着俩明显黑眼圈的百度度秘事业部总经理景鲲与合作伙伴共同发布了搭载百度对话式 AI 操作系统 DuerOS2.0 的三款硬件产品：

小鱼在家的 VS1 智能视频音箱、Sengled 生迪智能音箱灯以及百度日本子公司 PopIn Aladdin 出品的 PopIn 智能投影仪，这三款新品都将出现在 CES 2018 的某个展台上。

不过最值得注意的还是百度这家日本子公司生产的 PopIn，你可以把这款产品看作是一款安装在天花板上的「智能音箱」。虽然·它名为一个智能投影仪，但是它既可以是一个投影仪、又可以是一个可以放歌的智能扬声器，还能是一盏灯…

景鲲表示，这是为小户型设计的特殊智能产品。

2017 年，DuerOS 与Appllo 应该是百度曝光率最高的两项「技术产品」。与Appllo无人驾驶平台所强调的开放态度一样，DuerOS 的目标也被景鲲在各种大小场合多次强调：要做 AI 界的安卓。

除了在 2017 年 12 月发布搭载了 DuerOS2.0 的自家硬件——渡鸦音箱，DuerOS 一直在不断入驻各种各样的硬件品牌，景鲲的朋友圈几乎成了不断更新的 DuerOS 合作伙伴清单。

而这次 CES 上，百度仍然在不遗余力地向全球硬件厂商推介着自己的智能对话交互能力。

根据百度官方提供的资料显示，在 2017 月 7 月召开的百度 AI 开发者大会之后半年时间内，DuerOS 新增了 130 多家合作伙伴，积累了 20 多个行业解决方案，而景鲲在大会上也强调，百度每月平均会增加 5 款以上搭载 DuerOS 的设备。

目前，包括中信国安广视、小鱼在家、海尔、美的、联想、哈曼、创维、TCL、小米、华为、高通等产业链上下游企业都已经在 DuerOS 公布的合作名单里。

在大会前百度硅谷办公室的一次活动中，景琨在接受我们采访时表示，希望 DuerOS 成为百度众多信息、视频等内容的入口。

他认为，真正的平台可以延伸体验，通过国内领先的 DuerOS 就可以看到整个行业、用户和产品定义的发展方向，从而让用户获取基础体验和延伸体验。

不过，虽然业内人士认为，每年的 CES 都是各路厂商在国际舞台上展现其软硬件实力的最好机会，但对于这次 CES 上百度 ALL in AI 后的第一次集中亮相，只能说，市场才是检验 DuerOS 能否形成自己硬件生态王国，获得口碑和订单的「最后一公里」。

结语：激动的陆奇与早上7点的「冻人」的无人车秀车技直播

其实，听完这场发布会的第一反应是：陆奇很激动，景鲲的黑眼圈有点重……

常年在美国企业深耕的陆奇深谙美国发布会的套路，渲染情绪往往比讲清楚一个技术细节要来的重要的多。

在本场发布会上，百度也用上了惯用的「无人车远程直播」的套路。陆奇在现场连线在北京百度总部的百度工作人员。

穿着冲锋衣、戴着绒线帽的百度工作人员在北京时间早上 6：53 在美国观众面前展示了在百度总部游行的百度无人车车队——搭载着激光雷达的百度无人车林肯 MKZ、无人驾驶的金龙客车、智行者的无人运货车、和一辆无人清扫车。

在空无一人的百度园区内，执行简单的直行、转弯的 Apollo 无人车很难体现什么技术含金量，但这是早上 7 点的百度唯一能做的。

当直播返回到现场时，现场爆发出雷鸣的掌声，或许是因为这份诚意吧。

]]> 原文： http://ift.tt/2meJgal

机器知心

2017，为什么对于机器人产业来说是了不起的一年？

编译 | 王宇欣

来源 | Wired

今年世界似乎变得有些不一样了，不是吗？是不是有些奇怪的东西在我们周围游动？

就如同，我们正在与自己所创造的新物种一起共享这个星球？

确实是这样，2017 年是机器人真正面向世界的一年。

它们离开了工厂，大批量地走向了城市，开始运送地中海的美食，或者化身自动驾驶汽车涌入街头。甚至连两足机器人也能够走几步，不至于立即摔倒在地。

它们也开始走出实验室，进入真实的世界。这绝对是一个令人振奋的时刻，如今 Atlas 人形机器人都已经能做后空翻了。

「2017 年对机器人技术来说是了不起的一年，」机器人专家同时也是自动驾驶汽车先驱的 Sebastian Thrun 这样说到。

「为什么是 2017 年？为什么花了这么长时间？」

这是各种因素共同促成的结果。比如，精密硬件价格的降低再加上优秀人才的助力。

Thrun 表示：「过去，我们还没有这样智能的软件，并且硬件也总是出问题，所以那时的机器人还不是一个好的产品。

但最近一段时间以来，不仅计算机具备了足够的智能，而且机器人硬件也变得足够可靠，两者的结合使得第一批机器人产品开始面世。」

也许硬件方面最大的飞跃体现在传感器技术上。

通常来说，要构造一个机器人，你不必去时时照顾它，它自己应该能够感知周围环境。但要感知环境，就需要一系列的传感器。

不仅仅是摄像机，还要用激光器建立机器人周围环境的三维地图。这些组件的功能如今变得更加强大，而价格也要便宜的多。

「我要说的是，如今是机器人的黄金年代，这也就说明了为什么在过去的 12 个月左右，你能第一次看到机器人生产呈现井喷式的增长，」机器人公司Sarcos Robotics 的 CEO Ben Wolff 这样说道，这家公司制作了最令人疯狂的机器人手臂。

「我认为这是因为，我们现在正处于时代的交叉点上，一方面组件的成本在下降，另一方面组件的性能则在增强。」

这就好像，一个伟大的时代已经来临。

在 2010 年，一个传感器就能耗费 Sarcos 25 万美元。如今只需要 8000 美元——仅是 7 年前成本的 3%。

而像驱动器这样的其它组件—如机器人手臂关节中的电机，其成本也在稳步降低中。

此外，一个曾经价值 3500 美元的驱动器，其现在的价格才需要1500 美元，而它的性能比其他组件又强大很多。硬件价格的降低使得在不久的将来，机器人技术将提升至一个新的水平。

装载着价格更便宜，性能更加强劲的传感器，机器人终于能够处理人类世界的拿不准的问题。但究竟这是否是人类想要的，那就是另一个问题了。

以送货机器人为例，今年在旧金山混乱的 Mission 街区附近，一个名为 Marble 的机器人开始为顾客取送食物，并直达顾客的家门口。

然而，Marble 并不是在相对规整的道路上前行周——围有车道和停车标志以及还有人行道。

Marble 必须躲开行人、街头表演者以及丢弃的家具，而且还要横穿马路，应对各种汽车的夹击。

Marble 并不完美，这也是为什么人工操作员会跟随机器人，在机器人发生故障时进行远程操控（4 月份，《连线》杂志使用的一个样品机器人差点撞到一条狗身上）。

本月早些时候，旧金山监事会投票通过要严格限制机器的运行，因为对于他们来说，像Marble这类机器人的保护措施尚不充分。

此外，有人认为，撇开法规不谈，机器人只会进一步侵占人类的空间。

「过去我们所拥有的机器人算是比较新奇的事物，」Wolff 说道，

「但那时拥有的机器人通常都是做着重复性工作，而且被固定在地板上。但是，我们现在谈论的，是可以在自然界中移动的机器人。」

移动主要是与机器人的大脑有关，机器人需要很大的处理能力才能定位一个人，然后对他们周围的环境进行导航。在此过程中，不仅要保持轨迹还要避开其他人。

幸运地是，更好的芯片意味着所有这些计算不再需要在云端的巨型计算机进行处理，就可以在机器人身上进行计算。

说具体一点，智能手机的革命不但缩小了所需处理器的数量，而且使处理器成本更低，更加节能。十分适合 Kuri 这样的小型机器人。

那么我们接下来该何去何从？我的意思是「我们人类」。

我们人类的大脑倾向于将任何看上去像智能代理的东西拟人化，所以我们很容易与机器建立联系，特别是当这些机器人的外形十分「逼真可爱」的时候。

2017年8月份，在我身上发生了一件事：我告诉一个机器人我爱它，仅仅是为了引起它的注意。我认为，这种人类与机器人之间的关系已经引起了道德上的混乱。

想象一下，一个孩子与一个高度智能的玩具形成了某种感情联系后会发生什么。

在某种程度上，制造商可能会利用这种关系，让玩具娃娃询问孩子是否想要让机器人变得更加有趣，那么好吧，请掏49.99美元进行无线更新。

我知道，现在说还些还为时尚早，尽管我刚刚才说完机器人已经来临。

但作为一个曾对机器人产生过切身好感的人，我想说清楚一件事：

机器与人之间的关系很奇怪，充满了潜在的风险。最好此刻就想想这种情况如果发生会怎样，一个玩具突然就把你的钱骗走了。

]]> 原文： http://ift.tt/2mgrtzD