2017年10月5日星期四

新研究将GRU简化成单门架构,或更适用于语音识别

Yoshua Bengio 领导的一个团队近日在 arXiv 上发布了一篇论文,介绍了他们通过修改门控循环单元(GRU)提升语音识别效果的研究进展。据介绍,这项研究是修改 GRU 方面的进一步研究进展,提出了一种可能更加适合语音识别的架构。机器之心对本论文进行了摘要介绍。另外,本研究相关的实验代码也已发布在 GitHub 上。


  • 论文:http://ift.tt/2z37jNY
  • 代码:http://ift.tt/2wA64o3


本论文有两大贡献:


第一,我们提出从网络设计中移除重置门(reset gate)。与 [31] 类似,我们发现移除重置门并不会影响系统的表现,因为我们观察到在更新门(update gate)和重置门发挥的作用上存在一定的冗余。


第二,我们提出在状态更新过程中使用修正线性单元(ReLU)激活函数替代双曲正切(tanh)。在过去,由于 ReLU 激活函数的无界性所引起的数值不稳定性,我们会在 RNN 上避开这样的非线性。但是,当我们将基于 ReLU 的 GRU 架构与批规范化(batch normalization)[4] 结合到一起时,我们没有遇到这样的数值问题。这让我们可以使用 ReLU 神经元了,这种神经元已经在进一步缓解梯度消失问题以及加速网络训练上得到了有效的证明。


我们在多种不同的任务、输入特征和噪声条件上进行了实验,结果表明:在我们的实现中,这种修改后的架构可以将每 epoch 的训练时钟时间减少 30% 以上,同时在本研究所涉及的所有实验条件中都实现了识别水平的提升。


论文:通过修改门控循环单元改善语音识别(Improving speech recognition by revising gated recurrent units)



语音识别正在广泛使用深度学习,表明现代循环神经网络(RNN)具有很多显著优势。最流行的 RNN 是长短期记忆(LSTM),由于它们学习长期依赖性和对梯度消失保持稳健的能力,它们往往能在很多任务上达到当前最佳的表现。尽管如此,LSTM 有一种带有三个乘法门的相当复杂的设计,这可能会妨碍 LSTM 的有效实现。最近对 LSTM 的一次简化尝试为我们带来了门控循环单元(GRU),它只基于两个乘法门。


本论文立足于这些成果,通过进一步修改 GRU 提出了一种简化的架构,该架构可能更加适合语音识别。本研究有两大贡献。第一,我们提出移除 GRU 设计中的重置门,从而得到一种更高效的单门架构。第二,我们提出在状态更新过程中使用 ReLU 激活函数替代 tanh。结果表明,在我们的实现中,比起标准的 GRU,这种修改后的架构可以将每 epoch 的训练时钟时间减少 30% 以上,同时还能在多种不同的任务、输入特征和噪声条件上都实现识别表现的提升。


一般的 GRU 架构定义如下:




移除重置门并且使用 ReLU 激活函数替代 tanh 后,我们可以得到新的公式:




我们将这个架构称为 M-reluGRU。


我们使用 Theano 实现了我们提出的这个系统,并且结合使用 Kaldi 解码器 [35] 创建了一个具有语境依赖的 DNN/HMM 语音识别器。实验代码请访问:http://ift.tt/2wA65s7


在 TIMIT 上的结果



表 1:各种 RNN 架构在 TIMIT 的测试集上所得到的音素错误率(PER%)



表 2:在 TIMIT 开发集上优化过的 RNN 架构的每 epoch 训练时间比较


 在 DIRHA English WSJ 上的结果



表 3:各种 RNN 架构在 DIRHA English WSJ 数据集(仿真的部分)上所得到的词错率(%)



表 4:各种 RNN 架构在 DIRHA English WSJ 数据集(真实部分)上所得到的词错率(%)

]]> 原文: http://ift.tt/2wA63jZ
RSS Feed

机器知心

IFTTT

一文概览视频目标分割

近日 Visualead 研究主管 Eddie Smolyansky 在 Midum 网站撰文介绍视频目标分割的基础知识,从视频目标分割问题简介、数据集和 DAVIS 挑战赛入手,同时介绍了 Visualead 最新发布的视频数据集 GyGO 和 2016 年以来两种主要的视频目标分割方法:MaskTrack 和 OSVOS。



DAVIS-2016 视频物体分割数据集中经过正确标注的几个帧


本文介绍了视频目标分割问题和对应的经典解决方案,简要概括为:


1. 问题、数据集和挑战赛;

2. 我们今天要宣布的新数据集;

3. 自 2016 年以来使用的两种主要方法:MaskTrack 和 OSVOS。


文章假设读者已经熟悉计算机视觉和深度学习领域的一些概念。我希望能对 DAVIS 挑战赛进行一个清晰易懂的介绍,让新手也能快速进入状态。


介绍


计算机视觉领域中和目标有关的经典任务有三种:分类、检测和分割。其中分类是为了告诉你「是什么」,后面两个任务的目标是为了告诉你「在哪里」,而分割任务将在像素级别上回答这个问题。


经典计算机视觉任务(图像来自 Stanford cs231n 课程幻灯片)


2016 年语义分割领域出现了很成熟的技术,甚至开始接近现有数据集的饱和性能。与此同时,2017 年也是各种视频处理任务爆发性增长的一年:动作分类、动作(时序)分割、语义分割等等。这里我们将着眼于视频目标分割。


问题、数据集、挑战赛

视频目标分割任务和语义分割有两个基本区别:


  • 视频目标分割任务分割的是一般的、非语义的目标;
  • 视频目标分割添加了一个时序模块:它的任务是在视频的每一连续帧中寻找感兴趣目标的对应像素。


分割的细分。图中每一叶都有一个示例数据集。


基于视频任务的特性,我们可以将问题分成两个子类:


  • 无监督(亦称作视频显著性检测):寻找并分割视频中的主要目标。这意味着算法需要自行决定哪个物体才是「主要的」。
  • 半监督:在输入中(只)给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中分割标注的目标。


半监督案例可以扩展为多物体分割问题,我们可以在 DAVIS-2017 挑战赛中看到。



DAVIS-2016 (左) 和 DAVIS-2017 (右) 标注的主要区别:多物体分割(multi-instance segmentation)


我们可以看到,DAVIS 是一个像素完美匹配标注的数据集。它的目标是重建真实的视频场景,如摄像机抖动、背景混杂、遮挡以及其它复杂状况。


DAVIS-2016 的复杂度属性


有两个度量分割准确率的主要标准:


  • 区域相似度(Region Similarity):区域相似度是掩膜 M 和真值 G 之间的 Intersection over Union 函数


  • 轮廓精确度(Contour Accuracy):将掩膜看成一系列闭合轮廓的集合,并计算基于轮廓的 F 度量,即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量。


直观上,区域相似度度量标注错误像素的数量,而轮廓精确度度量分割边界的准确率。


新的数据集!GyGO:电商视频目标分割数据集(by Visualead)


我们将在未来几个星期内陆续发布 GyGO 的各部分内容,GyGO 是一个专用于电商视频物体分割的数据集,由大约 150 个短视频组成。


  • 数据集地址:http://ift.tt/2wUgAtB


一方面,视频画面的序列非常简单,几乎没有遮挡、快速移动或者其它提高复杂度的属性。另一方面,这些视频中的物体相比 DAVIS-2016 数据集有更多的类别,其中很多序列包含了已知的语义类别(人类、汽车等)。GyGO 专门搜集智能手机拍摄的视频,因此帧比较稀疏(标注的视频速度只有约 5 fps)。


我们基于以下两个目的公布数据集:


1. 目前关于视频目标分割的数据严重缺乏,只有数百个带标注的视频。我们相信每一次贡献都有望帮助提升算法表现。我们分析认为,在 GyGO 和 DAVIS 数据集上进行联合训练,视频目标分割任务能得到更好的结果。

2. 为了推进更加开放共享的文化,鼓励其他研究人员加入我们。:) DAVIS 数据集和能促进其生长的研究生态系统给我们提供了很大的帮助,我们也希望社区能够从中受益。


DAVIS-2016 中的两个主要方法


随着用于单一目标分割的 DAVIS-2016 数据集的公布,两个最重要的方法出现了:MaskTrack 和 OSVOS。在 DAVIS-2017 挑战赛的参赛团队中,每一支队伍都想构建超越这两者的解决方案,它们俨然已经成为「经典」。让我们看看它们是怎么工作的:


单次视频目标分割(One Shot Video Object Segmentation,OSVOS)


OSVOS 背后的概念简单而强大:


 OSVOS 训练流程


1. 选择一个网络(比如 VGG-16)在 ImageNet 上进行分类预训练。

2. 将其转换为全连接卷积网络(FCN),从而保存空间信息:

  • 训练结束时删去 FC 层。
  • 嵌入一个新的损失函数:像素级 sigmoid 平衡交叉熵(pixel-wise sigmoid balanced cross entropy,曾用于 HED)。现在,每一个像素都可以被分类成前景或背景。

3. 在 DAVIS-2016 训练集上训练新的全连接卷积网络。

4. 单次训练:在推断的时候,给定一个新的视频输入进行分割并在第一帧给出真实标注(记住,这是一个半监督问题),创建一个新模型,使用 [3] 中训练的权重进行初始化,并在第一帧进行调整。


这个流程的结果,是适用于每一个新视频的唯一且一次性使用的模型,由于第一帧的标注,对于该新视频而言,模型其实是过拟合的。由于大多数视频中的目标和背景并不会发生巨大改变,因此这个模型的结果还是不错的。自然,如果该模型用于处理随机视频序列时,则它的表现得就没那么好了。


注意:OSVOS 方法是独立地分割视频的每一帧的,因此视频中的时序信息是没有用的。


MaskTrack(从静态图像学习视频目标分割)


OSVOS 独立地分割视频的每一帧,而 MaskTrack 还需要考虑视频中的时序信息:



 MaskTrack 的 Mask 传播模块


1. 每一个帧将前一帧的预测掩膜作为额外输入馈送给网络:现在输入有四个通道 (RGB+前一帧的掩膜)。使用第一帧的真实标注初始化该流程。

2. 该网络原本建立在 DeepLab VGG-16(模块化)基础上,现在在语义分割和图像显著性数据集上从头开始进行训练。通过将每一张静态图像的真实标注稍微转换,人工合成前一帧的掩膜通道输入。

3. 基于光流场输入增加一个相同的第二流网络。模型的权重和 RGB 流的权重相同。通过将两个结果取平均融合两个流的输出。

4. 在线训练:用第一帧的真实标注合成额外的、针对特定视频的训练数据。

注意:这两个方法都依赖于静态图像训练(与静态图像数据集相反,视频数据集较少且规模较小)。


综上所述,在这篇介绍性文章中我们了解了视频目标分割问题和至 2016 年的最优解决方案。


P.S. 这里我想感谢 DAVIS 数据集和挑战赛背后的团队做出的杰出贡献。


参考文献


文中提到和分析过的主要文献:


1. Benchmark Dataset and Evaluation Methodology for Video Object Segmentation F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung, *Computer Vision and Pattern Recognition (CVPR) 2016

2. The 2017 DAVIS Challenge on Video Object SegmentationJ. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbeláez, A. Sorkine-Hornung, and L. Van Gool, arXiv:1704.00675, 2017

3. Learning Video Object Segmentation from Static Images F. Perazzi, A. Khoreva, R. Benenson, B. Schiele, A. Sorkine-Hornung CVPR 2017, Honolulu, USA

4. One-Shot Video Object Segmentation, S. Caelles, K.K. Maninis, J. Pont-Tuset, L. Leal-Taixé, D. Cremers, and L. Van Gool, Computer Vision and Pattern Recognition (CVPR), 2017


]]> 原文: http://ift.tt/2z2uXu9
RSS Feed

机器知心

IFTTT

谷歌CEO Pichai:希望AI从根本上改变每一台设备的本质

撰写 | 微胖


「谷歌不仅仅要将 AI 功能融入每一款产品,而是要在 AI 的启发下去打造产品。没有 AI,相应的产品也无法想象。」谷歌 CEO Pichai 在谷歌硬件发布会期间接受媒体采访时说道。


今天凌晨(北京时间),谷歌在加州举办活动,推出新手机 Google Pixel 2(以及 XL)、新智能音箱 Google Home Mini(以及 Max)、新无线蓝牙耳机、新 Chromebook 等全新硬件产品。



谷歌一直善于巧用 AI 解决一些其他厂商诉诸硬件才能解决的问题。本次发布会上的 Dual-Pixel 技术,再次展示出谷歌的精巧心思。


当前热门的「人像模式」的主流解决方案需要双摄像头。Google Pixel 2 单摄像头即可处理景深信息,拍出不输双摄的人像模式。在 Dual-Pixel 帮助下,像素点由左右两个子像素组成,一个记录颜色,另一个记录景深,机器学习算法配合多张照片合成后,即可实现背景虚化的效果。Pixel 2/2 XL 用单镜头实现了双摄功能,可谓「四两拨千斤」。



一、Clips:真正的谷歌 AI 之道


不过在 Pichai 看来,本次发布会首次推出的 Clips 最能体现谷歌的硬件 AI 之道。


Google Clips 是谷歌推出的一款新相机。内部人工智能引擎会引导相机寻找它感觉有趣的东西:微笑、你关心的人、追逐尾巴的狗,并自动捕捉这一刻。随着时间的推移,这款相机会更加智能化。小巧相机几乎可以夹在任何东西上,完成许多角度的拍摄。照片和视频可以被单独保存到谷歌相册中。



谷歌不仅仅要将 AI 功能融入每一款产品,而是要在 AI 的启发下去打造产品,没有 AI,相应的产品也无法想象。Clips 可谓适例,它以新的方式重新定义摄影,利用谷歌技术完成了许多不同任务:面部识别、识别「不好」的照片和有趣的内容。


「我有意给一款硬件产品起了个软件名字,因为这款产品更加激动人心的部分是机器学习,幕后的计算机视觉任务。」Pichai 说。它也是 Pichai 希望谷歌能涉及更多的产品范例。


制造硬件并不仅仅是为了卖产品,也是在学习掌握硬件如何融入 AI。「如果不能『软硬兼施』地去思考这些东西,很难将计算技术推向未来。」Pichai 表示。每一款硬件产品,也可以说是「如何利用 AI 反思我们的产品」。他不想让 AI 停留在某个新增功能的层面,而是希望 AI 从根本上改变每一台设备的本质。


值得一提的是,谷歌特意将这款相机设计成完全在本地执行任务,内容不会被送往云端。


两种 AI 的任务方式(云、边缘)是必须的,Pichai 在接受采访时表示,「这种综合的方式,绝对有意义。」他说,「对两种方式,我们都会审慎地进行投资。这取决于语境、你要解决什么问题以及以不同的方式部署是否有意义。」


二、Pixel Buds : 重新想象的 Her 与巴别鱼


本次大会上,首次亮相的另一款智能硬件 Pixel Buds,也是谷歌第一款无线蓝牙耳机。有点类似 Her 与巴别鱼的合体,这款其貌不扬、设计甚至有点滑稽的耳机,其真实目的是为了用户可以更快、更简便地接入 Google Assistant 和 Google 翻译。




仅需将右手放在右耳部分开始说话,即可激活助手。耳机可以立刻将你的语音传输给收音机,无需等待任何提示音。举起手指,语音助手即可进行回复。


Google 翻译的惊艳效果已无需多言。这款蓝牙耳机不仅能够读取信息,还支持实时翻译,支持的互译语种达到 40 种。「help me speak English」,然后说一个短语,当你的手离开耳机时,翻译结果即刻出来。你的对话对象按住手机按键说出他们的回复后,你即可从耳机中听到译后版本。


三、传统智能硬件之争,仍离不开演进中的 AI 技术


除了这两款全新设计的智能硬件,手机、音箱仍然是传统竞赛项目。总的说来,想要赢得硬件之战,谷歌手机还需要寄希望于服务和软件,特别是 AI 和机器学习。不断演进的 Google Lens 和 Google Assistant 有望帮助谷歌硬件更加出类拔萃。


1、技术壁垒之声纹识别。


在智能音箱的对阵中,除了发布两大型号智能音箱对标 HomePod 与 Echo Dot 之外,谷歌将弯道超车的另一法宝押在了对方暂时没有的技术壁垒上:声纹识别。


微信用户对声纹识别并不陌生。声纹识别的最直接的用途是识别说话人身份。


其实,早在几个月前,Google Home 就进行了一次重大升级,谷歌成为第一家商用化音箱支持多用户声纹识别的公司。Google Home 可以根据提问的人的不同身份提供不同的信息,根据每个人的声音执行指令。


本次大会最大的亮点之一 正是「Voice Match」。借助这一功能,Google Assistant 能区分不同用户的声音,并且根据辨别用户,从而对同一个指令做出不同的应对。


例如:你和伴侣都对 Google Home 说「打电话给妈妈」,Google Assistant 就会根据识别出的声音,调取你和伴侣各自的通讯录,然后打给各自的妈妈。


关于语音助手,还有一个值得注意的细节。在这次发布会上,Google 为 Pixel 2 两款新机加入了一项名为「Active Edge」的功能,可以利用握持动作唤醒一些快捷方式(默认是呼出 Google Assistant 和来电时静音)。也就是说,无需唤醒词,通过把握行为即可唤醒语音助手。


2、Lens 从底层技术实现 AR 玩法,战略意义不容忽视


「多点触控是一个很大的进步。」Pichai 说,「但是,未来的交互将会更多地以对话形式、感官方式进行,比如语音、视觉。」和 Bixby 一样,它可以识别真实世界目标并搜索。


2017 年谷歌 I/O 大会上,Google Lens 首次登台亮相即成为当时最大亮点。Google Lens 并不是一个硬件,而是一个可以根据图片或拍照识别出文本和物体的软件内部功能,能实时分析图像并迅速共享信息。


它可以帮助用户快速识别物体(植物 、古迹等)、自动联网和了解附近地区。这项新技术会最先应用在 Google Assistant 和 Google Photos 上。


在这次发布会上,Google Lens 进一步展示了 AI 在图像识别中取得的全新进展。比如,即使在干扰项非常多的情况下,它也可以很好地工作。


AI 可以判断相机镜头对着的影像信息内容,比如传单上 Email 信箱位址,并会自动在手机上显示问你是要创建联系人、传送信件或只是单纯复制文字。Google Lens 还可以判断艺术作品、唱片或者书本封面信息,快速帮你搜索出相关信息。刚到一个新城市旅游的 Google Lens 用户,只需要四周扫扫,即可游刃有余地在城市中旅行。



其实,Google Lens 的这些应用也是手机镜头+AR 的完美组合,可以轻松实现便捷和广泛的 AR 应用。想象一下随手扫描一家餐厅的照片,眼前就会出现各式菜品的 AR 效果影像。


不过,谷歌是从系统底层技术入手,实现 AR 应用。虽然 Snapchat、苹果都把带有 AR 滤镜的手机摄像头功能当成最核心的产品功能(iPhone X 手机豪赌 AI+AR),但有分析认为,与 Google Lens 能实现的 AI+AR 的搜索相比,他们仍然只是浅表意义上的应用。娱乐毕竟只是 AR 广阔市场中一个小的领域。基于 AR 的搜索才是拥有巨大潜力的主流应用未来。前段时间,谷歌公布的 ARCore 也将在 Google Pixel 2 中预载。


3、语音合成技术终于产品化。


最后,值得一提的是 DeepMind 的算法终于产品化,被用于 Google Assistant。去年 9 月,DeepMind 公布了其在语音合成领域的最新成果 WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前常用的语音合成方法。


不过,当时这个模型还只处于雏形阶段,对于消费性产品而言,模型的计算消耗量太大。经过 12 个月的努力,DeepMind 大大提升了模型运行的速度和质量,目前已经推出 WaveNet 的更新版本,可以在所有平台上生成美式英语和日语的 Google Assistant 语音。


四、在线消费者产品的 AI 创新仍然步履沉重


尽管谷歌雄心勃勃地做自己的硬件,但较之在线业务营收,仍然是九牛一毛。在接受媒体采访时,Pichai 表示接下来五年,硬件业务会成为公司财务的一大爆发亮点。




目前,在线搜索业务仍然是谷歌的重要营收来源。每天,谷歌需要应对的各种错误、被操纵的信息与日俱增。就在这次发布会的前几天,谷歌(和 Facebook)再度被卷入舆论漩涡。谷歌的推送算法给出有关骇人听闻的拉斯维加斯枪击案的政治化虚假新闻。


谷歌搜索结果中包含了来自有争议的 4Chan 的「头条新闻」,但该文章包含了错误猜测的枪手名字(误指为 Geary Daniel)。对此,谷歌归咎于算法错误(执法部门后来确认了枪手的身份为 Stephen Paddock)。错误的链接存在了数小时。


「我们有责任纠正这一错误」,谷歌 CEO Pichai 最近在接受媒体采访时表示,「但是,每一次跌倒,会感觉到疼,也应该承担起责任。」后来谷歌在一份声明中称,为避免未来发生同样的尴尬,他们会对软件作出调整。


谷歌用 AI 来创新硬件与在线消费者产品的能力,并非并驾齐驱。人们仍然会质疑,谷歌算法系统是否能够做出正确决定,而不是仅仅是让决定更容易?


今年 7 月,谷歌推出自己的新闻推送服务 Google Feed,该服务将通过谷歌应用向 iPhone 用户和 Android 用户提供包括新闻报道、视频以及为个人用户定制的其他内容在内的各种内容。


「这不是你的朋友感兴趣的东西,也跟其他的新闻推送服务不同。」谷歌工程副总裁 Shashi Khakur 说。谷歌使用的是自己的搜索历史。


谷歌的基本搜索办法也可以用于提供好的、值得信赖的内容。Pichai 说,「我们仍然使用相同的核心原则,就像在 Ranking 中使用的那样。原则可以平等地加以应用。我感到欣慰的是,同样一套东西是起作用的。」


但在有关事实王国之外,怎么处理真诚的意见,Pichai 也没有把握。「我们所有人都要努力克服的问题是,怎么处理人们不同意的地方?」在推送意见时,Pichai 很好奇谷歌是否可以「带来更好的观点,而不是单纯的排名.... 这是我们早期勘探领域,但我认为,我们可以做的更好。」


谷歌用 AI 来创新硬件与在线消费者产品的能力,并非并驾齐驱。但是,当请谷歌为我们做出更多决定时,Pichai 不得不展示他们的 AI 具有判断力,而不仅仅是一套算法。


]]> 原文: http://ift.tt/2xjBGT9
RSS Feed

机器知心

IFTTT

面对三星的「反叛」与亚马逊的「围剿」,谷歌正赌上全部自尊心来做硬件

撰文 | 宇多田


你可能会认为,统治着搜索与电子邮箱市场,经营着全球最大的广告业务,创建了 Chrome,收购了 Youtube,售卖着 Google Home,外加正在紧锣密鼓推进自己的云计算服务,这些已经足够让 Google 忙活起来。


然而就在上个月,Google 再次用一场收购来告诉你,这帮喜欢在山景城埋头搞技术的工程师们,真的下决心要闯荡智能手机市场了。


很显然,这是一个足够成熟的市场。若干年来,无数大小厂商都试图在这个市场中杀出一条血路,但现实就是,除了三星与苹果,很少有人能在这个市场赚到大钱。特别是对于国内厂商,「营收虽多,但毛利很低」,已经成为了一种默认的事实。



然而,从 2016 年 10 月 Google 在硬件大会上推出「亲儿子」Pixel 开始,这家从来都是以技术征服世界的科技巨头,就开启了自己撸起袖子一通到底的「变硬之路」。


因此,在今年 4 月向 LG 投资 1 万亿韩元来提升 OLED 屏产能,8 月推出增强现实开发者平台 ARcore,9 月全面收购 HTC 手机业务,就显得水到渠成了。


甚至就在明天(美国时间 10 月 4 日),在Google今年最重要的一场大会上,这家用软件征服了世界的科技公司,将推出从设计到出厂,完全亲力亲为的第二代智能手机 Pixel2 与 Pixel2 XL。


与此同时,还会有一款基于 Chome OS 系统的新型笔记本电脑 Pixelbook,一个迷你版的 Google Home 与一副基于 Daydream VR 平台的可穿戴设备问世。与 1 年前一样,依旧是 Google 诚意满满的「五大件」。


因此话又说会来,到底是因为什么,让 2015 年拆分后一股脑把硬件板块都甩给「Other Bets」(Google 2015 年 8 重组后建立母公司 Alphabet,并将业务拆分成两个部分,一个是 Google,一个是 Other Bets)的 Google,开始从智能音箱 Google Home 开始,一件一件把硬件业务又重新「拣」了回来?


从内而外,一定要自己做软硬件


如果说 Google Home 证明了 Google 做硬件的能力(仅次于亚马逊 Echo 的美国市场销量),那么成型于 2015 年之前的 Nexus 系列,Chromebooks(平板),Chromecast(电视棒)与 Google OnHub(路由器)则证明 Google 有着做硬件的丰富经验。


这些硬件虽然由不同的团队打造,但所有团队都隶属于 Google 的先进技术与产品部门 ATAP。


此外,这些产品其实都有一个共同的目标:自己的诞生不是为了赢得市场,而是要向开发者与用户证明——「瞧瞧,只要运行在正确的硬件上,你应该能知道我们的软件是多么优秀」。


因此,它们被标注为在小范围内传播的「限定产品」,很难引领市场级的「围观」与创新。


不过,从推出 Google Home 开始,Google 似乎已经被某些东西给触动了。某种意义上,进入 2016 年,这家以技术闻名全球的公司终于坚定了将命运掌握在自己手中的决心:


一定做硬件,而且从内到外,从软到硬,都必须是自己亲手来做


这就如同 2016 年 10 月 4 日 Google 硬件主管 Rick Osterloh 在讲台上,一边展示手里的那部 Pixel,一边反复向台下观众强调的内容一样:


「这个项目都是我们自己在进行库存管理,与运营商建立合作关系,亲自采购组件;同时也在处理分销商及供应链的相关事宜。我们甚至还在制造手机配件,包括充电器与连接线等。」


Google 硬件部门主管 Rick Osterloh


Osterloh 认为,做硬件是个难度极高且赚不了什么钱的活计,但却依然是一项 Google 非常重要的业务。在 Google 自己的大楼里开发硬件,除了给自己一个超越所有安卓合作伙伴的机会。更重要的是,这项业务给了 Google 一个在不确定的时间里掌控自己命运的机会。


在 Google 看来,移动时代并没有过去,当下呈现出的其实是一种 AI、AR 等新技术与手机相互融合,互相作用的多维度并存的新形势。而市场调研机构 GlobalData 的设备与平台分析师 Avi Greengart 认为,在这种情形下,Google 更希望由一款完全由自己掌控的高水平大众性硬件把自己所有技术优势都展现出来。


「无论是 Google Assistant(语音助手),还是 Tango(AR 平台)和 Daydream(VR 平台),你会发现这些还不错的软件触及用户的渠道都非常窄。」


三星的「反叛」与亚马逊的「围剿」


实际上,在 Google 发布第一代 Pixel 以来,几乎所有人都将 Google 这一系列动作理解为「对标苹果」,想在高端手机市场与后者一争高下。的确,除了 Pixel 的定价几乎向 iPhone 看齐以外,苹果也的确让 Google 认识到,硬件才是与客户最重要的接触点。


但是,在移动与 AI 共同主导的时代里,我们忽略了让 Google 明显感受到威胁的另外两家公司:三星与亚马逊。


没错,过去借助于安卓的力量,Google 在手机市场已经变得无处不在。但取得这项成就的前提中有不可忽视的一个事实:


谷歌用安卓系统打开市场,离不开其他硬件厂商的支持。特别是三星电子,对安卓迅速占领市场提供了巨大的帮助。


「Google 需要三星,它也很喜欢三星,但是作为一个平台驱动者,它不想完全依赖三星。」Greengart 这样认为。



著名商业媒体 Wired 把三星比作是 Google 的"一场危险游戏」。一方面,三星的 Galaxy 系列手机已经成为迄今为止最受欢迎的安卓产品;而另一方面,你可以在近两年感受到三星正在试图逐渐拉远与 Google 的距离:

  • 开发出语音助手 Bixby 作为自己硬件的首要基础配置,与 Google Assistant 直接展开正面竞争
  • 三星也创建了自己的电子邮件客户端、浏览器与短信 app
  • 三星的 VR 头盔 Gear VR 在移动 VR 领域占据绝对地位,也聪明地避开了 Google 的 VR 平台 Daydream;而后者虽然面向众多安卓手机厂商开放,却唯独需要与三星合作定制一款支持 Daydream 的手机
  • 2014 年三星收购智能家居平台 Smartthings 以后,就开始建立自己的家居生态,与 Alphabet 旗下的智能家居品牌 Nest 以及其他基于安卓的智能家居产品展开了正面竞争。
  • 从 2016 年开始,三星就开始在多个自家的可穿戴设备中尝试嵌入完全由自己开发的操作系统 Tizen,试图摆脱安卓的控制。

很明显,除了 Play Store 中不可复制的海量 app,以上动作都可以证明三星几乎完全不需要安卓了。


其实 Google 并不是没有针对这种趋势采取积极策略。在安卓壮大以后,Google 选择不断地与 HTC 与 LG 建立更加紧密的联系,与他们共同建立「安卓智能机」的雏形,共同开发语音助手,试图为三星培养更多的竞争对手。


然而,这套策略似乎最后没发挥什么作用——Google 多年来努力尝试利用 Nexus 系统来激励和说服其他厂商制造更加优质、纯粹而且强大的安卓手机,但最后却发现,人人都喜欢买 Galaxies。



而这仅仅是来自安卓内部的「瓦解趋势」,就像刚才所说的,在 AI 时代中,还有一些正在蔓延的东西一定会削弱安卓的力量。譬如像 Alexa 语音开发平台这样的存在,就被彭博社喻为「正在对 Google 构成生死存亡的威胁」。


凭借着较为超前的战略布局, 尤其是与安卓相似的开源策略, 亚马逊 Alexa 已经建立了接入上万种技能的生态系统,形成了一个潜力巨大的系统入口。不仅如此,它还给Alexa制作了一个不错的外壳——Echo。


想想哪一天,你可以直接通过「命令 Alexa」来查 Google 地图或者是其他地图app;你也可以通过 Alexa 直接听 Spotify 的歌,隔离了Google Play的生态……以上这些需求可能只需要你买一个 Echo 或 Echo Show 就能实现。对于 Google 来说,这可能会意味着什么?


你会慢慢不再使用 Google 的一些东西,逐渐忘记它,甚至连你自己都没有意识到。


而「被大众遗忘」,往往是一家公司衰落的开始。这也就能解释,为何前几天在毫无预警之下,Google 就「拔掉」了亚马逊 Echo Show 的 YouTube 服务接口。



因此,这就是不做硬件的危险。而这个危险,Google 看到了,国内的阿里看到了,越来越多的巨头正在意识到,在 AI 时代中,自己做硬件的重要性。


看看苹果,在过去十年中,这家公司把「垂直整合」的理念发挥到了极致。除了设计与组装自己的手机,CPU 与 GPU 等关键部件以及数据中心运用、iTunes 及 App Store 等服务平台,都由苹果自己把关。


Fast Company 认为,在嵌入了自己研发的 A11 仿生芯片后,最新款的苹果手机已经成为市场上最强大的智能手机。换句话说,在其他厂商在性能指标上逐渐趋同,让「一个好手机」的定义逐渐大众化的时候,苹果再一次跃升至一个完全不同的水平线上。同样这也能说明,为何苹果的 AR 程序能在手机上运行地如此之好的原因。


更重要的是,随着 AI 逐渐找到更多的落地场景,新一阶段的技术逐步进入市场,这种对硬件力量的把控就变得愈加重要。这就如同通用在上个月推出自己首款可量产的无人驾驶汽车时,其负责人对他们造车遭遇的新挑战有这样一番理解:


「汽车由上千个部件组成,本身就是一件极其复杂的产品。但是加入了这么多新技术,你会发现汽车的电池以及各种零部件,与传感器以及新的技术模块需要重新磨合,一切都不一样了。这需要我们做更多十分具体而复杂的组装工作。」


而推出了软件与硬件完全由阿里一手打造的智能音箱"天猫精灵"后,其人工智能实验室也曾向机器之能陈述过一个相似的观点:


「这不仅仅是一个生态和入口,而是我们想知道在做硬件过程中,开发者究竟需要 AI 提供什么,消费者究竟需要 AI 提供什么。你不亲自上手做一做,你永远不知道市场需要什么样的 AI 产品。」


即便是 Google,「做硬件」也有不可预料的风险


当然,「兴奋地宣布我是一家硬件公司」与「能够成为一家成功的硬件公司」是两种截然不同的事情。


这就像 HTC 近几年来跌宕起伏的命运一样,「用功」做了 10 年手机,却因为一些针对运营商渠道的排他性决策与糟糕的营销计划等因素而迅速陨落。


诚然,Pixel 是一款很棒的手机,也是一款让 Google 技术粉充满期待的作品。但从目前来看,它还没有任何席卷全球的迹象。


实际上,在去年信心满满地推出以 Pixel 为核心的「五大件」后,硬件主管 Rick Osterloh 在接受采访时说了这样一段话:

「我十分期待消费者对 Google 新款智能手机 Pixel 的持有量能达到 iPhone7 的高度。」


但 3 个月过去后,Pixel 的销售额却遭到当地媒体今日美国的披露:在 2016 年第四季度里,Pixel 的销量其实还不到 56 万部。而对比 Pixel,苹果在同一个季度中售出的 7800 万部手机着实给了 Pixel 一些教训。


截止目前,Google 也从来没有公布过确切的销量,但有分析师根据 Google Play 中的「Pixel Launcher」(仅Pixel 和 Pixel XL 两部手机才能下载 Pixel Launcher)下载量,估算出Pixel 的销量可能仅有 100 多万部;也有其他分析师得出「销量应该在 300~500 万之间」这个结论。


但无论是哪个数字,Greengart 都认为 Pixel 目前的表现肯定还没有在高端手机市场上取得一席之地:


「在中国,它可能根本玩不转儿。我还看不到华为、小米或者是 Oppo 在因为 Pixel 的出现而担忧,而苹果和三星也没有什么反应。」



The Verge 在分析 Pixel 销售预冷的原因时,曾重点提到了 Google 与运营商的糟糕关系。在美国运营商中,只有 Verizon 一家支持谷歌,而这就是 Google 在铺设销售渠道中遇到的最大问题。


需要注意的是,在美国智能手机市场,掌握话语权的并不是手机厂商,而是四大通信运营商,如果得不到他们的支持,那么无论如何都不可能在美国市场获得成功。其实这也是为何华为等国产手机一直打不通美国市场的重要原因。


除了这个原因,也有分析师认为 Google 面临的另一个问题是供货管理。由于经常出现缺货现象,而网友也时常在网上抱怨根本订不到 Pixel,因此 Google 可能并没有把真实的市场需求转化为实际销量。


但无论如何,Google 必须要尝试,而且已经在赌上了自己的一切自尊心来做这样一款硬件。历史告诉我们,最好的产品一定来自于「软件与硬件两手抓」的公司,而一方的优化与完善一定会优化和改进另一方的工作。


Wired 认为,随着我们进入技术的另一个阶段,随着智能手机逐渐为智能音箱、智能电灯泡以及无人驾驶汽车让路,已经没有什么多余空间可以承载庞大且运作低效的软件,而赢家一定是那些聚焦于「如何做好每一件事」的公司:硬件、软件、市场以及所有的一切。


「苹果把自己『钉』在了手机上,然后成为了世界上最有钱的公司;而下一个机会,正在赶来的路上。」



是对还是错,是聪明还是愚蠢,无论如何,Google 现在都是一家标准的硬件公司了。


]]> 原文: http://ift.tt/2yqIWNb
RSS Feed

机器知心

IFTTT

还在担心自己的岗位会被 AI 取代吗?Gartner 说你可能有新的机会

来源 | Forbes

作者 | Louis Columbus

编译 | 不定项


IT 调研与咨询服务公司 Gartner 每年都会举办技术峰会 Symposium/ITxpo,与会的行业管理人员在数百场分会场中分享对于 IT 未来的预测和看法,会议中的判断和总结可以说是行业的「风向标」。



今年的 Symposium/ITxpo 2017 会议上,Gartner 对未来几年的 IT 发展做出了十点预测。这些预测,以及支撑预测的假设和论证,都表明首席信息官(CIO)首先应当是商业布局的专家,然而才是技术专家。从明年起,行业的管理者将比以往任何时候都要注重利用新兴的科学技术,创造利润以及新的商业模式。


以下是 Gartner 对未来几年 IT 行业趋势做出的 10 点预测:


1.提前在网站等入口布局图像搜索、语音搜索的公司,其数字商业的营收到 2021 年将增长 30%。Gartner 发现,在移动端的搜索类型中,语音搜索的增幅最大。在未来几年,语音和视觉搜索还将加大移动端的交易量。对于许多大型电商来说,目前移动端的交易量已达到了总量的 50%,新的技术将加速这场变革。苹果、Facebook、谷歌和微软在人工智能和机器学习领域的布局,是未来两年语音和图像技术快速发展的证据。


2.到 2020 年,在包括阿里巴巴、亚马逊、苹果、百度、脸书、谷歌、微软和腾讯在内的科技巨头中,将有五家企业执着于寻找新的变革点,成为下一轮创新浪潮的领导地位。这种变革的例子,包括亚马逊 AWS Lambda 对传统云计算虚拟机的替代,语音助手 Alexa 对基于屏幕的电子商务的颠覆,苹果的 Face ID 对 Touch ID 的变革。


3.到 2020 年,随着基于区块链的加密数字货币普遍使用,银行业将新增 10 亿美元的价值。Gartner 估计,截至 2017 年 10 月,在全世界流通的加密数字货币总值为 1550 亿美元,随着虚拟货币数量的增长以及市场兴趣的提升,这一价值将持续增长。根据 Gartner 的预测研究,到 2023 年年底,加密货币将占到全球区块链价值的一半以上。


4.到 2022 年,成熟经济体中的大多数人面临的虚假信息将比真实信息多。Gartner 警告说,尽管人工智能非常高效地创造新的信息,但它同样可以生产大量的虚假信息。Gartne 预测,在 2020 年之前,将会发生一场由虚假信息造成的重大金融欺诈事件,同时将没有任何一家互联网公司能够成功地解决这个问题。再过三年,将有一个主导的国家通过新的监管政策或者法律,遏制 AI 产生的虚假信息的传播。


5.到 2020 年,自动化的检测手段,将无法大规模地有效识别基于人工智能的虚假内容,这将引发一轮数字信息的信任危机。如今,人工智能和机器学习系统能够比人类更快、更准确地对图像内容进行分类。Gartner 警告称,到 2018 年,当假视频被误以为真的时,会引发一系列的政治辩论。根据预测研究,在明年,检测虚假新闻的商业项目将增加十倍以上。


6.到 2021 年,超过 50% 的企业每年在机器人和聊天机器人上的投入将超过传统的移动应用。Gartner 预测,到 2020 年,55% 的大型企业将会部署至少一款机器人或者聊天机器人。得益于自然语言处理技术的快速发展,如今的聊天机器人比前几代更善于识别用户的意图。根据 Gartner 的预测研究,自然语言处理技术将被用于决定聊天机器人决策树的起点,但其余部分的决策树中,仍将使用脚本化的响应。


7.到 2021 年,40% 的 IT 员工将会拥有多项技能,就任多个岗位,其中大部分是与商业有关的业务,而不是与技术相关的。到 2029 年,IT 技术专家的招聘人数将减少 5%。Gartner 预测,50% 的企业会将多技能岗位的描述规范化,20% 的 IT 企业将雇佣多技能人才,扩大数字商业的业务量。总体而言,IT 技术专业人才量将减少到只有 2017 年的 75%。


8.到 2020 年,人工智能会促进人们的就业,虽然它将减少 180 万个工作岗位,但会创造 230 万个新的工作岗位。到 2020 年,与人工智能相关的就业机会将大幅增,这一数字将在 2025 年达到 200 万。2018 年,全球 IT 服务公司将进行大规模职业转型,新增 10 万个工作岗位,同时裁剪 8 万人。Gartner 预测,到 2021 年,人工智能将创造 2.9 万亿美元的商业价值。


9.到 2020 年,物联网技术将被应用到 95% 的新产品设计中。Gartner 预计,支持智能手机激活的物联网设备将在 2019 年初问世。


10.到 2022 年,物联网安全预算的一半将用于故障修复及召回等。Gartner 预测,随着安全模式的升级,物联网支出的复合年均增长率将达到 50%。与此同时,物联网安全市场将呈指数级增长,到 2020 年该领域的全球消费将超过 50 亿美元。




]]> 原文: http://ift.tt/2y1swcK
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...