2017年10月5日星期四

超级变变变:喵星人汪星人还有街景神奇变身|Paper+Code

夏乙 千平 发自猴姆量子位 出品 | 公众号 QbitAI

只会卖萌的猫主子分分钟变身百兽之王?

白天能不能懂夜的黑?

你的汪星人如果是其他品种会是什么样?

不用想象,有个AI已经(完全不用人插手)"脑补"一切。先展示结果:

给一张小猫咪的图像(左边),AI就能自动让它变身狮子王(右边)。

给一张白天的图像(左边),AI就能自动脑补出夜晚的样子(右边),还把灯效加上了~

给一张冬天的图像(左边),AI就能脑补夏天会是什么景象(右边),还把叶子加上了~

UNIT

上面这些神奇的变身,都属于"图像到图像翻译"的问题。

这些结果都来自Nvidia研究团队的一篇NIPS 2017论文:UNsupervised Image-to-image Translation networks。

Ming-Yu Liu(刘洺堉)等研究员提出了一种基于耦合生成对抗网络(Coupled GAN)和变分自动编码器(VAE)的无监督图像到图像翻译框架,他们还根据首字母缩写(强行)给"无监督图像到图像翻译"起了个名字:UNIT。

论文中提到,从概率模型的角度来分析图像到图像的翻译问题,会发现其中的关键挑战是学习不同领域图像的联合分布。

共享潜在空间假设

为了推断联合分布,Ming-Yu Liu等使用了"共享潜在空间假设",假设不同领域的一对对应图像(x1、x2)可以映射到共享潜在空间(z),UNIT框架就建立在这个假设的基础之上。

上图中的E1和E2是两个编码函数,可以将图像映射到潜在编码,而G1和G2是两个生成函数,从潜在编码映射到图像。

UNIT框架结构

在UNIT框架中,研究人员用VAE-GAN对每张图像建模,其中抗性训练目标与权重共享约束相互作用,实施共享空间,以在两个域中生成相对应的图像,而VAE将翻译的图像与相应域中的输入图像关联起来。他们用卷积神经网络(CNN)重建了E1、E2和G1、G2,并通过权重共享限制来实现了共享潜在空间假设。

搞定这个框架之后,研究人员们把它用到了各类无监督图像到图像翻译任务上,比如说……

能完成街景在晴天雨天、白天黑夜、夏景雪景之间的转换,支持640×480的图片;也能在合成图像和真实照片之间进行转换:

还可以在各种狗狗品种之间转换,只要养一只狗,发朋友圈的时候就可以在哈士奇、德牧、柯基、萨摩耶、英国牧羊犬可以变来变去:

除了狗,还有猫,但不是你家的各类长毛短毛主子,而是在家猫、老虎、狮子、美洲狮、美洲虎、猎豹之间互相转换:

当然,最常见的人脸变换这个模型也能搞定,可以生成出金发、微笑、山羊胡、戴眼镜等等特征:

要想说自己的模型好,当然还得和别人的作品比较一下。

几位研究员用街景门牌号数据集SVHN、MNIST和USPS数据集之间的变换测试了模型性能,和SA、DANN、DTN、CoGAN等模型进行了比较。

UNIT框架在SVHN→MNIST任务上的准确率达到0.9053%,远高于同类模型。

Paper+Code

如果你对这篇论文感兴趣,可以直接阅读原文。Paper地址:http://ift.tt/2n16TBg

另外,Nvidia研究团队还放出了这项研究的代码。这是一个无监督图到图翻译的Coupled GAN算法PyTorch实现。

GitHub地址:http://ift.tt/2vKgxfV

更多这个项目的图像变换结果,可以在以下地址查看。

http://ift.tt/2ggXtR3

我们还挑了几段视频,直接贴在这里。比方冬天变夏天:

还有小猫和兽王互相变身:

研究团队

Ming-Yu Liu(刘洺堉)

刘洺堉是Nvidia Research的研究员,专注于计算机视觉和机器学习方向。此前先后供职于英特尔和三菱。刘洺堉2003年在台湾交通大学获得学士学位,2012年在马里兰大学帕克分校获得博士学位。

刘洺堉个人主页的信息显示,今年他已经发布了9篇论文,除了上面这篇中NIPS(Spotlight)之外,他还有一篇论文中了IJCAI,有两篇中了CVPR(包括一篇Oral):

  • Tactics of Adversarial Attack on Deep Reinforcement Learning Agents

Yen-Chen Lin, Zhang-Wei Hong, Yuan-Hong Liao, Meng-Li Shih, Ming-Yu Liu, Min Sun

International Joint Conference on Artificial Intelligence (IJCAI), 2017 Melbourne, Australia

Paper:http://ift.tt/2ggXuo5

Project:http://ift.tt/2y4TP6o

  • Deep 360 Pilot: Learning a Deep Agent for Piloting through 360 Sports Videos

Hou-Ning Hu, Yen-Chen Lin, Ming-Yu Liu, Hsien-Tzu Cheng, Stanley Chang, Min Sun

Conference on Computer Vision and Pattern Recognition (CVPR) Oral, 2017, Honolulu, Hawaii

Paper:http://ift.tt/2ggimvw

  • CASENet: Deep Category-Aware Semantic Edge Detection

Zhiding Yu, Chen Feng, Ming-Yu Liu, Srikumar Ramalingam

Conference on Computer Vision and Pattern Recognition (CVPR), 2017, Honolulu, Hawaii

Paper:http://ift.tt/2y3DzT8

Thomas Breuel

Thomas Breuel是Nvidia的杰出研究科学家(Distinguished Research Scientist)。去年10月加入Nvidia之前,他在Google担任研究科学家的工作。他还长期在德国凯泽斯劳腾大学任教,以及供职于施乐、IBM等公司。

Thomas Breuel本硕毕业于哈佛大学,1992年在麻省理工获得博士学位。来自Google Scholar的信息显示,Thomas Breuel今年除了这篇论文,还有一份专利申请获批。

Jan Kautz

Jan Kautz是Nvidia视觉计算和机器学习研究的高级总监,领导整个视觉计算研发小组。此外他还一直担任伦敦大学学院的教职。

他本科毕业于德国埃尔朗根-纽伦堡大学,随后在滑铁卢大学获得硕士学位,2003年Jan Kautz在德国马克思·普朗克计算机科学研究所获得博士学位。

今年以来,Jan Kautz还发布了十几篇论文,其中包括:

  • Learning Affinity via Spatial Propagation Networks

S. Liu, S. De Mello, J. Gu, M.-S. Yang, J. Kautz

Neural Information Processing Systems (NIPS)

Paper:http://ift.tt/2gfQ58C

  • Intrinsic3D: High-Quality 3D Reconstruction by Joint Appearance and Geometry Optimization with Spatially-Varying Lighting

R. Maier, K. Kim, D. Cremers, J. Kautz, M. Niessner

IEEE International Conference on Computer Vision (ICCV)

Paper:http://ift.tt/2y3GkUK

  • A Lightweight Approach for On-The-Fly Reflectance Estimation

K. Kim, J. Gu, S. Tyree, P. Molchanov, M. Niessner, J. Kautz

IEEE International Conference on Computer Vision (ICCV,Oral)

Paper:http://ift.tt/2ggXvZb

  • Mixed-primary Factorization for Dual-frame Computational Displays

F.-C. Huang, D. Pajak, J. Kim, J. Kautz, D. Luebke

ACM Transactions on Graphics (Proceedings SIGGRAPH 2017)

Paper:http://ift.tt/2wi6FKr

  • Dynamic Facial Analysis: From Bayesian Filtering to Recurrent Neural Network

J. Gu, S. De Mello, X. Yang, J. Kautz

IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Paper:http://ift.tt/2vedsVW

  • GA3C: GPU-based A3C for Deep Reinforcement Learning

M. Babaeizadeh, I. Frosio, S. Tyree, J. Clemons, J. Kautz

International Conference on Learning Representations(ICLR)

Paper:http://ift.tt/2fNAVI5

Code:http://ift.tt/2gIRhD3

  • Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning

P. Molchanov, S. Tyree, T. Aila, T. Karras, J. Kautz

International Conference on Learning Representations(ICLR)

http://ift.tt/2g85QvW

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI



via 量子位 - 知乎专栏 http://ift.tt/2y3xvu4
RSS Feed

RSS5

IFTTT

新研究将GRU简化成单门架构,或更适用于语音识别

Yoshua Bengio 领导的一个团队近日在 arXiv 上发布了一篇论文,介绍了他们通过修改门控循环单元(GRU)提升语音识别效果的研究进展。据介绍,这项研究是修改 GRU 方面的进一步研究进展,提出了一种可能更加适合语音识别的架构。机器之心对本论文进行了摘要介绍。另外,本研究相关的实验代码也已发布在 GitHub 上。


  • 论文:http://ift.tt/2z37jNY
  • 代码:http://ift.tt/2wA64o3


本论文有两大贡献:


第一,我们提出从网络设计中移除重置门(reset gate)。与 [31] 类似,我们发现移除重置门并不会影响系统的表现,因为我们观察到在更新门(update gate)和重置门发挥的作用上存在一定的冗余。


第二,我们提出在状态更新过程中使用修正线性单元(ReLU)激活函数替代双曲正切(tanh)。在过去,由于 ReLU 激活函数的无界性所引起的数值不稳定性,我们会在 RNN 上避开这样的非线性。但是,当我们将基于 ReLU 的 GRU 架构与批规范化(batch normalization)[4] 结合到一起时,我们没有遇到这样的数值问题。这让我们可以使用 ReLU 神经元了,这种神经元已经在进一步缓解梯度消失问题以及加速网络训练上得到了有效的证明。


我们在多种不同的任务、输入特征和噪声条件上进行了实验,结果表明:在我们的实现中,这种修改后的架构可以将每 epoch 的训练时钟时间减少 30% 以上,同时在本研究所涉及的所有实验条件中都实现了识别水平的提升。


论文:通过修改门控循环单元改善语音识别(Improving speech recognition by revising gated recurrent units)



语音识别正在广泛使用深度学习,表明现代循环神经网络(RNN)具有很多显著优势。最流行的 RNN 是长短期记忆(LSTM),由于它们学习长期依赖性和对梯度消失保持稳健的能力,它们往往能在很多任务上达到当前最佳的表现。尽管如此,LSTM 有一种带有三个乘法门的相当复杂的设计,这可能会妨碍 LSTM 的有效实现。最近对 LSTM 的一次简化尝试为我们带来了门控循环单元(GRU),它只基于两个乘法门。


本论文立足于这些成果,通过进一步修改 GRU 提出了一种简化的架构,该架构可能更加适合语音识别。本研究有两大贡献。第一,我们提出移除 GRU 设计中的重置门,从而得到一种更高效的单门架构。第二,我们提出在状态更新过程中使用 ReLU 激活函数替代 tanh。结果表明,在我们的实现中,比起标准的 GRU,这种修改后的架构可以将每 epoch 的训练时钟时间减少 30% 以上,同时还能在多种不同的任务、输入特征和噪声条件上都实现识别表现的提升。


一般的 GRU 架构定义如下:




移除重置门并且使用 ReLU 激活函数替代 tanh 后,我们可以得到新的公式:




我们将这个架构称为 M-reluGRU。


我们使用 Theano 实现了我们提出的这个系统,并且结合使用 Kaldi 解码器 [35] 创建了一个具有语境依赖的 DNN/HMM 语音识别器。实验代码请访问:http://ift.tt/2wA65s7


在 TIMIT 上的结果



表 1:各种 RNN 架构在 TIMIT 的测试集上所得到的音素错误率(PER%)



表 2:在 TIMIT 开发集上优化过的 RNN 架构的每 epoch 训练时间比较


 在 DIRHA English WSJ 上的结果



表 3:各种 RNN 架构在 DIRHA English WSJ 数据集(仿真的部分)上所得到的词错率(%)



表 4:各种 RNN 架构在 DIRHA English WSJ 数据集(真实部分)上所得到的词错率(%)

]]> 原文: http://ift.tt/2wA63jZ
RSS Feed

机器知心

IFTTT

一文概览视频目标分割

近日 Visualead 研究主管 Eddie Smolyansky 在 Midum 网站撰文介绍视频目标分割的基础知识,从视频目标分割问题简介、数据集和 DAVIS 挑战赛入手,同时介绍了 Visualead 最新发布的视频数据集 GyGO 和 2016 年以来两种主要的视频目标分割方法:MaskTrack 和 OSVOS。



DAVIS-2016 视频物体分割数据集中经过正确标注的几个帧


本文介绍了视频目标分割问题和对应的经典解决方案,简要概括为:


1. 问题、数据集和挑战赛;

2. 我们今天要宣布的新数据集;

3. 自 2016 年以来使用的两种主要方法:MaskTrack 和 OSVOS。


文章假设读者已经熟悉计算机视觉和深度学习领域的一些概念。我希望能对 DAVIS 挑战赛进行一个清晰易懂的介绍,让新手也能快速进入状态。


介绍


计算机视觉领域中和目标有关的经典任务有三种:分类、检测和分割。其中分类是为了告诉你「是什么」,后面两个任务的目标是为了告诉你「在哪里」,而分割任务将在像素级别上回答这个问题。


经典计算机视觉任务(图像来自 Stanford cs231n 课程幻灯片)


2016 年语义分割领域出现了很成熟的技术,甚至开始接近现有数据集的饱和性能。与此同时,2017 年也是各种视频处理任务爆发性增长的一年:动作分类、动作(时序)分割、语义分割等等。这里我们将着眼于视频目标分割。


问题、数据集、挑战赛

视频目标分割任务和语义分割有两个基本区别:


  • 视频目标分割任务分割的是一般的、非语义的目标;
  • 视频目标分割添加了一个时序模块:它的任务是在视频的每一连续帧中寻找感兴趣目标的对应像素。


分割的细分。图中每一叶都有一个示例数据集。


基于视频任务的特性,我们可以将问题分成两个子类:


  • 无监督(亦称作视频显著性检测):寻找并分割视频中的主要目标。这意味着算法需要自行决定哪个物体才是「主要的」。
  • 半监督:在输入中(只)给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中分割标注的目标。


半监督案例可以扩展为多物体分割问题,我们可以在 DAVIS-2017 挑战赛中看到。



DAVIS-2016 (左) 和 DAVIS-2017 (右) 标注的主要区别:多物体分割(multi-instance segmentation)


我们可以看到,DAVIS 是一个像素完美匹配标注的数据集。它的目标是重建真实的视频场景,如摄像机抖动、背景混杂、遮挡以及其它复杂状况。


DAVIS-2016 的复杂度属性


有两个度量分割准确率的主要标准:


  • 区域相似度(Region Similarity):区域相似度是掩膜 M 和真值 G 之间的 Intersection over Union 函数


  • 轮廓精确度(Contour Accuracy):将掩膜看成一系列闭合轮廓的集合,并计算基于轮廓的 F 度量,即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量。


直观上,区域相似度度量标注错误像素的数量,而轮廓精确度度量分割边界的准确率。


新的数据集!GyGO:电商视频目标分割数据集(by Visualead)


我们将在未来几个星期内陆续发布 GyGO 的各部分内容,GyGO 是一个专用于电商视频物体分割的数据集,由大约 150 个短视频组成。


  • 数据集地址:http://ift.tt/2wUgAtB


一方面,视频画面的序列非常简单,几乎没有遮挡、快速移动或者其它提高复杂度的属性。另一方面,这些视频中的物体相比 DAVIS-2016 数据集有更多的类别,其中很多序列包含了已知的语义类别(人类、汽车等)。GyGO 专门搜集智能手机拍摄的视频,因此帧比较稀疏(标注的视频速度只有约 5 fps)。


我们基于以下两个目的公布数据集:


1. 目前关于视频目标分割的数据严重缺乏,只有数百个带标注的视频。我们相信每一次贡献都有望帮助提升算法表现。我们分析认为,在 GyGO 和 DAVIS 数据集上进行联合训练,视频目标分割任务能得到更好的结果。

2. 为了推进更加开放共享的文化,鼓励其他研究人员加入我们。:) DAVIS 数据集和能促进其生长的研究生态系统给我们提供了很大的帮助,我们也希望社区能够从中受益。


DAVIS-2016 中的两个主要方法


随着用于单一目标分割的 DAVIS-2016 数据集的公布,两个最重要的方法出现了:MaskTrack 和 OSVOS。在 DAVIS-2017 挑战赛的参赛团队中,每一支队伍都想构建超越这两者的解决方案,它们俨然已经成为「经典」。让我们看看它们是怎么工作的:


单次视频目标分割(One Shot Video Object Segmentation,OSVOS)


OSVOS 背后的概念简单而强大:


 OSVOS 训练流程


1. 选择一个网络(比如 VGG-16)在 ImageNet 上进行分类预训练。

2. 将其转换为全连接卷积网络(FCN),从而保存空间信息:

  • 训练结束时删去 FC 层。
  • 嵌入一个新的损失函数:像素级 sigmoid 平衡交叉熵(pixel-wise sigmoid balanced cross entropy,曾用于 HED)。现在,每一个像素都可以被分类成前景或背景。

3. 在 DAVIS-2016 训练集上训练新的全连接卷积网络。

4. 单次训练:在推断的时候,给定一个新的视频输入进行分割并在第一帧给出真实标注(记住,这是一个半监督问题),创建一个新模型,使用 [3] 中训练的权重进行初始化,并在第一帧进行调整。


这个流程的结果,是适用于每一个新视频的唯一且一次性使用的模型,由于第一帧的标注,对于该新视频而言,模型其实是过拟合的。由于大多数视频中的目标和背景并不会发生巨大改变,因此这个模型的结果还是不错的。自然,如果该模型用于处理随机视频序列时,则它的表现得就没那么好了。


注意:OSVOS 方法是独立地分割视频的每一帧的,因此视频中的时序信息是没有用的。


MaskTrack(从静态图像学习视频目标分割)


OSVOS 独立地分割视频的每一帧,而 MaskTrack 还需要考虑视频中的时序信息:



 MaskTrack 的 Mask 传播模块


1. 每一个帧将前一帧的预测掩膜作为额外输入馈送给网络:现在输入有四个通道 (RGB+前一帧的掩膜)。使用第一帧的真实标注初始化该流程。

2. 该网络原本建立在 DeepLab VGG-16(模块化)基础上,现在在语义分割和图像显著性数据集上从头开始进行训练。通过将每一张静态图像的真实标注稍微转换,人工合成前一帧的掩膜通道输入。

3. 基于光流场输入增加一个相同的第二流网络。模型的权重和 RGB 流的权重相同。通过将两个结果取平均融合两个流的输出。

4. 在线训练:用第一帧的真实标注合成额外的、针对特定视频的训练数据。

注意:这两个方法都依赖于静态图像训练(与静态图像数据集相反,视频数据集较少且规模较小)。


综上所述,在这篇介绍性文章中我们了解了视频目标分割问题和至 2016 年的最优解决方案。


P.S. 这里我想感谢 DAVIS 数据集和挑战赛背后的团队做出的杰出贡献。


参考文献


文中提到和分析过的主要文献:


1. Benchmark Dataset and Evaluation Methodology for Video Object Segmentation F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung, *Computer Vision and Pattern Recognition (CVPR) 2016

2. The 2017 DAVIS Challenge on Video Object SegmentationJ. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbeláez, A. Sorkine-Hornung, and L. Van Gool, arXiv:1704.00675, 2017

3. Learning Video Object Segmentation from Static Images F. Perazzi, A. Khoreva, R. Benenson, B. Schiele, A. Sorkine-Hornung CVPR 2017, Honolulu, USA

4. One-Shot Video Object Segmentation, S. Caelles, K.K. Maninis, J. Pont-Tuset, L. Leal-Taixé, D. Cremers, and L. Van Gool, Computer Vision and Pattern Recognition (CVPR), 2017


]]> 原文: http://ift.tt/2z2uXu9
RSS Feed

机器知心

IFTTT

谷歌CEO Pichai:希望AI从根本上改变每一台设备的本质

撰写 | 微胖


「谷歌不仅仅要将 AI 功能融入每一款产品,而是要在 AI 的启发下去打造产品。没有 AI,相应的产品也无法想象。」谷歌 CEO Pichai 在谷歌硬件发布会期间接受媒体采访时说道。


今天凌晨(北京时间),谷歌在加州举办活动,推出新手机 Google Pixel 2(以及 XL)、新智能音箱 Google Home Mini(以及 Max)、新无线蓝牙耳机、新 Chromebook 等全新硬件产品。



谷歌一直善于巧用 AI 解决一些其他厂商诉诸硬件才能解决的问题。本次发布会上的 Dual-Pixel 技术,再次展示出谷歌的精巧心思。


当前热门的「人像模式」的主流解决方案需要双摄像头。Google Pixel 2 单摄像头即可处理景深信息,拍出不输双摄的人像模式。在 Dual-Pixel 帮助下,像素点由左右两个子像素组成,一个记录颜色,另一个记录景深,机器学习算法配合多张照片合成后,即可实现背景虚化的效果。Pixel 2/2 XL 用单镜头实现了双摄功能,可谓「四两拨千斤」。



一、Clips:真正的谷歌 AI 之道


不过在 Pichai 看来,本次发布会首次推出的 Clips 最能体现谷歌的硬件 AI 之道。


Google Clips 是谷歌推出的一款新相机。内部人工智能引擎会引导相机寻找它感觉有趣的东西:微笑、你关心的人、追逐尾巴的狗,并自动捕捉这一刻。随着时间的推移,这款相机会更加智能化。小巧相机几乎可以夹在任何东西上,完成许多角度的拍摄。照片和视频可以被单独保存到谷歌相册中。



谷歌不仅仅要将 AI 功能融入每一款产品,而是要在 AI 的启发下去打造产品,没有 AI,相应的产品也无法想象。Clips 可谓适例,它以新的方式重新定义摄影,利用谷歌技术完成了许多不同任务:面部识别、识别「不好」的照片和有趣的内容。


「我有意给一款硬件产品起了个软件名字,因为这款产品更加激动人心的部分是机器学习,幕后的计算机视觉任务。」Pichai 说。它也是 Pichai 希望谷歌能涉及更多的产品范例。


制造硬件并不仅仅是为了卖产品,也是在学习掌握硬件如何融入 AI。「如果不能『软硬兼施』地去思考这些东西,很难将计算技术推向未来。」Pichai 表示。每一款硬件产品,也可以说是「如何利用 AI 反思我们的产品」。他不想让 AI 停留在某个新增功能的层面,而是希望 AI 从根本上改变每一台设备的本质。


值得一提的是,谷歌特意将这款相机设计成完全在本地执行任务,内容不会被送往云端。


两种 AI 的任务方式(云、边缘)是必须的,Pichai 在接受采访时表示,「这种综合的方式,绝对有意义。」他说,「对两种方式,我们都会审慎地进行投资。这取决于语境、你要解决什么问题以及以不同的方式部署是否有意义。」


二、Pixel Buds : 重新想象的 Her 与巴别鱼


本次大会上,首次亮相的另一款智能硬件 Pixel Buds,也是谷歌第一款无线蓝牙耳机。有点类似 Her 与巴别鱼的合体,这款其貌不扬、设计甚至有点滑稽的耳机,其真实目的是为了用户可以更快、更简便地接入 Google Assistant 和 Google 翻译。




仅需将右手放在右耳部分开始说话,即可激活助手。耳机可以立刻将你的语音传输给收音机,无需等待任何提示音。举起手指,语音助手即可进行回复。


Google 翻译的惊艳效果已无需多言。这款蓝牙耳机不仅能够读取信息,还支持实时翻译,支持的互译语种达到 40 种。「help me speak English」,然后说一个短语,当你的手离开耳机时,翻译结果即刻出来。你的对话对象按住手机按键说出他们的回复后,你即可从耳机中听到译后版本。


三、传统智能硬件之争,仍离不开演进中的 AI 技术


除了这两款全新设计的智能硬件,手机、音箱仍然是传统竞赛项目。总的说来,想要赢得硬件之战,谷歌手机还需要寄希望于服务和软件,特别是 AI 和机器学习。不断演进的 Google Lens 和 Google Assistant 有望帮助谷歌硬件更加出类拔萃。


1、技术壁垒之声纹识别。


在智能音箱的对阵中,除了发布两大型号智能音箱对标 HomePod 与 Echo Dot 之外,谷歌将弯道超车的另一法宝押在了对方暂时没有的技术壁垒上:声纹识别。


微信用户对声纹识别并不陌生。声纹识别的最直接的用途是识别说话人身份。


其实,早在几个月前,Google Home 就进行了一次重大升级,谷歌成为第一家商用化音箱支持多用户声纹识别的公司。Google Home 可以根据提问的人的不同身份提供不同的信息,根据每个人的声音执行指令。


本次大会最大的亮点之一 正是「Voice Match」。借助这一功能,Google Assistant 能区分不同用户的声音,并且根据辨别用户,从而对同一个指令做出不同的应对。


例如:你和伴侣都对 Google Home 说「打电话给妈妈」,Google Assistant 就会根据识别出的声音,调取你和伴侣各自的通讯录,然后打给各自的妈妈。


关于语音助手,还有一个值得注意的细节。在这次发布会上,Google 为 Pixel 2 两款新机加入了一项名为「Active Edge」的功能,可以利用握持动作唤醒一些快捷方式(默认是呼出 Google Assistant 和来电时静音)。也就是说,无需唤醒词,通过把握行为即可唤醒语音助手。


2、Lens 从底层技术实现 AR 玩法,战略意义不容忽视


「多点触控是一个很大的进步。」Pichai 说,「但是,未来的交互将会更多地以对话形式、感官方式进行,比如语音、视觉。」和 Bixby 一样,它可以识别真实世界目标并搜索。


2017 年谷歌 I/O 大会上,Google Lens 首次登台亮相即成为当时最大亮点。Google Lens 并不是一个硬件,而是一个可以根据图片或拍照识别出文本和物体的软件内部功能,能实时分析图像并迅速共享信息。


它可以帮助用户快速识别物体(植物 、古迹等)、自动联网和了解附近地区。这项新技术会最先应用在 Google Assistant 和 Google Photos 上。


在这次发布会上,Google Lens 进一步展示了 AI 在图像识别中取得的全新进展。比如,即使在干扰项非常多的情况下,它也可以很好地工作。


AI 可以判断相机镜头对着的影像信息内容,比如传单上 Email 信箱位址,并会自动在手机上显示问你是要创建联系人、传送信件或只是单纯复制文字。Google Lens 还可以判断艺术作品、唱片或者书本封面信息,快速帮你搜索出相关信息。刚到一个新城市旅游的 Google Lens 用户,只需要四周扫扫,即可游刃有余地在城市中旅行。



其实,Google Lens 的这些应用也是手机镜头+AR 的完美组合,可以轻松实现便捷和广泛的 AR 应用。想象一下随手扫描一家餐厅的照片,眼前就会出现各式菜品的 AR 效果影像。


不过,谷歌是从系统底层技术入手,实现 AR 应用。虽然 Snapchat、苹果都把带有 AR 滤镜的手机摄像头功能当成最核心的产品功能(iPhone X 手机豪赌 AI+AR),但有分析认为,与 Google Lens 能实现的 AI+AR 的搜索相比,他们仍然只是浅表意义上的应用。娱乐毕竟只是 AR 广阔市场中一个小的领域。基于 AR 的搜索才是拥有巨大潜力的主流应用未来。前段时间,谷歌公布的 ARCore 也将在 Google Pixel 2 中预载。


3、语音合成技术终于产品化。


最后,值得一提的是 DeepMind 的算法终于产品化,被用于 Google Assistant。去年 9 月,DeepMind 公布了其在语音合成领域的最新成果 WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前常用的语音合成方法。


不过,当时这个模型还只处于雏形阶段,对于消费性产品而言,模型的计算消耗量太大。经过 12 个月的努力,DeepMind 大大提升了模型运行的速度和质量,目前已经推出 WaveNet 的更新版本,可以在所有平台上生成美式英语和日语的 Google Assistant 语音。


四、在线消费者产品的 AI 创新仍然步履沉重


尽管谷歌雄心勃勃地做自己的硬件,但较之在线业务营收,仍然是九牛一毛。在接受媒体采访时,Pichai 表示接下来五年,硬件业务会成为公司财务的一大爆发亮点。




目前,在线搜索业务仍然是谷歌的重要营收来源。每天,谷歌需要应对的各种错误、被操纵的信息与日俱增。就在这次发布会的前几天,谷歌(和 Facebook)再度被卷入舆论漩涡。谷歌的推送算法给出有关骇人听闻的拉斯维加斯枪击案的政治化虚假新闻。


谷歌搜索结果中包含了来自有争议的 4Chan 的「头条新闻」,但该文章包含了错误猜测的枪手名字(误指为 Geary Daniel)。对此,谷歌归咎于算法错误(执法部门后来确认了枪手的身份为 Stephen Paddock)。错误的链接存在了数小时。


「我们有责任纠正这一错误」,谷歌 CEO Pichai 最近在接受媒体采访时表示,「但是,每一次跌倒,会感觉到疼,也应该承担起责任。」后来谷歌在一份声明中称,为避免未来发生同样的尴尬,他们会对软件作出调整。


谷歌用 AI 来创新硬件与在线消费者产品的能力,并非并驾齐驱。人们仍然会质疑,谷歌算法系统是否能够做出正确决定,而不是仅仅是让决定更容易?


今年 7 月,谷歌推出自己的新闻推送服务 Google Feed,该服务将通过谷歌应用向 iPhone 用户和 Android 用户提供包括新闻报道、视频以及为个人用户定制的其他内容在内的各种内容。


「这不是你的朋友感兴趣的东西,也跟其他的新闻推送服务不同。」谷歌工程副总裁 Shashi Khakur 说。谷歌使用的是自己的搜索历史。


谷歌的基本搜索办法也可以用于提供好的、值得信赖的内容。Pichai 说,「我们仍然使用相同的核心原则,就像在 Ranking 中使用的那样。原则可以平等地加以应用。我感到欣慰的是,同样一套东西是起作用的。」


但在有关事实王国之外,怎么处理真诚的意见,Pichai 也没有把握。「我们所有人都要努力克服的问题是,怎么处理人们不同意的地方?」在推送意见时,Pichai 很好奇谷歌是否可以「带来更好的观点,而不是单纯的排名.... 这是我们早期勘探领域,但我认为,我们可以做的更好。」


谷歌用 AI 来创新硬件与在线消费者产品的能力,并非并驾齐驱。但是,当请谷歌为我们做出更多决定时,Pichai 不得不展示他们的 AI 具有判断力,而不仅仅是一套算法。


]]> 原文: http://ift.tt/2xjBGT9
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...