2018年5月10日星期四

创造无界零售生态:京东发布两款全新智能音箱叮咚Play & Mini 2

随着人工智能等技术的发展,智能零售正逐渐进入人们的生活。作为一家以电商为主要业务的公司,京东提出了「无界零售」的概念。这家公司希望在未来将线上和线下零售合二为一,并利用新技术创造出前所未有的购物场景,而这一任务的承载者就是旗下的智能音箱产品。

对于开拓新场景,京东的行动很快,2014 年 11 月亚马逊推出 Echo 之后不久,在 2015 年 3 月,京东和科大讯飞联合成立了灵隆科技,致力于智能音箱的开发。

「未来的商品,其内在不仅包含商品本身,还有内容、服务和数据,」灵隆科技 CEO 魏强在发布会上表示。「而在我们看来,零售就是服务,京东在未来会在零售和基础设施两大方向上共同进行努力。」

智能零售对于智能音箱有什么意义?京东在发布会上给出了这样的解释:

  • 智能音箱会带来新的消费场景
  • 智能音箱承载的数据、内容与服务
  • 在智能音箱的基础上,京东会与各家合作伙伴共同扩展新的生态系统,搭建"积木"

据统计,即使在网购盛行的今天,国内 85% 的零售活动还是发生在线下的。这是京东希望触及的方向,这家公司正希望发起"第四次零售革命"。京东认为,在新的零售业进化过程中,线下和线上将会被打通——这就是「无界零售」。在未来,任何场景都将是零售的机会。

「比如智能音箱上的摄像头能看到家里的冰箱里没有食物了,这样它就会推荐可购买的食物,」魏强说道,除此之外,智能音箱也是其他家电的控制器。「用一个控制中枢来控制所有的智能家电,目前全世界公认的智能中枢就是智能音箱。」

据不完全统计,国内外已经发布 AI 音响产品的企业有近 50 家,有 500 家与之相关的硬件企业或技术提供商活跃在一线。京东在智能音箱的布局是各大国内科技公司中处于较早的位置,2015 年 5 月,京东就推出了叮咚 A1 音箱,它也是国内首款智能音箱。在叮咚的背后,则是京东和科大讯飞合作开发的语音识别技术。以叮咚为积木,京东希望组成智能音频联盟。和硬件商,服务商合作。推动智能家居时代更快到来。

「我们的产品在三年内进行了近 300 次技术迭代,」魏强表示。京东智能音箱在过去已经推出了 8 款产品,从个性化设备到带屏幕的最新产品应有尽有,这种布局是目前各家厂商中所不多见的。

在本次发布会上,京东发布了两款 2018 年的主打产品:叮咚 Play 与叮咚 Mini 2。

京东认为,叮咚 Play 会是开启智能音箱 2.0 时代的产品。它也是国内首款多模态交互智能音箱产品。

定位为高端产品的叮咚 PLAY 曾于 2018 年 1 月的美国 CES 上首次亮相,京东认为,叮咚 PLAY 代表了目前中国智能音箱行业最高的技术水平。这款音箱定价为 1899 元。

PLAY 的「技术标杆」身份在于,它不仅升级了听觉和语言的能力,增强了人机语音交互流畅度,并且加入了视觉感知能力,形成了多模态交互以及情景感知。PLAY 的视觉认知能力包括图像识别、人脸识别、AR/VR 交互体验,通过对语音、图像、触摸等多种交互形态的融合,让用户体验到人与人之间的最自然的交流方式。京东称,叮咚 PLAY 是目前行业内配置和功能最强的产品,它配有一块 8 寸触控显示屏,搭载了英特尔 Atom 处理器和图像处理器,可进行在线和离线的深度学习模型训练,以此来满足产品更复杂的人工智能计算和图像处理需求,让用户交互更流畅。

另一款新产品,叮咚 Mini 2(售价 299 元)则会成为新一代智能音箱入门级产品。体积小巧的 Mini2 搭载了叮咚六麦克风环形阵列语音解决方案,语音唤醒率可达 96%。兼具「好听力」和「好声音」的前提下,Mini2 还具备个性化的自定义唤醒词功能。与京东的其他产品一样,Mini 2 背靠叮咚海量的服务和有声内容资源。值得一提的是,开发人员还在 Mini2 上优化了 TTS 发音人的声音,让 Mini2 的用户「对话」时的声音变得更加自然,提升了用户的情感体验。

京东称,Mini2 拥有目前售价 799 元的叮咚二代的几乎所有功能,前者在 5 月 10-19 日还将以特惠价格 79 元出售。

叮咚音箱目前已经有超过 2000 个应用和技能,覆盖购物、出行、音影、O2O 服务等多个生活服务场景。以有声读物为例,叮咚有 100 万册的有声书读物。此外,京东表示目前叮咚已可跨品牌、跨品类控制 20000+款智能家家居产品,涵盖 81 个品牌,50+个品类、10 个智能家居平台.

此外,在发布会上,京东与英特尔还共同宣布了新的战略合作计划。双方计划继续在叮咚新品研发方面展开进一步合作,并基于京东 Alpha 人工智能服务平台继续开发新的产品,通过智能家居领域内的 AI 技术研发、芯片设计共同打造基于智能硬件的新一代人机交互技术。

]]> 原文: https://ift.tt/2KQnuEm
RSS Feed

机器知心

IFTTT

资源 | 16个GitHub收藏和贡献率最高的深度学习框架

深度学习是一种基于对数据进行表证学习的机器学习方法,近些年不断发展并广受欢迎。

作为一个相对较新的概念,对于无论是想要进入该领域的初学者,还是已经熟知方法的老手来说,触手可及的学习资源太丰富了。

为了不被日新月异的技术和潮流所淘汰,积极参与深度学习社区中开源项目的学习和互动是个很好的方法。

在本文中文摘菌将为大家详细介绍16种GitHub中最受欢迎的深度学习开源平台和开源库,除此之外,还有些比较不错的平台和框架虽然没有进入榜单,文摘菌也列了出来,供大家参考。

GitHub收藏和贡献率最高的16个开源深度学习框架,圆圈的颜色越偏绿色表示框架越新,颜色越偏蓝色表明框架的时间越早。

从上图可知,TensorFlow高居榜首,第二名和第三名的是分别是Keras和Caffe。下面文摘菌就将这些资源分享给大家。

16个最棒的深度学习开源框架和平台

TensorFlow

TensorFlow最初由谷歌的Machine Intelligence research organization 中Google Brain Team的研究人员和工程师开发的。这个框架旨在方便研究人员对机器学习的研究,并简化从研究模型到实际生产的迁移的过程。

收藏: 96655, 贡献人数: 1432, 程序提交次数: 31714, 建立日期: 2015年11月1日。

链接:

https://ift.tt/1Qp9srs

Keras

Keras是用Python编写的高级神经网络的API,能够和TensorFlow,CNTK或Theano配合使用。

收藏: 28385, 贡献人数: 653, 程序提交次数: 4468, 建立日期: 2015年3月22日。

链接:

https://ift.tt/2yiPOrI

Caffe

Caffe是一个重在表达性、速度和模块化的深度学习框架,它由Berkeley Vision and Learning Center(伯克利视觉和学习中心)和社区贡献者共同开发。

收藏: 23750, 贡献人数: 267, 程序提交次数: 4128, 建立日期: 2015年9月8日。

链接:

https://ift.tt/1iT4zVh

 Microsoft Cognitive Toolkit

Microsoft Cognitive Toolkit(以前叫做CNTK)是一个统一的深度学习工具集,它将神经网络描述为一系列通过有向图表示的计算步骤。

收藏: 14243, 贡献人数: 174, 程序提交次数: 15613, 建立日期: 2014年7月27日。

链接:

https://ift.tt/1ZN64Im

 PyTorch

PyTorch是与Python相融合的具有强大的GPU支持的张量计算和动态神经网络的框架。

收藏: 14101, 贡献人数: 601, 程序提交次数: 10733, 建立日期: 2012年1月22日。

链接:

https://ift.tt/2jxRCcU

Apache MXnet

Apache MXnet是为了提高效率和灵活性而设计的深度学习框架。它允许使用者将符号编程和命令式编程混合使用,从而最大限度地提高效率和生产力。

收藏: 13699, 贡献人数: 516, 程序提交次数: 6953, 建立日期: 2015年4月26日。

链接:

https://ift.tt/2v90tIu

DeepLearning4J

DeepLearning4J和ND4J,DataVec,Arbiter以及RL4J一样,都是Skymind Intelligence Layer的一部分。它是用Java和Scala编写的开源的分布式神经网络库,并获得了Apache 2.0的认证。

收藏:8725, 贡献人数: 141, 程序提交次数: 9647, 建立日期: 2013年11月24日。

链接:

https://ift.tt/1CPyk0k

Theano

Theano可以高效地处理用户定义、优化以及计算有关多维数组的数学表达式。 但是在2017年9月,Theano宣布在1.0版发布后不会再有进一步的重大进展。不过不要失望,Theano仍然是一个非常强大的库足以支撑你进行深度学习方面的研究。

收藏: 8141, 贡献人数: 329, 程序提交次数:27974, 建立日期: 2008年1月6日。

链接:

https://ift.tt/1myYxZ9

TFLearn

TFLearn是一种模块化且透明的深度学习库,它建立在TensorFlow之上,旨在为TensorFlow提供更高级别的API,以方便和加快实验研究,并保持完全的透明性和兼容性。

收藏: 7933, 贡献人数: 111, 程序提交次数: 589, 建立日期:2016年3月27日。

链接:

https://ift.tt/1PHSfVE

 Torch

Torch是Torch7中的主要软件包,其中定义了用于多维张量的数据结构和数学运算。此外,它还提供许多用于访问文件,序列化任意类型的对象等的实用软件。

收藏: 7834, 贡献人数: 133, 程序提交次数: 1335, 建立日期:2012年1月22日。

链接:

https://ift.tt/1mFPfOV

Caffe2

Caffe2是一个轻量级的深度学习框架,具有模块化和可扩展性等特点。它在原来的Caffe的基础上进行改进,提高了它的表达性,速度和模块化。

收藏: 7813, 贡献人数: 187, 程序提交次数: 3678, 建立日期:2015年1月21日。

链接:

https://ift.tt/2ezBeSP

PaddlePaddle

PaddlePaddle(平行分布式深度学习)是一个易于使用的高效、灵活、可扩展的深度学习平台。它最初是由百度科学家和工程师们开发的,旨在将深度学习应用于百度的众多产品中。

收藏: 6726, 贡献人数: 120, 程序提交次数: 13733, 建立日期:2016年8月28日。

链接:

https://ift.tt/2iVjWEV

DLib

DLib是包含机器学习算法和工具的现代化C ++工具包,用来基于C ++开发复杂的软件从而解决实际问题。

收藏: 4676, 贡献人数: 107, 程序提交次数: 7276, 建立日期:2008年4月27日。

链接:

https://ift.tt/20J2VeV

 Chainer

Chainer是基于python用于深度学习模型中的独立的开源框架,它提供灵活、直观、高性能的手段来实现全面的深度学习模型,包括最新出现的递归神经网络(recurrent neural networks)和变分自动编码器(variational auto-encoders)。

收藏: 3685, 贡献人数: 160, 程序提交次数: 13700, 建立日期: 2015年4月12日。

链接:

https://ift.tt/2qJvqwG

Neon

Neon是Nervana开发的基于Python的深度学习库。它易于使用,同时性能也处于最高水准。

收藏: 3466, 贡献人数: 77, 程序提交次数: 1112, 建立日期: 2015年5月3日。

链接:

https://ift.tt/1E9JmQ3

Lasagne

Lasagne是一个轻量级的库,可用于在Theano上建立和训练神经网络

收藏: 3417, 贡献人数:64, 程序提交次数: 1150, 建立日期:2014年9月7日。

链接:

https://ift.tt/1GFKSzt

其他选择

  • H2O.ai

    https://ift.tt/1KOqDSL

  • PyLearn

    https://ift.tt/109UyMk

  • BigDL

    https://ift.tt/2hVkOXp

  • Shogun

    https://ift.tt/1nv5Ozq

  • Apache SINGA

    https://ift.tt/1GiKvbP

  • Blocks

    https://ift.tt/1dLpMDL

  • Mocha

    https://ift.tt/1xI31rv

相关报道:

https://ift.tt/2Kdwsv5

【今日机器学习概念】

Have a Great Definition

]]> 原文: https://ift.tt/2jNBVwL
RSS Feed

机器知心

IFTTT

跨域社交推荐:如何透过用户社交信息“猜你喜欢”?

本期推荐的论文笔记来自 PaperWeekly 社区用户 @spider。不同于传统推荐方法将社交信息作为用户的附加信息,在同一个域预测用户偏好。本文选择在信息域中学习用户偏好,然后将其沿社交网络进行传播,使原本不在该域的用户也可以学到他的偏好信息,角度新颖。

关于作者:黄若孜,复旦大学软件学院硕士生,研究方向为推荐系统

■ 论文 | Item Silk Road: Recommending Items from Information Domains to Social Users

■ 链接 | https://ift.tt/2rBCvky

■ 作者 | Xiang Wang / Xiangnan He / Liqiang Nie / Tat-Seng Chua

论文动机

在线平台一般分为两种,一种是信息导向的,比如一些电商的网站,强调 user-item 的相互作用;另一种是社交导向的,比如推特等提供社交网络服务,有丰富的 user-user 链接。虽然这两种 domain 是异构的,但是他们会共有一些用户,称为桥梁用户(bridge users),通过他们我们可以进行跨域社交推荐,也就是在社交网络中的一些潜在用户推荐信息 domain 中的相关 items。 

当前大部分的 ­cross domain 的推荐方法都是对同构的域,而针对本文的 task,存在的困难有: 

  • 数据集中桥梁用户的不足 

  • 在信息域中的 attribute 充足,但是很少有人关注利用这些 attribute 来提高对社交网络中用户的推荐结果 

本文提出了一种称为 Neural Social Collaborative Ranking (NSCR) 的方法来利用信息域中 user-item connection 和社交域中的 user-user connection。在信息域,利用属性增强对 user 和 item embedding 的效果,在社交域中,将桥梁用户的 embedding 结果通过社交网络传播给非桥梁用户。

问题描述

在信息域中,用户集合 U1,项目集合 I,用户给项目的打分信息为矩阵 Y,关于用户和项目的 attributes 分别为 Gu 和 Gi 表示;在社交域中,用户集合 U2,社交关系为 S。两个域的桥梁用户为 U=U1∩U2。 

输入:信息域 {U1,I,Y,Gu,Gi},社交域 {S,U2},U1∩U2 非空。 

输出:为社交域中每一个用户 u' 确定一个对 items 的排名函数。

NSCR Solution

矩阵分解模型(MF)是推荐系统重要的一个模型,这里先引入一个观点,即 CF 模型可以看做是一个浅层神经网络模型

如下图所示,我们输入用户\项目 ID 的 one-hot 的表示,然后将其映射到一个 embedding 层,将两者 embedding 向量进行逐元素相乘,得到向量 h(如果直接将 h 映射到一个打分值的话,那么这个模型就是 MF 模型)。

本文认为,MF 的表现受限于使用内积来捕捉 user-item 交互作用;同样,在常规的对 attributes 的利用上,单纯的让用户 embedding 和 attribute embedding 相加,也不足以捕捉 user、item、attribute 之间的联系。

由于 task 是为社交网络中的用户进行跨域推荐,本文使用了基于表示学习(embedding)的方法,认为问题的关键在于如何将 item 和来自社交网络的用户映射到相同的 embedding 空间。

由于两个域的用户只有少量的重合,本文给出的解决方案是分开学习两个域的 embedding,而强迫两个学习过程共享相同桥梁用户的 embedding。优化目标为,等号右边分别是两个域各自的目标函数

1. Learning of Information Domain

学习 cf 模型的参数,有两种目标函数:point-wise 和 pair-wise 目标函数,前者最小化预测分值和真实分值之间的损失,后者本质上是负采样,适合于本文中使用隐式反馈,同时要得到每个用户的个性化 item 排序的任务。

首先取三元组 (u,i,j),其中 u 是一个用户,i 是该用户评分过的项目 (yui = 1),j 是用户没有评分过的项目 (yuj = 0)。目标函数想要学到 (i,j) 的正确顺序:


其中 yuij = yui – yuj,^yuij = ^yui – ^yuj,其中 ^yui 是预测打分值。 

确定目标函数之后,我们来看预测值 ^yui 是通过怎样的模型得到的。本文在 Neural Collaborative Filtering 模型的基础上,进一步加入了 attribute 的信息,结构如下图所示:

输入层:输入四种信息的 id,用 one-hot 向量表示。

embedding:将四种信息分别进行 embedding。

pooling 层:由于 attributes 的数量不确定,embedding 后的向量集大小不确定,为了给后面的 nn 一个定长的信息,进行 pooling 操作。

由于最大\平均 pooling 不能捕捉用户和各 attributes 之间的交互作用,所以设计了一种 pairwise pooling 的方法

对项目也做类似处理,最后将 pu⊙qi 的结果作为后面 MLP 的输入,MLP 输出预测结果。

2. Learning of Social Domain 

在社交域中,本文使用了半监督学习的方法将信息域中用户 embedding 结果从桥梁用户传播到非桥梁用户。这基于这样的一个假设:如果两个用户有很强的社交关系,那么他们可能会有相似的偏好,从而在 latent space 有相似的特征表示。

学习包括两部分: 

平滑约束(smoothness constrain):定义了结构一致性损失,希望相邻的用户的表示相似;su',u'' 是两个用户社交关系的强度,du' 是节点 u' 的出度,称为平滑约束是因为为每个用户的特征表示除以了出度的开方,进行了平滑,如果没有这个处理,那么社交关系多的活跃用户将会产生更有效的传播。

拟合约束:为了使两个域的 latent space 保持一致,迫使桥梁用户的两种表示接近,也就是拟合损失:

训练完成后,将 pu' 输入信息域中的预测框架,得到预测 item 的排名。

实验结果

信息域数据集来自 trip.com,同时找到其中一些用户相关的 Facebook 和 Twitter 信息。评估指标为个性化排序的指标 AUC 和 Recall@k。

由于非桥梁用户没有评分信息,无法验证预测是否正确,所以使用了一部分的桥梁用户作为测试集。可以看到预测结果优于 state of art。

评价

不同于传统推荐方法将社交信息作为用户的附加信息,在同一个域预测用户偏好,本文是在信息域中学习了用户偏好,然后将其沿社交网络进行了传播,使原本不在该域的用户也可以学到他的偏好信息,角度新颖。

关于异构的推荐,是一个很有意思的 task,值得去 follow。

]]> 原文: https://ift.tt/2I8AxDk
RSS Feed

机器知心

IFTTT

瑞银报告:Waymo在2030年占据全球60%无人出租车市场

安妮 编译自 金融时报量子位 出品 | 公众号 QbitAI

烽烟四起的无人车市场里,谁是撑到最后的赢家?

昨天,瑞银集团的一份报告给出了自己的结论,看起来还有些惊悚——

报告预测,到2030年,Waymo将拥有全球无人出租车市场60%的市场份额,这一主导地位将压制其他汽车制造商的发展,迫使它们选择Waymo的技术,或者直接被淘汰。

没错,是谷歌的无人车技术公司Waymo。

瑞银预测,2030年,自动驾驶技术在全球带来的收入将达2.8万亿美元,Waymo将成为行业老大。

10多年后的全球领跑者不是传统车企,而是一个半路"出家"的技术公司~留给传统汽车制造商的份额有多大?

少数能存活。

采访了一批无人车开发者、科技公司和专家后,瑞银分析,只有戴姆勒、通用这种大车厂的系统才能与Waymo持续抗衡。

可能将来被淘汰的汽车公司不在少数。现在来看,为了争夺这块奶酪,无数汽车制造商竞相开发系统。

租车潮流

未来,买车人将变少,租车人会增加。

瑞银预测,到2030年,将有12%的汽车用于自动驾驶出租车队,每天将有2600万无人出租运行,私家车的销量将会降低5%。

虽然目前无人出租车生意还未兴起,但报告预测这个需求将在2026年左右增长。这个时间节点取决于公众对这项技术的接受程度,以及在不同国家发展的速度。

其中,最大收入将来自运营车辆预订网络,并将乘客在车内的时间货币化服务。瑞银预计,造车和提供如地图或传感器等服务的公司也能分一杯羹。

为什么预测Google将占据头部地位?

瑞银表示,从零开始建设自动驾驶系统的成本,以及在全球各城市部署自动驾驶系统的挑战,将阻碍大部分汽车制造商的市场竞争能力。

"与大多数汽车厂商不同的是,谷歌从一开始就专注于全自动驾驶技术——大概在五年前就开始入坑研究了。"报告中说。

不仅是时间线上领先,领先的还有测试里程。目前,Waymo已经进行了50亿英里的虚拟测试,和600万英里的公路测试,收集了大量有价值的数据。

此外,Waymo走的路子也不太一样。

它并非造车,而是在开发无人车的大脑,在现有的汽车上安装它的系统。

"除了Waymo以外,很少有其他玩家能够在市场上拥有自主的汽车大脑,"报告分析师Patrick Hummel表示,"那些无法竞争的汽车制造商迟早要屈服并采用Waymo系统。"

目前,Wsymo已经与两大汽车制造商菲亚特克莱斯勒和捷豹路虎合作,还有几家正在酝酿之中。它的测试车已经能在美国德州、加州、密歇根州、亚利桑那州、华盛顿州和乔治亚州看到,并且计划在今年晚些时候在亚利桑那州推出完全自动驾驶的出租车服务。

Hummel补充说,那些为无人驾驶车队提供汽车的人可能会看到他们的品牌从汽车中消失,并被降级为白标供应商。Hummel表示,"随时间的推移,汽车行业将出现震荡,汽车制造商的数量减少"。

"全球有几十家汽车制造商,这是一个相当分散的行业。不过大多数人将处于失败者行列。"Hummel说。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2wCefo6
RSS Feed

RSS5

IFTTT

瑞银报告:Waymo在2030年占据全球60%无人出租车市场

安妮 编译自 金融时报量子位 出品 | 公众号 QbitAI

烽烟四起的无人车市场里,谁是撑到最后的赢家?

昨天,瑞银集团的一份报告给出了自己的结论,看起来还有些惊悚——

报告预测,到2030年,Waymo将拥有全球无人出租车市场60%的市场份额,这一主导地位将压制其他汽车制造商的发展,迫使它们选择Waymo的技术,或者直接被淘汰。

没错,是谷歌的无人车技术公司Waymo。

瑞银预测,2030年,自动驾驶技术在全球带来的收入将达2.8万亿美元,Waymo将成为行业老大。

10多年后的全球领跑者不是传统车企,而是一个半路"出家"的技术公司~留给传统汽车制造商的份额有多大?

少数能存活。

采访了一批无人车开发者、科技公司和专家后,瑞银分析,只有戴姆勒、通用这种大车厂的系统才能与Waymo持续抗衡。

可能将来被淘汰的汽车公司不在少数。现在来看,为了争夺这块奶酪,无数汽车制造商竞相开发系统。

租车潮流

未来,买车人将变少,租车人会增加。

瑞银预测,到2030年,将有12%的汽车用于自动驾驶出租车队,每天将有2600万无人出租运行,私家车的销量将会降低5%。

虽然目前无人出租车生意还未兴起,但报告预测这个需求将在2026年左右增长。这个时间节点取决于公众对这项技术的接受程度,以及在不同国家发展的速度。

其中,最大收入将来自运营车辆预订网络,并将乘客在车内的时间货币化服务。瑞银预计,造车和提供如地图或传感器等服务的公司也能分一杯羹。

为什么预测Google将占据头部地位?

瑞银表示,从零开始建设自动驾驶系统的成本,以及在全球各城市部署自动驾驶系统的挑战,将阻碍大部分汽车制造商的市场竞争能力。

"与大多数汽车厂商不同的是,谷歌从一开始就专注于全自动驾驶技术——大概在五年前就开始入坑研究了。"报告中说。

不仅是时间线上领先,领先的还有测试里程。目前,Waymo已经进行了50亿英里的虚拟测试,和600万英里的公路测试,收集了大量有价值的数据。

此外,Waymo走的路子也不太一样。

它并非造车,而是在开发无人车的大脑,在现有的汽车上安装它的系统。

"除了Waymo以外,很少有其他玩家能够在市场上拥有自主的汽车大脑,"报告分析师Patrick Hummel表示,"那些无法竞争的汽车制造商迟早要屈服并采用Waymo系统。"

目前,Wsymo已经与两大汽车制造商菲亚特克莱斯勒和捷豹路虎合作,还有几家正在酝酿之中。它的测试车已经能在美国德州、加州、密歇根州、亚利桑那州、华盛顿州和乔治亚州看到,并且计划在今年晚些时候在亚利桑那州推出完全自动驾驶的出租车服务。

Hummel补充说,那些为无人驾驶车队提供汽车的人可能会看到他们的品牌从汽车中消失,并被降级为白标供应商。Hummel表示,"随时间的推移,汽车行业将出现震荡,汽车制造商的数量减少"。

"全球有几十家汽车制造商,这是一个相当分散的行业。不过大多数人将处于失败者行列。"Hummel说。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2wCefo6
RSS Feed

RSS5

IFTTT

一步实现从TF到TF Lite,谷歌提出定制on-device模型框架

成功的深度学习模型的训练和运行通常需要大量的计算资源、内存和计算能力,这成为其在移动设备和物联网设备上表现良好的障碍。设备内置的机器学习技术使得在移动设备上运行推断成为可能,具有保护数据隐私和随处访问的优势,而无需考虑连接性。设备内置的机器学习系统(如 MobileNet 和 ProjectionNet)通过优化模型效率来解决移动设备上的资源瓶颈。但是,如果希望为自己的个人移动应用程序训练定制的设备内置模型,该怎么办呢?

近日,谷歌在 Google I/O 发布了 ML Kit,使所有移动开发人员都可以利用机器学习。即将推出的 ML Kit 核心功能之一是由我们的研究团队开发的「Learn2Compress」技术支持的自动模型压缩服务。Learn2Compress 支持 TensorFlow Lite 中的自定义设备内置深度学习模型,可在移动设备上高效运行,而无需担心内存优化和速度问题。用于图像分类的 Learn2Compress 将很快可用,研究者可以通过 ML Kit 获取。Learn2Compress 最初将提供给少数开发人员,并在未来几个月里扩大范围。如果希望使用此功能构建自己的模型,可以点击该链接进行注册:https://docs.google.com/forms/d/e/1FAIpQLSd7Uzx6eepXeF5osByifFsBT_L3BJOymIEjG9uz1wa51Fl9dA/viewform。

运行原理

Learn2Compress 是对 ProjectionNet 等之前论文中介绍的学习框架的概括,结合了几种最先进的压缩神经网络模型的技术。它将用户提供的大型预训练 TensorFlow 模型作为输入,执行训练和优化,然后自动生成规模较小、内存效率更高、功耗更低、推断速度更快且准确率损失最小的即用设备内置模型。


Learn2Compress 用于自动生成设备内置机器学习模型。

为此,Learn2Compress 使用了多种神经网络优化和压缩技术,包括:

  • 修剪(pruning):通过删除对于预测结果影响最小的权重或运算(如得分低的权重)来缩小模型。该方法可以达到很好的效果,特别是对于涉及稀疏输入或输出的设备内置模型,这些模型可以被压缩到一半的大小,同时保留 97% 的原始预测质量。

  • 离散化(quantization):该技术在训练过程中特别有用,可以通过减少模型权重和激活值占用的位数提高推断速度。例如,使用 8 位定点表示法替代浮点数可以加速模型推断、减少能耗,并进一步将模型大小压缩到原来的 1/4。

  • 联合训练(joint training)和精炼(distillation):该方法使用老师-学生的学习策略,即使用较大的老师网络(该案例中是用户提供的 TensorFlow 模型)来训练一个紧凑的学生网络(设备内置模型),确保最小的准确率损失。
    使用联合训练和精炼方法学习紧凑的学生网络。

老师网络可以被固定(正如在精炼过程中)或联合优化,甚至同时训练多个不同大小的学生网络。因此,Learn2Compress 可以单次生成多个设备内置模型而不是一个,这些模型的大小和推断速度互不相同,开发者可以在其中选取最适合应用需求的模型。这些方法以及迁移学习等技术让压缩过程更加高效,并可更好地扩展到大规模数据集上。

性能如何?

为了展示 Learn2Compress 的有效性,谷歌研究者使用它构建多个图像和自然语言任务中当前最先进深度神经网络(如 MobileNet、NASNet、Inception、ProjectionNet)的紧凑设备内置模型。对于给定任务和数据集,谷歌生成多个不同推断速度和模型大小的设备内置模型。

不同大小的 Learn2Compress 模型和全尺寸基线网络在 CIFAR-10(左)和 ImageNet(右)图像分类任务上的准确率。用于生成 CIFAR-10 和 ImageNet 压缩变量的学生网络分别使用 NASNet 和 MobileNet 的变体架构进行建模。

对于图像分类,Learn2Compress 可以生成适用于移动端应用、具备较好预测准确率的小型快速模型。例如,在 ImageNet 任务上,Learn2Compress 模型的大小是 Inception v3 基线模型的 1/22、MobileNet v1 基线模型的 1/4,而准确率仅下降了 4.6-7%。在 CIFAR-10 上,使用共享参数联合训练多个 Learn2Compress 模型花费的时间仅比训练单个较大 Learn2Compress 模型多 10%,而获得的 3 个压缩模型大小是后者的 1/94,速度是后者的 27 倍,开销是后者的 1/36,且预测质量较好(90-95% 的 top-1 准确率)。

基线模型和 Learn2Compress 模型在 CIFAR-10 图像分类任务上的计算成本和平均预测延迟(Pixel phone)。Learn2Compress 优化的模型使用类似 NASNet 的网络架构。

谷歌很兴奋地看到该模型在开发者用例上的优秀性能。例如,Fishbrain(钓鱼爱好者社交平台)使用 Learn2Compress 将现有图像分类云模型(大小 80MB+,top-3 准确率 91.8%)压缩成规模较小的移动端模型,大小仅有 5MB,而准确率与之前类似。在很多使用案例中,压缩模型的准确率甚至稍微优于原来的较大模型,原因在于前者更好的正则化效应(regularization effect)。

谷歌将继续改进 Learn2Compress,并扩展至图像分类以外的其他任务。谷歌很期待通过云端的 ML Kit 压缩服务实现这一目标。谷歌希望 Learn2Compress 能够帮助开发者更简单地自动构建和优化设备端 ML 模型,以便他们可以集中精力构建强大的 app,创造更酷的用户体验,包括计算机视觉自然语言处理和其他机器学习应用。


原文链接:https://ift.tt/2IbRWHg

]]> 原文: https://ift.tt/2G3Opcr
RSS Feed

机器知心

IFTTT

M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」-InfoQ每周精要No.900

「每周精要」 NO. 900 2025/11/01 头条 HEADLINE M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」 精选 SELECTED a16z 将 3000 万开发者标价 3 万亿 网友:几个初创公司 + 大模型就...