2018年5月3日星期四

全球AI芯片企业排行:英伟达第1,华为第12(七家中国公司入围Top24)

允中 夏乙 发自 凹非寺量子位 出品 | 公众号 QbitAI

AI芯片哪家强?

在调查研究了全球100多家企业后,市场研究和咨询公司Compass Intelligence发布了2018年度全球AI芯片公司排行榜。

在这份榜单上,英伟达排名第一。

这份报告也特别提到了英伟达丰富的产品线,包括用于数据中心的Volta GPU架构,自动驾驶平台NVIDIA DRIVE PX,DGX-1等等。

英特尔、IBM、Google、苹果、AMD、ARM、高通、三星、恩智浦等公司位列2-10名。

在Top24的榜单排行中,共有七家中国公司入围。

  • 华为(海思)位列这份榜单的第12位。
  • 联发科(MediaTek)排名第14位。
  • Imagination排名第15位。
  • 瑞芯微(Rockchip)排名第20位。
  • 芯原(Verisilcon)排名第21位。
  • 寒武纪(Cambricon)排名第23位。
  • 地平线(Horizon)排名第24位。

据介绍,这份一线AI芯片组排行榜包括提供AI芯片组软硬件的公司。

所谓AI芯片组产品包括:中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NNP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、精简指令集(RISC)处理器、加速器等等。

以及针对边缘处理和设备的芯片组,云计算使用的服务器,针对机器视觉和自动驾驶平台的设备等。还包括AI的计算框架、训练平台等。

中国芯片军团

这七家入围的中国公司,有些公众很熟悉,有些相对低调。

我们先介绍几家相对低调一些的公司。

其中,Imagination原本是一家英国芯片企业,曾经是苹果公司的GPU供应商。去年9月,中国资本Canyon Bridge出资5.5亿英镑将其收购。

目前,Imagination公司CEO已由李力游出任,李力游此前曾任展讯的董事长,后展讯被紫光收购,李力游出任紫光集团联席总裁。

2017年9月,Imagination推出了面向人工智能应用的硬件IP产品PowerVR Series2NX NNA 神经网络加速器。

瑞芯微(Rockchip)成立于2001年,主要为智能手机、平板电脑、通讯平板,电视机顶盒、车载导航、IoT物联网等产品提供芯片解决方案。

据介绍,瑞芯微是一家做ARM应用处理器的公司,靠复读机和MP3/MP4芯片起家。今年一月,瑞芯微发布首款AI处理器RK3399Pro,NPU运算性能达2.4TOPs。

去年7月,瑞芯微创业板IPO未能过会,一度引发关注。

芯原(Verisilcon)也成立于2001年,自身定位是一家芯片设计平台即服务(Silicon Platform as a Service,SiPaaS)提供商。

去年5月,芯原推出一款面向计算机视觉和人工智能应用的处理器VIP8000,可以直接导入由Caffe和TensorFlow等框架生成的神经网络。恩智浦的旗舰应用处理器i.MX 8上也采用了芯原的视觉图形处理器。

2015年,芯原还收购了美国嵌入式图形处理器(GPU)设计商图芯技术(Vivante)。

芯原创始人戴伟民曾出任美国Celestry公司(2002年被Cadence并购)董事长兼CTO。

而华为、联发科、地平线这些公司,大家相对比较熟悉,或者量子位也有过不少报道,在这里不多赘言。

特别提一下,昨天寒武纪发布了最新的产品。

这也是两款早已经在路线图上公布过的产品。首先是寒武纪1M,这家公司的第三代机器学习专用芯片。1M使用TSMC 7nm工艺生产,其8位运算效能比达5Tops/watt(每瓦 5 万亿次运算)。

另外就是云端AI芯片MLU 100。这款芯片采用寒武纪MLUv01架构和TSMC 16nm工艺。在平衡模式(主频 1Ghz)和高性能模式(1.3GHz)主频下,其等效理论峰值速度则分别可以达到128万亿次定点运算/166.4万亿次定点运算,对应功耗为80w/110w。

"英特尔必须改"

最后,讲一个国外的芯片巨头。

开头的榜单上,英特尔携收购来的Mobileye、Nervana、Movidius,排在第二名。

"仅次于英伟达",对这家称霸芯片业数十年的巨头来说,可算不上什么值得夸耀的成就。

站在AI时代路口,英特尔其实已经很努力了。

这家巨头在数据中心芯片市场占据着90%的份额,这几年,数据中心所处理的计算任务随着人工智能兴起而逐渐改变,英伟达成了时代宠儿,英特尔深感地位岌岌可危。

于是,英特尔一路都在买"AI入场券"。从2015年收购的FPGA公司Altera,到后来的Nervana,再到2017年为押注无人车买下的Mobileye,都是英特尔下的重注。

在英特尔负责人工智能产品的Naveen Rao在接受The Information采访时说,英特尔崛起的PC时代"是一个非常简单的世界。而从今以后,应用空间已经改变。我们现在在数据中心处理的,是IoT、自动驾驶等各种各样的事情"。

不止买买买,英特尔内部也一直在为AI做准备。据说,英特尔内部的每个事业部,都曾经有过自己的AI项目。

这种状况到2016年英特尔收购Nervana才有了改变,Nervana CEO Rao随着公司加入这家巨头,负责一个专门的人工智能产品组(Artificial Intelligence Products Group)。

在Rao看来,英特尔这20个月以来最大的转变,就是全心全意地拥抱了加速芯片,接受了更广泛的芯片类型。

换句话说,就是不再一心专注于改进通用处理器CPU,也开始考虑专用于特定计算任务的加速芯片,以及用于自动驾驶等专门场景的芯片。

英特尔开发AI芯片的进度依然令人担忧。2016年收购Nervana后,本来说要2017年上半年发布的神经网络处理器10月才推出了"早期版本",之后就再也没有了消息。

而AI芯片这个领域,不仅创业公司林立,各大互联网公司也已经全部杀了进来。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2Kw3y9A
RSS Feed

RSS5

IFTTT

全球AI芯片企业排行:英伟达第1,华为第12(七家中国公司入围Top24)

允中 夏乙 发自 凹非寺量子位 出品 | 公众号 QbitAI

AI芯片哪家强?

在调查研究了全球100多家企业后,市场研究和咨询公司Compass Intelligence发布了2018年度全球AI芯片公司排行榜。

在这份榜单上,英伟达排名第一。

这份报告也特别提到了英伟达丰富的产品线,包括用于数据中心的Volta GPU架构,自动驾驶平台NVIDIA DRIVE PX,DGX-1等等。

英特尔、IBM、Google、苹果、AMD、ARM、高通、三星、恩智浦等公司位列2-10名。

在Top24的榜单排行中,共有七家中国公司入围。

  • 华为(海思)位列这份榜单的第12位。
  • 联发科(MediaTek)排名第14位。
  • Imagination排名第15位。
  • 瑞芯微(Rockchip)排名第20位。
  • 芯原(Verisilcon)排名第21位。
  • 寒武纪(Cambricon)排名第23位。
  • 地平线(Horizon)排名第24位。

据介绍,这份一线AI芯片组排行榜包括提供AI芯片组软硬件的公司。

所谓AI芯片组产品包括:中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NNP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、精简指令集(RISC)处理器、加速器等等。

以及针对边缘处理和设备的芯片组,云计算使用的服务器,针对机器视觉和自动驾驶平台的设备等。还包括AI的计算框架、训练平台等。

中国芯片军团

这七家入围的中国公司,有些公众很熟悉,有些相对低调。

我们先介绍几家相对低调一些的公司。

其中,Imagination原本是一家英国芯片企业,曾经是苹果公司的GPU供应商。去年9月,中国资本Canyon Bridge出资5.5亿英镑将其收购。

目前,Imagination公司CEO已由李力游出任,李力游此前曾任展讯的董事长,后展讯被紫光收购,李力游出任紫光集团联席总裁。

2017年9月,Imagination推出了面向人工智能应用的硬件IP产品PowerVR Series2NX NNA 神经网络加速器。

瑞芯微(Rockchip)成立于2001年,主要为智能手机、平板电脑、通讯平板,电视机顶盒、车载导航、IoT物联网等产品提供芯片解决方案。

据介绍,瑞芯微是一家做ARM应用处理器的公司,靠复读机和MP3/MP4芯片起家。今年一月,瑞芯微发布首款AI处理器RK3399Pro,NPU运算性能达2.4TOPs。

去年7月,瑞芯微创业板IPO未能过会,一度引发关注。

芯原(Verisilcon)也成立于2001年,自身定位是一家芯片设计平台即服务(Silicon Platform as a Service,SiPaaS)提供商。

去年5月,芯原推出一款面向计算机视觉和人工智能应用的处理器VIP8000,可以直接导入由Caffe和TensorFlow等框架生成的神经网络。恩智浦的旗舰应用处理器i.MX 8上也采用了芯原的视觉图形处理器。

2015年,芯原还收购了美国嵌入式图形处理器(GPU)设计商图芯技术(Vivante)。

芯原创始人戴伟民曾出任美国Celestry公司(2002年被Cadence并购)董事长兼CTO。

而华为、联发科、地平线这些公司,大家相对比较熟悉,或者量子位也有过不少报道,在这里不多赘言。

特别提一下,昨天寒武纪发布了最新的产品。

这也是两款早已经在路线图上公布过的产品。首先是寒武纪1M,这家公司的第三代机器学习专用芯片。1M使用TSMC 7nm工艺生产,其8位运算效能比达5Tops/watt(每瓦 5 万亿次运算)。

另外就是云端AI芯片MLU 100。这款芯片采用寒武纪MLUv01架构和TSMC 16nm工艺。在平衡模式(主频 1Ghz)和高性能模式(1.3GHz)主频下,其等效理论峰值速度则分别可以达到128万亿次定点运算/166.4万亿次定点运算,对应功耗为80w/110w。

"英特尔必须改"

最后,讲一个国外的芯片巨头。

开头的榜单上,英特尔携收购来的Mobileye、Nervana、Movidius,排在第二名。

"仅次于英伟达",对这家称霸芯片业数十年的巨头来说,可算不上什么值得夸耀的成就。

站在AI时代路口,英特尔其实已经很努力了。

这家巨头在数据中心芯片市场占据着90%的份额,这几年,数据中心所处理的计算任务随着人工智能兴起而逐渐改变,英伟达成了时代宠儿,英特尔深感地位岌岌可危。

于是,英特尔一路都在买"AI入场券"。从2015年收购的FPGA公司Altera,到后来的Nervana,再到2017年为押注无人车买下的Mobileye,都是英特尔下的重注。

在英特尔负责人工智能产品的Naveen Rao在接受The Information采访时说,英特尔崛起的PC时代"是一个非常简单的世界。而从今以后,应用空间已经改变。我们现在在数据中心处理的,是IoT、自动驾驶等各种各样的事情"。

不止买买买,英特尔内部也一直在为AI做准备。据说,英特尔内部的每个事业部,都曾经有过自己的AI项目。

这种状况到2016年英特尔收购Nervana才有了改变,Nervana CEO Rao随着公司加入这家巨头,负责一个专门的人工智能产品组(Artificial Intelligence Products Group)。

在Rao看来,英特尔这20个月以来最大的转变,就是全心全意地拥抱了加速芯片,接受了更广泛的芯片类型。

换句话说,就是不再一心专注于改进通用处理器CPU,也开始考虑专用于特定计算任务的加速芯片,以及用于自动驾驶等专门场景的芯片。

英特尔开发AI芯片的进度依然令人担忧。2016年收购Nervana后,本来说要2017年上半年发布的神经网络处理器10月才推出了"早期版本",之后就再也没有了消息。

而AI芯片这个领域,不仅创业公司林立,各大互联网公司也已经全部杀了进来。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2Kw3y9A
RSS Feed

RSS5

IFTTT

[福利]《深度学习核心技术与实践》送书活动(5本)

终于有空回来更新专栏了,首先带来一组送书福利!

《深度学习核心技术与实践》

• 在深度学习流行之前的传统机器学习年代,我们认为"人工"更多强调的是特征工程之难,需要机器学习从业者不断分析数据,挖掘新的特征。

• 在深度学习流行的这几年,我们认为这句话依然成立,只是"人工"更多地强调人工标注,因为深度学习需要大量的标注数据。当然,也有人反驳说不需要标注,用户的使用历史天然就是标注。实际上,这可以理解为一种众筹标注。

• 在深度学习发展的未来,我们希望这句话不再成立,期待无监督模型取得更长足的进步,使得"人工"智能变为真正的智能。

主要内容

本书主要介绍深度学习的核心算法,以及在计算机视觉、语音识别、自然语言处理中的相关应用。作者们都是业界一线的深度学习从业者,所以书中所写内容和业界联系紧密,所涵盖的深度学习相关知识点比较全面。本书主要讲解原理,较少贴代码。

作者简介

猿辅导应用研究团队成立于2014年年中,一直从事深度学习在教育领域的应用和研究工作。团队成员均毕业于北京大学、清华大学、上海交大、中科院、香港大学等知名高校,大多数拥有硕士或博士学位。研究方向涵盖了图像识别、语音识别、自然语言理解、数据挖掘、深度学习等领域。团队成功运用深度学习技术,从零开始打造出活跃用户过亿的拍照搜题APP——小猿搜题,开源了分布式机器学习系统ytk-learn和分布式通信系统ytk-mp4j。此外,团队自主研发的一系列成果均成功应用到猿辅导公司的产品中。包括:速算应用中的在线手写识别、古诗词背诵中的语音识别、英语口语智能批改、英文手写拍照识别和英语作文智能批改等技术。

编辑推荐

√ 来自一直盛产人工智能黑科技的神秘之师,他们也是开源分布式系统ytk-learn和ytk-mp4j的作者。

√ 用一线工程视角,透过关键概念、模型、算法原理和实践经验,为入坑者破解深度学习"炼金术"。

√ 算法、代码容易获取,结合产品需求落地机器学习才是难题,本书旨在让算法真正在团队扎根长大。

√ 胸怀全局、了如指掌才能在实践中少走弯路,用理论滋养创新能力,这也是本书导向的至臻境界。

本书写给谁看

适合深度学习从业人士或者相关研究生作为参考资料,也可以作为入门教程来大致了解深度学习的相关前沿技术。

媒体评论

本书的作者之一邓澍军博士和夏龙是我的老同事,几年前我们在网易有道共事时,他俩就开始了孜孜不倦的机器学习"修炼"之旅,读经典专著和论文,研读代码,推动机器学习技术和公司业务结合,这股劲头一直延续到他们加入猿辅导创业。今天,他们把自己对深度学习方法的心得体会、落地的第一手经验凝集在《深度学习核心技术与实践》这本书里,即使是我这种自认为经验很丰富的人,也从这本书中学到了很多不曾了解的知识。

——北京一流科技有限公司创始人 袁进辉(老师木)

这本书的不少作者都是我的前同事。从书中我看到了熟悉的务实、钻研、追求实际效果的风格。在深度学习被称为"炼金术"的当前,本书通过第一线的视角,既包含工程实践所需的关键概念、模型和算法原理,也有多年实践经验的总结。本书内容深入浅出,干货满满,是一本不可多得的入门和实践参考书。

——网易有道首席科学家 段亦涛

(我也是本书的作者之一,算是曾经学习路上的一点心得总结吧~)

========================我是分割线========================

以下是送书规则:

首先声明:活动将保证公平公正公开,但最终解释权还是在我这。

1. 参与的读者可以在这篇帖子下回复,并在帖子最后回复一个四位数,并将两位数用"#"号包围住,比方说:

祝贺大麦!#8888#

2. 从5月7日到5月11日,我将以恒生指数开盘数作为下面这个函数的输入:

import numpy as np def yaojiang(seed):     np.random.seed(seed)     iters = np.random.randint(100, 1000)     for i in range(iters):         np.random.randint(0, 10000)     return np.random.randint(0, 10000)

3. 开盘信息就以百度的框计算结果为准:

比方说8月4日的开盘数是25752.270,那么我们的输入是:

yaojiang(25752270) # 输出:6835

4. 每天晚上11点(确保我有空),我会从当时没有中过奖且评论日期为当天9点前的评论中选择一个离输出最近的评论,各自送出一本样书,获奖者会在本文公布。希望获奖者尽快私信我,提供我邮寄地址(包邮哦亲)。

5. 考虑到可能出现相同数字的情况,原则上优先选择时间线上先出现的数字,后出现者在所有非冲撞人的数字选择完毕后,从自己的数字出发依次+1进行尝试,直到不与别人碰撞为止。

例子:

A:#1000# B:#1000# C:#1001# 

由于A和B选择同一数字,那么A有效,B需要等到A、C选定后不断+1尝试,最终B将自动选择1002。

如果与所有数字都碰撞,那就只能说不好意思了……

6. 理论上每个用户只有一个有效数字,这里只取第一个数字。

7. 本人js水平很弱,目前用下面的脚本提取各位的信息和数字:

var list = $('.PostCommentList').children; for(var i = 0; i < 10; ++i){ 	var nameTag = list[i].children[1].children[0].children[0].children[0]; 	if(nameTag === undefined){ 		nameTag = list[i].children[1].children[1].children[0].children[0]; 	} 	//console.log(list[i].children[1]) 	var link = nameTag.getAttribute('href'); 	//console.log(link); 	var name = nameTag.text; 	//console.log(name); 	var comment = list[i].children[2].innerHTML; 	console.log(link + '\t' + name + '\t' + comment); } 

以上就是规则,希望大家能够多多参与,支持《深度学习核心技术与实践》!!!

==========================

以下是抽奖结果:(虚位以待)



via 无痛的机器学习 - 知乎专栏 https://ift.tt/2HT0bIp
RSS Feed

RSS4

IFTTT

谷歌、百度等联合发布机器学习新基准MLPerf,旨在促进AI发展和公众参与

长期以来,市场上的 AI 性能对比一直比较粗略,鱼龙混杂且通用性不足,难以作为参考,但 AI 基准之战即将开始。今天,来自学界和业界的多个组织(包括谷歌、百度、英特尔、AMD、哈佛和斯坦福)共同发布了新型基准 MLPerf,「用于衡量机器学习软硬件的速度」。

上周,RiseML 发布博客,对比了谷歌的 TPUv2 和 Nvidia V100。今天,英特尔发布博客,展示了使用 RNN 执行机器翻译时选择软硬件的相关数据。

很长时间以来,围绕对有意义的 AI 基准出现大量讨论,支持者认为此类工具的缺乏限制了 AI 的应用。MLPerf 发布公告引用了 AI 领域先驱吴恩达的话:「AI 正在改变多个行业,但是要想完全发挥其潜力,我们仍然需要更快的硬件和软件。」我们希望更好、更标准化的基准能够帮助 AI 技术开发者创造出此类产品,允许采用者做出明智的 AI 技术选择。


MLPerf 称其主要目标是:

通过公平、有用的度量来加速 ML 的进展;
推动互相竞争的系统之间的公平对比,同时鼓励创新,以提升 ML 领域的当前最优水平;
使基准测试可负担,所有人都可以参与其中;
服务商业和研究社区;
强制要求复现性,以确保结果的可靠性。

AI 性能对比(h/w 和 s/w)目前主要由既得利益者发布,如英特尔近日的博客《Amazing Inference Performance with Intel Xeon Scalable Processors》。这并不是在针对英特尔。此类对比通常包含有用的见解,但是它们通常用于展示一方比另一方的优势。标准化基准可以缓解这一状况。

MLPerf 在模拟之前的一些尝试,比如 SPEC(标准性能评估组织)。「SPEC 基准加速了通用计算方面的进步。SPEC 于 1988 年由多个计算公司联合成立。接下来的 15 年中 CPU 性能提升 1.6X/年。MLPerf 将之前基准的最佳实践结合起来:SPEC 使用的一套程序;SORT 的一个部门来做性能对比,另一个部门负责创新;DeepBench 覆盖产品中的软件部署;DAWNBench 的 time-to-accuracy 度量。」MLPerf 称。
Intersect360 Research 的 CEO Addison Snell 称:「现在那么多公司在发展 AI,提供基准测试的尝试具备极高的重要性,尤其是对于大量互相竞争的技术。但是,AI 领域非常多样化,我怀疑是否会出现主导的单一基准。想想五年前所有围绕大数据和分析学的热情;尽管每个人都尝试定义它,行业并没有提供一个统一、常用的基准。我认为 AI 领域也会是这种情况。」

Hyperion Research 的高级研究副总裁 Steve Conway 称 MLPerf 是「很好、很有用的」一步,「因为多年来对于买方和卖方来说确实缺乏一个基准来展现不同 AI 产品和解决方案之间的区别。这个基准似乎是为了解决如今 AI 早期主要的受限问题(bounded problem)而创建的。之后随着 AI 开始出现未受限问题(unbounded problem,它们将是经济上最重要的问题),我们将需要额外的基准。受限问题相对简单,例如声音和图像识别或玩游戏等。未受限问题例如诊断癌症,其对应的受限问题可能是读取 MRI 图像;未受限问题能够在非常复杂的问题上推荐决策。」

MLPref 已经在 GitHub 上开源,但仍然处于非常早期的阶段,正如 MLPref 所强调的:「这次发布的更像是一个内部测试版,它仍可以从多个方面改进。该基准仍然在开发和精炼中,可以查看下方的 Suggestions 部分了解如何贡献该开源项目。我们期待在五月末能基于用户输入进行大幅更新。」

目前在 MLPerf 套装中的 7 个基准,每一个都有参考实现:

图像分类—ResNet-50 v1(ImageNet)
目标检测—Mask R-CNN(COCO)
语音识别—DeepSpeech2(Librispeech)
翻译—Transformer(WMT English—German)
推荐—Neural Collaborative Filtering(MovieLens 20 Million (ml-20m))
情感分析—Seq-CNN(IMDB 数据集)
强化学习—Mini-go(预测 pro 游戏中的移动)

每个参考实现提供了:至少在一个框架中实现模型的代码;可用于在一个容器内运行基准的 Dockerfile;下载合适数据集的脚本;运行模型训练和计时的脚本;数据集、模型和机器设置的相关文档。

这些基准已经在以下的机器配置上进行了测试:

16 块 CPU、一块 Nvidia P100;
Ubuntu 16.04,包含 docker 和 Nvidia 支持;
600GB 硬盘(虽然很多基准不需要这么多硬盘空间)。

业界选择结合几个 AI 基准还是让基准数量激增是很有趣的现象。在这样一个年轻的市场,大部分人选择提供基准测试工具和服务。例如,斯坦福(MLPerf 成员)近日发布了它的第一个 DAWNBench v1 Deep Learning 结果。

斯坦福报告称:「2018 年 4 月 20 日,我们发布了第一个衡量端到端性能的深度学习基准和竞赛,这些性能包括:在常见深度学习任务中达到当前最优准确率级别所需的时间/成本,以及在当前最优准确率级别上执行推断的延迟/成本。聚焦于端到端性能提供了标准化计算框架、硬件、优化算法、超参数设置和其它重要因素的区别的客观手段。」像 MLPerf 这样的项目可以在当前对比 AI 性能的时候,清除那些模糊不清的因素。


原文链接:https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/

]]> 原文: https://ift.tt/2rizUMr
RSS Feed

机器知心

IFTTT

最大规模数据集、最优图像识别准确率!Facebook利用hashtag解决训练数据难题

图像识别是 AI 研究的重要分支之一,也是 Facebook 的研究重心。Facebook 的研究人员和工程师旨在扩展计算机视觉的边界,造福现实世界。例如,使用 AI 生成图像的音频字幕帮助视觉受损的用户。为了改善这些计算机视觉系统,训练它们识别和分类大量对象,Facebook 需要包含数十亿张图像的数据集,如今常见的数百万张图像的数据集已经不足够了。

由于当前模型通常在人类标注者手动标注的数据上进行训练,因此提升识别准确率不只是向系统输入更多图像那么简单。这种劳动密集型的监督学习过程通常获得最好的性能,但是手动标注的数据集在规模方面已经接近其函数极限。Facebook 正在多达五千万张图像的数据集上训练模型,即使是在提供所有监督的情况下,数十亿张图像的训练也是不可行的。

Facebook 研究人员和工程师通过在带有标签(hashtag)的公共图像数据集上训练图像识别网络解决了该问题,其中最大的数据集包含 35 亿张图像和 17000 个 hashtag。该方法的关键是使用现有公开的、用户提供的 hashtag 作为标注,取代手动标注。该方法在测试过程中表现良好。通过使用包含 10 亿图像的此类数据集训练计算机视觉系统,Facebook 得到了一个历史最高得分——在 ImageNet 上达到了 85.4% 的准确率。伴随着这一图像识别任务中的突破,该研究为如何从监督训练转向弱监督训练提供了重要洞见。在弱监督训练中,研究者使用现有标注(在本文中指 hashtag)而不是专为 AI 训练而选择的标注。Facebook 计划开源这些模型的嵌入,这样研究社区就可以使用这些表征,基于它们完成更高级别的任务。

大规模使用 hashtag

由于人们通常使用 hashtag 描述照片,所以 Facebook 研究人员认为它们可以作为模型训练数据的完美来源。这允许研究人员使用 hashtag 来完成一直以来的目标:基于人们自己标注的 hashtag 获取更多图像。

但是 hashtag 通常指非视觉概念,如 #tbt 表示「throwback Thursday」。或者它们比较模糊,如 #party 可以描述活动、设置,或者 both。对于图像识别来说,tag 的作用是弱监督数据,而模糊和/或不相关的 hashtag 是标签噪声,可能会混淆深度学习模型。

这些噪声标签是大规模训练工作的重点,因此研究人员开发了一种新方法,专为使用 hashtag 监督执行图像识别实验而准备。该方法包括处理每个图像的多个标签(加 hashtag 的用户通常会添加多个 hashtag)、整理 hashtag 同义词、平衡经常出现的 hashtag 和出现频率较低的 hashtag 的影响力。为了使这些标签有助于图像识别训练,Facebook 研究团队训练了一个大规模 hashtag 预测模型。该方法显示出优秀的迁移学习结果,表明该模型的图像分类结果可广泛应用于其他 AI 系统。这一新研究基于 Facebook 之前的研究,包括基于用户评论、hashtag 和视频的图像分类研究。这一对弱监督学习的全新探索是一次广泛的合作,Facebook 应用机器学习团队(AML)和 Facebook 人工智能研究院(FAIR)均参与其中。

在规模和性能方面开辟新天地

由于单个机器完成模型训练需要一年多时间,因此 Facebook 在多达 336 个 GPU 上进行分布式训练,将总训练时间缩短至几周。在如此大的模型规模面前(该研究中最大的模型是具备超过 86.1 千万个参数的 ResNeXt 101-32x48d),使用分布式训练方法尤其重要。此外,Facebook 设计了一种方法来移除重复项,确保不会在评估数据上进行训练,这个问题在此类研究中经常出现。

Facebook 希望能看到图像识别方面的性能提升,不过对实验结果仍然感到惊讶。在 ImageNet 图像识别基准上,其最佳模型达到了 85.4% 的准确率,该模型在 10 亿张图像上进行训练,训练数据一共包括 1500 个 hashtag。这是截至目前最高的 ImageNet 基准准确率,比之前最优模型高 2%。研究者将卷积神经网络架构的影响力进行分解,观测到的性能提升更加显著:将数十亿图像(以及大量 hashtag)用于深度学习导致高达 22.5% 的性能提升。

在另一个主要基准 COCO 上,研究者发现使用 hashtag 进行预训练可以将模型的平均准确率提高 2% 以上。

这些是图像识别和目标检测领域的基础改进,表示计算机视觉又前进了一步。但是研究者的实验还揭示了大规模训练和噪声标签的优势和面临的挑战。

例如,尽管扩大训练数据集规模是值得的,但选择匹配特定图像识别任务的 hashtag 集也具备同等的重要性。研究者通过在 10 亿张图像、1500 个匹配 ImageNet 数据集类别的 hashtag 上的训练结果优于在同样大小的数据集、但使用全部 17000 个 hashtag 的训练结果。另一方面,对于类别较多的任务,使用 17000 个 hashtag 进行训练的模型性能更好,这表明研究者应该在未来训练中增加 hashtag 的数量。

增加训练数据规模通常有利于图像识别。但是它也会产生新的问题,包括定位图像中对象位置的能力下降。Facebook 研究者还发现其最大的模型仍未充分利用 35 亿张图像数据集的优势,这表明研究者应该在更大的模型上进行训练。

大规模自标注数据集是图像识别的未来

这项研究的一个重要成果(甚至超越了图像识别的广泛成果)就是证实了在 hashtag 上训练计算机视觉模型是完全可行的。虽然使用了一些基础技术来合并相似标签、降低其他标签的权重,但是该方法不需要复杂的「清理」过程来消除标签噪声。相反,研究者能够使用 hashtag 训练模型,而且只需对训练过程做出很少的修改。规模似乎是一大优势,因为在数十亿张图像上训练的网络对标签噪声具备更好的稳健性。

我们设想了在不远的未来,hashtag 作为计算机视觉标签的其他使用方向,可能包括使用 AI 更好地理解视频片段,或改变图像在 Facebook feed 流中的排序方式。Hashtag 还可以帮助系统识别图像何时不仅属于总类别,还属于更具体的子类别。例如,照片的音频说明提及「树上的一只鸟」是有用信息,但是如果音频说明可以具体到物种(如:糖槭树上的一只主红雀),就可以为视觉受损的用户提供更好的描述。

Hashtag 可以帮助计算机视觉系统超越一般分类条目,以识别图像中的特定子类别和其他元素。

除了 hashtag 的具体用途之外,该研究还指出了可能影响新产品和现有产品的广泛图像识别方面取得的进展。例如,更精确的模型可能会改善在 Facebook 上重现记忆的方式。该研究指出了使用弱监督数据的长期影响。随着训练数据集变得越来越大,对弱监督学习的需求——以及从长远来看,对无监督学习的需求——将变得越来越显著。了解如何弥补噪声大、标注不准确的缺陷对于构建和使用大规模训练集至关重要。

本研究在 Dhruv Mahajan、Ross Girshick、Vignesh Ramanathan、Kaiming He、Manohar Paluri、Yixuan Li、Ashwin Bharambe 和 Laurens van der Maaten 的《Exploring the Limits of Weakly Supervised Pretraining》一文中有更详细的描述。由于该研究涉及到的规模史无前例,此论文详细的论述将为一系列新研究方向铺平道路,包括开发新一代足够复杂的深度学习模型,从而有效地从数十亿张图像中学习。

该研究还表明,为了更好地衡量当今图像识别系统以及未来规模更大、监督更少的图像识别系统的质量和局限性,开发类似 ImageNet 的广泛使用的新型基准很有必要。

论文:Exploring the Limits of Weakly Supervised Pretraining

论文链接:https://ift.tt/2HNs6gw

摘要:当前最优的适合大量任务的视觉感知模型依赖于监督式预训练。ImageNet 分类实际上是这些模型的预训练任务。但是,目前 ImageNet 将近十岁,用现代标准来看规模有些小了。即便如此,使用规模大了好几个数量级的数据集进行预训练也很少见。原因很明显:此类数据集很难收集和标注。本论文展示了一种独特的迁移学习研究,在数十亿社交媒体图像上训练大型卷积网络来预测 hashtag。实验表明大规模 hashtag 预测的训练性能很好。我们展示了在多个图像分类和目标检测任务上的改进,并报告了目前最高的 ImageNet-1k single-crop,top-1 准确率 85.4%(top-5 准确率 97.6%)。我们还进行了大量实验,为大规模预训练和迁移学习性能之间的关系提供了新的实证数据。

原文链接:https://ift.tt/2FD5J7E

]]> 原文: https://ift.tt/2rhEN8m
RSS Feed

机器知心

IFTTT

寒武纪发布了首款云端AI芯片MLU100:进军服务器市场

5 月 3 日,智能芯片公司寒武纪科技在上海举办了 2018 产品发布会。会上,寒武纪正式发布了多个最新一代终端 IP 产品——采用 7nm 工艺的终端芯片 Cambricon 1M、首款云端智能芯片 MLU100 及搭载了 MLU100 的云端智能处理计算卡。

在人工智能技术的发展过程中,神经网络正不断迈向更深、更复杂的方向,而硬件则正朝着机器学习任务处理专用的道路前进。目前,国内已出现十余家人工智能芯片公司,而寒武纪是其中的佼佼者。作为全球唯一一家 AI 芯片独角兽,寒武纪于 2016 年诞生于中国科学院计算技术研究所,并率先推出了商用化的深度学习专用处理器 NPU(神经网络处理器)。

其实,寒武纪科技的产品早已进入普通用户的手中。去年 10 月,华为发布了搭载全球首款「人工智能处理器」麒麟 970 的手机 Mate 10 系列(以及其后发布的华为 P20、荣耀 V10 系列等),其芯片架构中就包含了寒武纪Cambricon-1A 神经网络处理器。1A 也由此成为了全球首个成功商用的深度学习处理器 IP 产品。

寒武纪的智能处理器主要针对于人工智能领域计算机视觉、语音识别等方面的任务,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类应用。据称,其专为神经网络任务优化的架构可以使其达到传统四核 CPU25 倍以上的性能。

与此前仅面向终端设备的芯片 IP 不同,本次发布会上,寒武纪推出的芯片不仅性能更强大,而且还出现了面向云端服务器等专业应用场景的产品。

第三代终端芯片:寒武纪 1M

首先是终端处理器部分。今天发布的寒武纪 1M 是这家公司的第三代机器学习专用芯片,其性能超越此前广泛使用的寒武纪 1A 十倍。去年 11 月 6 日,寒武纪在北京举行了公司成立以来的首场发布会,陈天石在会上披露了 1M 处理器的发展计划。

在本次发布会上,寒武纪 1M 处理器的具体参数终于展示在人们的眼前。1M 使用 TSMC 7nm 工艺生产,其 8 位运算效能比达 5Tops/watt(每瓦 5 万亿次运算)。寒武纪提供了三种尺寸的处理器内核(2Tops/4Tops/8Tops)以满足不同场景下不同量级智能处理的需求,寒武纪称,用户还可以通过多核互联进一步提高处理效能。

寒武纪 1M 处理器延续了前两代 IP 产品(1H/1A)的完备性,可支持 CNN、RNN、SOM 等多种深度学习模型,此次又进一步支持了 SVM、k-NN、k-Means、决策树等经典机器学习算法的加速。这款芯片支持帮助终端设备进行本地训练,可为视觉、语音、自然语言处理等任务提供高效计算平台。「这意味着使用 1M 的设备可以根据用户行为对应用进行个性化定制,」陈天石表示。「本地训练同时也解决了用户数据隐私的问题。它是全球第一款支持本地机器学习训练的智能处理器产品。」据悉,该产品可应用于智能手机、智能音箱、摄像头、自动驾驶等不同领域。

首款云端智能芯片:MLU 100

在去年 11 月份的发布会上,陈天石展示了服务器级 AI 处理器 MLU 系列的发展计划,寒武纪希望将自己的产品从神经网络加速拓展到机器学习,以及更多任务中。本次发布的又一大重点就是首次亮相的 Cambricon MLU 100 云端 AI 芯片,以及以此为基础的云端智能处理计算卡。「在三年前,我们就开始了两颗测试芯片的研发了。我们时刻准备着将自己的产品放入云端。」陈天石表示。今天推出的产品正是寒武纪稳步推进的成果。

MLU100 采用寒武纪最新的 MLUv01 架构和 TSMC 16nm 工艺,可工作在平衡模式(主频 1Ghz)和高性能模式(1.3GHz)主频下,等效理论峰值速度则分别可以达到 128 万亿次定点运算/166.4 万亿次定点运算,而其功耗为 80w/110w。与寒武纪系列的终端处理器相同,MLU100 云端芯片具有很高的通用性,可支持各类深度学习和常用机器学习算法。可满足计算机视觉、语音、自然语言处理和数据挖掘等多种云处理任务。搭载这款芯片的板卡使用了 PCIe 接口。

在发布会上,寒武纪的合作伙伴们展示了基于寒武纪芯片的部分应用方案。其中联想推出了基于 Cambricon MLU100 的服务器 ThinkSystem SR650。该产品为 2U2 路机架式规格,支持两个 MLU100 智能处理器计算卡。这款服务器打破了 37 项服务器基准测试的世界纪录。

中科曙光也在发布会上推出了基于 Cambricon MLU100 的服务器产品系列「PHANERON」。这款服务器可支持 2-10 块寒武纪 MLU 处理卡,面向多种智能应用任务。其中 PHANERON-10 集成了 10 块寒武纪人工智能处理单元,可以为人工智能训练应用提供 832T 半精度浮点运算能力,在推理时提供 1.66P 整数运算能力。中科曙光表示,新一代服务器可以在典型场景下将能效提升 30 倍以上。

科大讯飞也在发布会上披露了与寒武纪的深度合作研发项目。

正如 MLU 的系列命名所示,寒武纪希望把旗下芯片的应用范围由神经网络(Neural network)扩展到机器学习(Machine Learning)的加速任务上。由于 IP 授权的方式利润空间有限,进军云端市场或许是寒武纪作为新一代芯片公司发展的必然道路。

寒武纪表示,旗下的终端和云端产品均原生支持寒武纪 NeuWare 软件工具链,可以方便用户进行智能应用的开发、迁移和调优。陈天石表示,寒武纪科技创立的初衷就是要让全世界都能用上智能处理器。寒武纪本次提出了「端云协作」的理念,这次发布的 MLU100 芯片可以和此前寒武纪 1A/1H/1M 系列终端处理器进行适配,协同完成复杂的智能处理任务。

至此,寒武纪已经形成了覆盖智能终端设备、自动驾驶以及云端服务器的 AI 智能芯片 IP 产品线。「寒武纪未来计划发布自己的编程语言,」陈天石说道,「我们希望自己的合作伙伴能够基于这套软件系统发布自己的产品。」

机器之心专访了寒武纪科技的创始人和 CEO 陈天石,他就一些我们感兴趣的话题进行了解答。

机器之心:相对市场上已有的同类芯片,新的产品(MLU100)在设计上具备哪些优势?

陈天石:MLU100 是寒武纪公司长期积累的成果,基于 Cambricon 指令集,在机器学习领域适用面广。而且得益于寒武纪在微结构方面的创新,达到了最高每秒 166.4 万亿次定点运算的峰值。

机器之心:针对新一代芯片,寒武纪是否会推出相关软件 API,和完整的解决方案?

陈天石寒武纪公司从 2016 年起,逐步推出了寒武纪 NeuWare 软件工具链,实现对 tensorflow、caffe 和 mxnet 的 API 兼容,并同时提供了寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。目前,由于寒武纪在终端的广泛应用,已经有不少客户在寒武纪 NeuWare 之上构建了他们的应用。

机器之心:有关产品定位的问题,您认为新的芯片会对目前已有的市场产生冲击,还是会开拓出新的市场?直接对标的同类产品是什么?

陈天石寒武纪相信智能是一个快速增长的市场,我们愿意和全世界的同行实现合作共赢。

机器之心:寒武纪在 2018 年选择了「由端入云」的发展方向,是出于什么样的思考?以及如何看待云端计算的发展趋势?

陈天石:端侧的智能处理是非常重要的,因为端可以最快速的响应用户的需求,能以非常低的功耗、非常低的成本、非常小的延迟,帮助用户理解图像、视频、语音和文本。但是,云侧的智能处理可以把很多端的信息汇聚在一起。比如,在一个城市中有大量的摄像头,如果想要知道一个特定的物体在多个摄像头间的运动轨迹,就需要在云侧进行智能处理。

另外,终端的数据量有限,只能根据单个用户的数据对机器学习模型进行微调。而云可以看到大量用户的数据。因此,云端的智能处理在数据方面有其不可替代的巨大优势,可以利用海量数据,训练出非常强大的模型。

机器之心:寒武纪的产品线更新战略是什么样的,多久推出一代新的芯片?

陈天石:寒武纪公司有着一支高效、执行力强的研发队伍,以及一个稳定的技术路线图,会以较快的速度不断推出新的产品满足市场的需求。寒武纪 2017 年 11 月发布终端 IP 产品 1A 和 1H 的时候,就预告了今年 5 月份的新 IP 产品 1M,和云端 MLU100 芯片。

机器之心:我们能否期待下一代消费级 NPU 的消息?

陈天石:我们通常不称自己是 NPU,因为 Neural Processing Unit 把应用面限定在神经网络上。事实上,寒武纪做的是 MLU(Machine Learning Unit),各种机器学习算法(包括神经网络深度学习,也包括多种传统机器学习算法)都能很好地支持。在终端,寒武纪这次发布了 IP 产品 1M,前所未有的具备本地的训练能力,这给终端用户个性化、定制化、适配化的智能服务提供了应借鉴支撑。1M 的 PPA 也有很大的进步,可以达到 5Tops/W。

机器之心:寒武纪的新一代芯片(MLU 100)在推出之后将与哪些公司展开合作?

陈天石:这次发布会上,曙光和联想都推出了基于寒武纪的云服务器新产品。我们也在深入同各大云计算企业深入合作。

]]> 原文: https://ift.tt/2jruZ8v
RSS Feed

机器知心

IFTTT

2018年5月2日星期三

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...