2017年11月6日星期一

华为AI芯片+微软研发=第一款移动端离线推理神经网络

10 月下旬,华为的 NPU AI 专用处理单元和 HiAI 移动计算平台亮相华为上海发布会,引起了诸多关注。在发布会上,余承东通过微软为华为开发的 Microsoft Translator 的 AI 离线翻译功能介绍了人工智能专用芯片 NPU 与 HiAI 移动计算平台。随后,我们与微软全球技术院士黄学东进行了对话,仔细聊了聊这款包含了世界上第一个能够在智能设备上进行离线推理的自然语言处理神经网络的应用的诞生始末


作者:邱陆陆




Microsoft Translator 是一款部署在 iOS 和 Android 平台上的应用,支持包括英文、中文等在内的超过 60 种语言的互译。


其翻译模式按照输入类别可以分为三种,分别是文本翻译(text)、图像翻译(photo)和语音翻译(voice)。其中图像翻译是借助 OCR 技术,读取出图片内的文本然后进行翻译,语音翻译则借助了语音识别技术。


按照翻译所用的模型类别,则可以分为在线的 NMT 模式和离线的 SMT 模式。


NMT 指神经机器翻译,是以神经网络为基础,以句子为单位进行整体翻译的方法,是当下的最佳模型(state-of-the-art model),然而神经网络模型通常规模庞大,需要大量计算资源,因此只能部署在云端。

SMT 以词和短语为单位进行翻译,是 NMT 出现前的上一代最佳模型,主要依赖于对大量语料进行统计找出规律,SMT 模型相比于 NMT 模型规模较小,能够保存在本地,以 Microsoft Translator 的 iOS 版本为例,一个简体中文离线包的大小是 205MB。


而为华为特别开发的这一款 Microsoft Translator 的特别之处就在于,其文本翻译和图像翻译模式均采用了离线的神经机器翻译模型。


这一原先仅仅能通过微软 Cognitive Services API 调用的,部署在微软云上的神经机器翻译系统,采用了惯用的多层 LSTM 编码器、注意力(attention)算法和解码器组成的系统。


图:LSTM 编码器 + 注意力模型 + 解码器系统演示


这类复杂的神经网络通常带有数以百万计的参数,每次解码过程需要进行大量的运算,通常都会以云端的 CPU 或 GPU 进行。例如,谷歌翻译利用 GPU 进行推理,有道翻译利用 CPU 进行。而开发一款神经机器翻译系统最大的障碍之一就是推理速度。谷歌和有道的工程师都曾表示,开发的初期阶段,模型虽然准确率很高,但翻译一句话需要 10 秒钟甚至更多。这使得系统完全达不到「可用」的标准。工程师们投入了大量的精力对模型做不影响效果前提下的修改和简化,才让部署在云端处理器上的系统变得可用。而这一次,微软的工程师直接将这个原本难倒了大型 CPU 和 GPU 的模型放在了移动端芯片里。


微软将模型中最耗费计算资源的 LSTM 编码器用深层前馈神经网络(deep feed-forward neural network)替代,转换为大量低运算难度的可并行计算,充分利用华为 NPU 能够进行大规模并行计算的特点,让 NPU 在神经网络的每一层中同时计算神经元的原始输出和经过 ReLU 激活函数的非线性输出,由于 NPU 有充足的高速存储空间,这些计算可以免受 CPU 与 NPU 间数据交换的延迟,直接并行得到结果。


图:替代后的翻译模型


搭载于最新的 Mate 10 系列上的麒麟 970 芯片及其内置的 AI 专用处理单元 NPU,是华为第一次在移动设备的层面上把机器学习硬件计算加速能力叠加进芯片中去,也让 Mate 10 成为全世界的消费者拿到的第一款有专用于进行人工智能方面计算的处理单元的手机。


黄学东表示,从手机 CPU 到 NPU 有接近 300% 的计算加速,正是这个加速让神经网络在终端设备上的离线推理越过了阈值,从不可能变成可能。


以前在 CPU 时代,离线操作就要承受巨大的性能损失,而在线服务就无法脱离开对网络的依赖。尤其是翻译这样一项服务,很多应用场景都并没有稳定的网络支持,是需要有强大的离线功能存在的。而华为手机的用户大多为商务人士,很多应用场景都在国外,网络条件并不能得到保障,离线功能可以说是必不可少。


因此微软的工程师联合华为的工程师,对现有的神经翻译模型进行了层数、模型结构、工程实现方法等多方面优化,能够在大幅减小所需运算量的情况下让离线模型效果可以媲美在线模型,「大家应该感觉不出来二者的差距」,黄学东说。同时也研究了如何更好地同时使用 NPU 与 CPU :利用 NPU 完成推理工作,利用 CPU 辅助程序所需的其他操作。


而选择了神经机器翻译作「第一个吃螃蟹的 AI」,则主要是出于两个考量,一是翻译是一个痛点十分明确的需求,二是神经机器翻译模型的简化和提速相比于语音模型更容易。


黄学东十分看好神经网络处理单元在移动端的前景:「未来会有更多手机有神经网络处理单元,例如苹果 iPhone X 需要做面部识别解锁,就一定需要手机具有离线运行深度神经网络的能力。另外 iPhone X 的照相功能中的三维打光,也需要进行大量的计算。未来这样的需求会越来越多,因此专门的处理单元是很必要的。」


而对于微软来说,下一步可能会研发在线与离线相结合的混合系统,能够在网络条件好的时候自动调用性能更好的在线模型,在网络条件不足以支持的时候进行离线推理。这对于微软以 Cognitive Service 为代表的云服务是一个很自然的拓展,增加了终端的适用性。


同时微软的 PowerPoint 实时翻译功能也能够在华为手机上使用,能在演讲中、课堂上提供实时的帮助。演讲者在台上进行演讲的同时,PowerPoint 的自动翻译插件会识别语音、转换为文本,并可以进行超过 60 种语言的同传。台下的每个人都可以在自己的手机上获得自己需要的语言的翻译。」


「我们最终的目标是去掉语言障碍。」黄学东说,「We want to bring people together. 当年我带着美式英文的底子去爱丁堡大学留学,很是为教授的苏格兰口音英语吃了一些苦头。如果现在的爱丁堡大学的教授下载了 Presentation Translator,而每一位留学生的手里有一部华为 Mate 10 手机,他们就不必经受我当年的痛苦了。希望通过这次与华为合作,能够帮助更多用户打破语言障碍。」


最后,让我们通过一组截图感受一下 NPU 与神经网络的强大之处。以下全部截图来自华为 Mate 10 Pro。

主屏界面:


可以看到有文本、图像、语音和对话四种翻译模式,用图标代替文字说明也体现了「消除语言障碍」的目标。



文本翻译模式英翻中:


我们选择了一段机器之心对 Christopher Manning 的专访文章的开篇:


「Deep Learning waves have lapped at the shores of computational linguistics for several years now. but 2015 seems like the year when the full force of the tsunami hit the major Natural Language Processing(NLP) conferences.」Two years ago, Christopher Manning began his speech on ACL2015 this way. 


复制完文档内容后,打开 Microsoft Translator,可以看到屏幕右侧有黏贴快捷方式。



粘贴后不到一秒翻译完成,效果如下:



你可以用全屏模式展示给他人:



或双击复制内容:



或用其他方式分享:



图像翻译模式中翻英:


这里主要测试 OCR 模型的识别能力、准确度,以及翻译速度与精度。


我们截取了一段本文中的内容:



应用在不到一秒的时间里完成了 OCR 文本识别和翻译两项工作。


可以看出,该系统准确翻译了自然语言处理(natural language processing),神经网络(neural network)等专有名词,并能够主动调整句式,将「包括英文、中文在内的超过 60 种语言的互译」翻译为「translation of more than 60 languages, including English, Chinese, etc.」。


图像识别英翻中:


我们采用了两张 Christopher Manning 的演讲幻灯片作为样本:



可以看到幻灯片右下角,连人眼很难看清的标识版权的蝇头小字都被 OCR 捕捉到。



它也能自动区分哪些是专有名词与缩写,采用原文而不翻译。


目前看来,华为 Mate 10 系列上搭载的第一款移动端神经网络应用的效果很棒,相信随着开发者的跟进,我们很快就会看到人工智能芯片驱动的更多 AI 新应用。 


]]> 原文: http://ift.tt/2Aoe3Hh
RSS Feed

机器知心

IFTTT

寒武纪发布机器学习处理器MLU:计划未来三年占领10亿台设备

11 月 6 日下午,寒武纪科技在北京举办了成立以来的首场发布会。在会上,这家知名人工智能芯片公司的创始人陈天石发布了面向视觉领域的寒武纪 1H8、性能更强的寒武纪 1H16,以及面向智能驾驶领域的寒武纪 1M,同时推出了面向开发者的人工智能系统软件 Cambricon NeuWare。最后,陈天石宣布了计划 2018 年推出的机器学习处理器 MLU 系列。


全新的智能处理器 IP


作为国内 AI 芯片的先行者,寒武纪科技的产品早已进入普通用户的手中。10 月 16 日,华为在德国慕尼黑发布了新一代旗舰手机 Mate10 系列,其中搭载了华为海思人工智能芯片麒麟 970。麒麟 970 首次集成了来自中科寒武纪的 NPU(寒武纪 1A 处理器)作为神经网络专用处理单元,同时采用异构计算架构大幅提升了 AI 任务算力。新的计算架构 HiAI 和计算单元对于机器学习任务处理性能(相对于手机 CPU)提升了数十倍,最高可达到传统处理器 25 倍速度,50 倍能效。这种性能提升可以让此前很多无法在移动端使用的机器学习应用走向工程化和实用化。麒麟 970 也成为了全球首款人工智能处理器,这款芯片的出现意味着人工智能技术开始逐渐从理论、工程阶段走向实用化,成为了 AI 产业发展的一个里程碑。


当前的计算机架构中,CPU 负责通用任务计算,面向指令密集和逻辑控制运算;GPU 则是数据密集型,主要面向向量任务的图形处理计算。对于人工智能领域的应用,目前人们面临的主要任务是对于矩阵乘法的运算,这种任务使用 CPU 和 GPU 来做效率并不高。对于一个矩阵乘法,后两种结构需要更多个指令周期来完成。针对这类任务,如果希望能够在最短的时钟周期内完成更多的神经网络模型算子的运算,就需要专门的硬件来参与其中,寒武纪科技提出的 NPU 就是一种前沿方向。


寒武纪科技的产品路线图覆盖终端产品和服务器,在 NPU 实用化之前,该公司在 2016 年推出了寒武纪 1A 处理器(Cambricon-1A),它也成为了全球首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等终端设备,在运行主流智能算法时性能功耗效率大幅超越 CPU 和 GPU。


在发布会上,寒武纪第一次展示了 1A 处理器的全部性能


陈天石表示,「虽然 1A 诞生于 2016 年,但是在今天它仍然是市场上最为强大的神经网络处理器。它支持从上古时代的模型,到现代最新的模型。支持稀疏化神经网络,到半精度处理。」


另外,中科曙光近日宣布推出国内首款搭载寒武纪 AI 芯片的人工智能服务器「Phaneron」。「Phaneron 主要面向深度学习的在线推理业务环境。在线推理业务不同于离线训练,推理不需要密集的计算能力,而是需要及时响应。因此,完成推理服务,需要大量的部署前端加速芯片以实时响应访问请求,对数据迅速作出判断,」中科曙光副总裁沙超群在此前服务器的发布中对此介绍道,「Phaneron 可以在 4U 空间中部署 20 个人工智能前端推理模块,能够为推理提供强大的计算支持。」


在发布会上,陈天石还展示了目前寒武纪的最新智能处理器系列:性能全面超越 1A 的寒武纪 1H16、面向视觉领域的寒武纪 1H8,以及面向智能驾驶领域的寒武纪 1M。「我们希望在不远的将来,国内的智能汽车能够全部用上国产的 AI 处理芯片。」陈天石表示。

寒武纪 1H8

寒武纪 1H16

寒武纪 1M 处理器


寒武纪软件平台 Cambricon Neuware


为了让广大开发者更快获得 AI 智能芯片的计算能力,寒武纪科技开发了完整的软件平台。目前,寒武纪软件栈已经支持 TensorFlow、Caffe 和 MXNet 等深度学习框架。「在未来,寒武纪平台还将推出安卓和苹果系统的软件 API,」陈天石表示,「所有软件层次的研究开发都是由寒武纪自己完成的。」

寒武纪软件栈


寒武纪软件栈兼容主流深度学习框架,允许我们在其上开发稀疏和量化模型。并在其上直接生成寒武纪模型,通过 AI 芯片处理获得更高效率。这款工具目前已支持原生 TensorFlow。


寒武纪软件栈中包含了大量面向开发者的实用工具,「在寒武纪调优工具包上,我们可以给出模型,让系统自动预测优化前后的性能。」陈天石介绍道。


重磅发布机器学习处理器 MLU 系列


寒武纪最为我们所熟知的产品就是神经网络处理器 NPU。但寒武纪的产品线不仅于此,在今天的发布会上,陈天石重磅发布了寒武纪机器学习处理器 MLU 系列,希望将自己的产品从神经网络加速拓展到机器学习,以及更多任务中。新的处理器产品将在未来 18 个月内推出。


陈天石表示,MLU 100 与 MLU 200 高性能芯片都将支持多种机器学习推理和训练任务的加速,前者偏重推理,后者偏重训练。此外,MLU 100 面向中小型服务器,而 MLU200 则面向企业级人工智能研发中心。


今年 8 月份,寒武纪科技获得了价值 1 亿美元的 A 轮融资,该轮投资由国投创业领投,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点(天使轮领投方)、涌铧投资(天使轮投资方)联合投资。在本轮融资过后,这家背靠中科院计算所的创业公司估值已接近 10 亿美元,成为了全球第一家智能芯片领域独角兽公司。


未来,寒武纪科技还将继续与华为、中科曙光等公司合作,进一步开发搭载人工智能专用芯片的计算基础设施,在终端与服务器端共同发展,为人工智能产业提供更强大的算力支持。「我们希望寒武纪能在 3 年后占据中国高性能智能芯片市场 30% 的份额;在 3 年后,让全球有 10 亿台设备集成寒武纪处理器的智能终端。我们现在与国外同行都是在同一个起跑线上的,」陈天石表示,「我们应该携起手来共同塑造中国智能产业全新的生态。」


]]> 原文: http://ift.tt/2zhfnxG
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...