2017年12月8日星期五

海云数据首发图易 AI 能力服务平台新品,图易 6 塑造 AI 能力新物种

12 月 8 日,「新能力,新服务,新共享——海云数据图易 6 暨 AI 能力服务平台新品发布会」于北京奥雅会展中心成功举办,发布推动大数据、人工智能行业落地全新产品——图易 6 和 AI 能力服务平台新品,并宣布行业共享、共赢的实现路径。



「我们向大数据和人工智能在行业中的落地应用再迈出一步。」海云数据创始人、CEO 冯一村在发布会上表示,「图易 6 及 AI 能力服务平台新品将颠覆传统的功能建设模型,在 AI 时代赋予用户业务数据实现高效决策与自我进化的新能力。」


上古资本创始人李汉生、清华大学人工智能专家重点实验室主任朱小燕、Gartner 中国高管合伙人滕伟、微软全渠道事业部 CTO 徐明强、中译语通企业大数据事业部总监于洋、海云远景总经理杨昌龙等创投界、科研界、企业界及行业合作伙伴有关负责人出席了此次发布会并进行演讲,阐述今后与海云数据一起推动大数据、人工智能落地的思路。


图易 6:全新升级新能力再进化


随着大数据与人工智能的爆发,世界科技进入极速进化期,新科技正在从第三产业逐步发展成为整个社会的底层建筑。不仅是中国,全人类都在迈进一个新的时代。


在新时代下,如何利用大数据与人工智能技术,大幅提升数据效率与业务决策,化数据新技术力为业务新能力,化业务新能力为商业新物种,成为各行各业在未来生存下去的关键。


冯一村向与会嘉宾、媒体描绘未来科技景象


为了使用户在新时代下拥有自我进化的新能力并在业务数据中实现高效决策,海云数据以大数据与人工智能技术为中心,构建出全新的图易 AI 能力服务平台。此次发布的图易 6 新品本身即是一个 AI 应用能力服务设计平台,以服务设计为驱动力,将有价值的软件、硬件、数据、算法变为资源,通过自助的个性化定义,将各种能力通过服务赋予端用户,完成用户业务的效率提升和数据决策价值变现。


据介绍,图易 6 的能力组件全程实现了无代码化,用户可根据需求自主构建智能数据处理模型,即自己组合需求模块,实现「傻瓜式」操作。如此一来,用户今后可根据不断增加的业务需求不断更新自己的能力矩阵,就像搭积木一样简单,试错成本极低。


冯一村在发布会上说:「未来的科技世界是融合的。软件、硬件、数据、AI 之间不会再有界线。未来,海云数据将与合作伙伴投入更多的资源到业务能力的创新。」他指出,在新时代下如何产生价值,是每个创业者都应该去思考的一个关键点。在新时代,用户将只会为业务能力买单,而非为功能买单,只有确认新科技可以成为新的盈利与效率能力时,用户才会付费。


因此,冯一村指出,在新能力的实现当中,围绕用户的新能力设计产品,围绕用户新能力设计商业模式是今天创新者必须思考构思的问题。而正是基于此,帮助用户建设新能力,成为海云数据提供新服务的核心。


微软全渠道事业部 CTO 徐明强在发布会上指出,新智能时代各行各业都在面临数字化转型,人工智能将成就每个人、每个组织的不凡。他认为,各行各业未来都需要通过大数据和人工智能技术产生洞察力,实现技术、产品、服务模式的创新,进而提升用户体验。「正如海云数据做的那样,希望携手海云数据为大家创造更好的未来。」他说。


AI+可视分析:更及时更便捷更精准


在发布会现场记者了解到,以图易 6 为核心平台研发的针对城市公共安全、道路交通管理的产品——智警大脑是本次发布会的重点展示产品。


智警大脑聚焦公安业务能力进化,通过将图易 6 中的能力模块与公安业务相结合,在 40 个细分领域内形成了 200 余个行业能力,致力于解决「巡警的危机、刑警的风险和警令的无奈」三大难题。冯一村在发布会现场通过演示,展现了内嵌可视分析与人工智能技术的智警大脑的新能力。


据介绍,智警大脑的一个重大亮点在于增加了人脸识别登录和人工智能语音调度的能力。记者现场看到,当通过人脸识别进入到智警大脑之后,通过机器人作为语音指令的入口,智警大脑可以实现放大缩小地图、调出事故现场视频及周围消防、医院、警力分配情况,并赋予公安高层指挥决策和调度的能力,确保了在事故发生后公安部门能快速反应、快速处理、快速解决。


冯一村演示智警大脑人脸识别登录


冯一村说:「我们可以看到,在智警大脑整个产品设计当中,附近的警力、案发地址、周边卡口、情报分析情况、犯罪嫌疑人的路径、重点嫌疑人的档案等等这些节点,都可以通过一张图、一张网的形式,让业务人员实时看见、实时判断,在海云整个业务场景当中,我们希望所有的指挥中心、情报中心都是智能化的,都是可调度的,可以让所有的语言随时触达,让所有的警令随时触达,让所有情报的信息实时传递到业务场景的人员手中,让所有一线人员都能够根据警情的信息有效调度、有效分析、实现有效的警令。


基于此,海云数据将图易 6 的融合通信及语音识别、机器学习、人脸识别等人工智能技术应用于智警大脑,再加上大数据可视分析技术,实现了公安业务的安全登录、智能语音调度指挥,使公安业务能力得到急速提升。


据了解,早在一年前,海云数据就开始对人工智能进行布局,对后台人工智能技术进行了升级和迭代。目前,海云数据核心产品图易可以为不同的业务系统提供统一的自然语言交互及人脸识别接口,为用户省去业务操作各种中间环节,迅速呈现用户想要的数据分析和关联结果,并辅助做出决策。


在发布会上,清华大学人工智能专家重点实验室主任朱小燕对海云数据将大数据与人工智能完美融合给予了赞赏。她说:「大数据与人工智能相辅相成,利用人工智能技术将数据变为知识,用知识建立一个『大脑』。从海云数据的实践来说,公司真正做到了以技术为支撑,以产品为主导,以场景为关键点,推进了知识的形成和落地。」


清华大学人工智能专家重点实验室主任朱小燕在海云数据发布会上演讲


融合行业力量:打造新共享全赋能利益共同体


在互联网的大潮下,共享经济一直备受追捧,众多企业也在搭建自己的共享平台。自海云数据在 8 月 15 日举办的 AI 战略发布会上提出新共享的理念以来,就一直备受关注。但是,海云数据提出的新共享和目前普遍理解的有着极大的不同。


海云数据的图易 AI 能力服务平台包含用户开放平台、资源平台、赋能平台、能力平台、客户平台、业务平台、资本基金平台和 AI 学习平台。在这个平台,海云数据的技术能力、政府的政策支持、股东的资本能力、合作伙伴的渠道能力、机构的基础研究能力均可以共享,以此共同推动用户能力实现自我进化,具备 AI 技术、资金、渠道赋能的特征。


海云数据硅谷研发中心总经理杨柏在发布会详细讲解 AI 能力服务平台新特性


「我们新共享平台是一个利益共同体,能力共享、市场共享、财力共享,共同掘金 AI 行业市场。」冯一村这样解释新共享的含义。

中译语通企业大数据事业部总监于洋对于海云数据「新共享」很是认可。作为海云数据的合作伙伴,他表示,中译语通在数据可视和多语言技术方面,提供丰富舆情数据和庞大的语料库,各种应用也最终落地海云数据的指挥中心可视分析决策平台、交通指挥决策平台,看好与海云数据的合作。


据悉,按照海云数据的发展目标,到 2021 年,能力服务平台上核心合作伙伴将达到 30 家,AI 平台实现数据自主采集、自主分析,而业务能力单人组建时间不超过 24 小时,每天可同时执行 100 个复杂项目。目前,图易已经在公共安全、交通运输、智慧城市、军民融合等行业形成落地,未来也将围绕这 4 大行业进行深耕布局。


未来 10 至 15 年,人工智能将迎来落地的战略机遇。冯一村在会上表示:我们为合作伙伴描绘了一个共享、共赢的商业架构,也希望大家今后能够在这一平台上不断得到发展壮大。


有行业分析人士认为,海云数据意图通过图易平台,与政府、科研机构、投资机构、产业链合作伙伴无缝连接,并与下游公共安全、交通、智慧城市、军民融合领域用户实现有效对接。这样,多点对多点,通过海云数据的「新共享」建立紧密联系,从而使 AI 能力找到了释放的通道。这种模式把握住了时代跳动的脉搏,是对行业发展引领的一种尝试,新物种也或就此出现。


]]> 原文: http://ift.tt/2B23nkz
RSS Feed

机器知心

IFTTT

2017年12月7日星期四

哈萨比斯首次解读AlphaZero竟被当场diss,然后他起身当面回击

夏乙 假装发自 长滩量子位 出品 | 公众号 QbitAI

有争论才有意思。昨天是机器学习"炼金术",今天则是AlphaZero。

在NIPS大会期间,DeepMind创始人兼CEO哈萨比斯(Demis Hassabis)出席了自己赞助的一个研讨会。在这个活动上,哈萨比斯首次公开解读了他们最新的研究成果AlphaZero

哈萨比斯在演讲中首先提到DeepMind背后的哲学,这家公司奉行的第一性原理。回顾了AlphaGo在此前比赛中的表现,特别是那些具有"独创性"的时刻。

至于最新的AlphaZero,哈萨比斯坦言结果出乎他们预料。DeepMind本来认为手动调整的国际象棋引擎Stockfish已经接近最优解,但没想到AlphaZero还是在24小时之内,通过不断地自我对弈,最终击败了Stockfish。

当然不只是击败了一个国际象棋程序,AlphaZero还横扫了日本将棋程序Shogi,以及刚刚创下佳绩的围棋程序AlphaGo Zero。

在国际象棋比赛中,AlphaZero的棋风,既不像人、也不像电脑。

哈萨比斯介绍说,AlphaZero偏爱远期的局面性弃子,没有子力的概念。AlphaZero会根据当前的局面进行判断,相较而言,如果使用了刚性规则就无法动态调整策略。人类可以向AlphaZero学习国际象棋的战略,而不是战术。

当然,哈萨比斯也没忘了问一句:人类关于国际象棋的知识是不是太有限了?(╭(╯^╰)╮)

说句题外话,关于这次的AlphaZero,固然又给DeepMind挣了脸,但是奇怪之处在于,有关AlphaZero的研究,论文只在arxiv上"草草"发出了事。

既没有发Nature,也没有投会议。甚至DeepMind官方博客、推特等渠道,也没有专门发文提及此事。

这不像DeepMind既有技术,又擅长"炒作"的风格呀……

马库斯当场Diss哈萨比斯

安妮薇,对于DeepMind最新搞出的AlphaZero,有人溢于言表的赞美。当然也有人一万个不爽。

比方,纽约大学的马库斯老师(Gary Marcus)。他是纽约大学心理学和神经科学教授,所涉猎的领域包括人类和动物行为、神经科学、人工智能。马库斯还曾担任Uber AI实验室的负责人(主要他的AI创业公司被Uber收购了)。

哈萨比斯讲完后不久,马库斯登台。他很快指出:DeepMind令人惊叹的结果,仍然依赖于一些人类知识,比方使用了蒙特卡洛树搜索。

接着,他提出一个"理论":认知(Cognition)可以视为三个变量的函数,写成公式就是:Cognition = f (a,k,e)。其中a代表先天算法,k代表先天知识,e代表经验。

"DeepMind已经非常令人信服的表明,即便k值接近于0(zero),也能获得出色的认知表现",马库斯表示。

不过你有没有发现,马库斯实际上用公式写了一个大大的单词:fake

马库斯对于DeepMind以及AlphaGo的主要抨击点在于,哈萨比斯等人的工作,低估了对人类知识和特定领域的需求。

马库斯主张人类拥有先天的知识,而神经网络基本不具备。他认为在特定领域的专长,不等于先天性。他举了几个例子,例如膝跳反射、人脸识别、国际象棋都是特定领域的能力,但先天性方面各自不同。

而通用智能不分领域,有部分是天生的。

马库斯指出,如何认知对象等等能力,可能都是进化所赋予人类的天生能力(当然也有观点说这些都不是天生的)。

"生命不是一场Kaggle竞赛。"

马库斯表示,生命是一场训练集(training set),没有什么是预先准备好的整齐数据,很多情况都无法预测。在这个过程中,每天的挑战都不一样,真正应该重视的是那些可以用在多个挑战领域的知识。

哈萨比斯当面回击

其实马库斯有点看什么都不满意的习惯,之前马库斯还跟LeCun等人公开叫板。只不过这一次,他diss的对象,就坐在台下。

于是最劲爆的一幕出现了。

哈萨比斯听完马库斯的一番言论,然后当场起身开始了回击。哈萨比斯表示,DeepMind并不是反对先天知识,他们方法已经远超完美信息博弈的范畴,而且整合了神经科学、认知心理学的原理。

哈萨比斯的回击,这有段视频,可以感受一下:

OMT

关于AlphaGo、AlphaZero的争论,让量子位想起不久前看到的一篇论文。论文的题目是AlphaGo祛魅:Demystifying AlphaGo Zero as AlphaGo GAN

这篇论文的作者是南京东南大学的几位学者:

  • 董晓,副教授,影像科学与技术系
  • 伍家松,讲师,影像科学与技术系
  • 周玲,副教授,计算机工程系

他们在这篇论文中指出:

AlphaGo Zero的惊人成功,在全球范围内引发了对人类社会未来的讨论,期间夹杂着希望、焦虑、兴奋和恐惧混合的情绪。我们尝试对AlphaGo Zero去魅,通过定性分析表明AlphaGo Zero可以被理解为特定结构的GAN(生成对抗网络),这个系统本应具有良好的收敛性。因此,我们认为AlphaGo Zero的成功,可能不是新一代AI的标志。可能影响AlphaGo Zero性能的因素包括:1、围棋的固有属性;2、AlphaGo Zero的结构(基于ResNet的价值和策略网络,MCTS和强化学习)。这篇论文中,我们通过指出AlphaGo Zero可以被理解为一个具有良好收敛预期的特殊GAN,来试图定性的回答这个问题。

如果你对这篇论文感兴趣,可以在量子位微信公众号后台回复:"祛魅"两个字,就能获得相关的下载地址。

文中的现场图文、视频来自推特账号:@thinkmariya、@willknight等。

—完—

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2BV73Co
RSS Feed

RSS5

IFTTT

哈萨比斯首次解读AlphaZero竟被当场diss,然后他起身当面回击

夏乙 假装发自 长滩量子位 出品 | 公众号 QbitAI

有争论才有意思。昨天是机器学习"炼金术",今天则是AlphaZero。

在NIPS大会期间,DeepMind创始人兼CEO哈萨比斯(Demis Hassabis)出席了自己赞助的一个研讨会。在这个活动上,哈萨比斯首次公开解读了他们最新的研究成果AlphaZero

哈萨比斯在演讲中首先提到DeepMind背后的哲学,这家公司奉行的第一性原理。回顾了AlphaGo在此前比赛中的表现,特别是那些具有"独创性"的时刻。

至于最新的AlphaZero,哈萨比斯坦言结果出乎他们预料。DeepMind本来认为手动调整的国际象棋引擎Stockfish已经接近最优解,但没想到AlphaZero还是在24小时之内,通过不断地自我对弈,最终击败了Stockfish。

当然不只是击败了一个国际象棋程序,AlphaZero还横扫了日本将棋程序Shogi,以及刚刚创下佳绩的围棋程序AlphaGo Zero。

在国际象棋比赛中,AlphaZero的棋风,既不像人、也不像电脑。

哈萨比斯介绍说,AlphaZero偏爱远期的局面性弃子,没有子力的概念。AlphaZero会根据当前的局面进行判断,相较而言,如果使用了刚性规则就无法动态调整策略。人类可以向AlphaZero学习国际象棋的战略,而不是战术。

当然,哈萨比斯也没忘了问一句:人类关于国际象棋的知识是不是太有限了?(╭(╯^╰)╮)

说句题外话,关于这次的AlphaZero,固然又给DeepMind挣了脸,但是奇怪之处在于,有关AlphaZero的研究,论文只在arxiv上"草草"发出了事。

既没有发Nature,也没有投会议。甚至DeepMind官方博客、推特等渠道,也没有专门发文提及此事。

这不像DeepMind既有技术,又擅长"炒作"的风格呀……

马库斯当场Diss哈萨比斯

安妮薇,对于DeepMind最新搞出的AlphaZero,有人溢于言表的赞美。当然也有人一万个不爽。

比方,纽约大学的马库斯老师(Gary Marcus)。他是纽约大学心理学和神经科学教授,所涉猎的领域包括人类和动物行为、神经科学、人工智能。马库斯还曾担任Uber AI实验室的负责人(主要他的AI创业公司被Uber收购了)。

哈萨比斯讲完后不久,马库斯登台。他很快指出:DeepMind令人惊叹的结果,仍然依赖于一些人类知识,比方使用了蒙特卡洛树搜索。

接着,他提出一个"理论":认知(Cognition)可以视为三个变量的函数,写成公式就是:Cognition = f (a,k,e)。其中a代表先天算法,k代表先天知识,e代表经验。

"DeepMind已经非常令人信服的表明,即便k值接近于0(zero),也能获得出色的认知表现",马库斯表示。

不过你有没有发现,马库斯实际上用公式写了一个大大的单词:fake

马库斯对于DeepMind以及AlphaGo的主要抨击点在于,哈萨比斯等人的工作,低估了对人类知识和特定领域的需求。

马库斯主张人类拥有先天的知识,而神经网络基本不具备。他认为在特定领域的专长,不等于先天性。他举了几个例子,例如膝跳反射、人脸识别、国际象棋都是特定领域的能力,但先天性方面各自不同。

而通用智能不分领域,有部分是天生的。

马库斯指出,如何认知对象等等能力,可能都是进化所赋予人类的天生能力(当然也有观点说这些都不是天生的)。

"生命不是一场Kaggle竞赛。"

马库斯表示,生命是一场训练集(training set),没有什么是预先准备好的整齐数据,很多情况都无法预测。在这个过程中,每天的挑战都不一样,真正应该重视的是那些可以用在多个挑战领域的知识。

哈萨比斯当面回击

其实马库斯有点看什么都不满意的习惯,之前马库斯还跟LeCun等人公开叫板。只不过这一次,他diss的对象,就坐在台下。

于是最劲爆的一幕出现了。

哈萨比斯听完马库斯的一番言论,然后当场起身开始了回击。哈萨比斯表示,DeepMind并不是反对先天知识,他们方法已经远超完美信息博弈的范畴,而且整合了神经科学、认知心理学的原理。

哈萨比斯的回击,这有段视频,可以感受一下:

OMT

关于AlphaGo、AlphaZero的争论,让量子位想起不久前看到的一篇论文。论文的题目是AlphaGo祛魅:Demystifying AlphaGo Zero as AlphaGo GAN

这篇论文的作者是南京东南大学的几位学者:

  • 董晓,副教授,影像科学与技术系
  • 伍家松,讲师,影像科学与技术系
  • 周玲,副教授,计算机工程系

他们在这篇论文中指出:

AlphaGo Zero的惊人成功,在全球范围内引发了对人类社会未来的讨论,期间夹杂着希望、焦虑、兴奋和恐惧混合的情绪。我们尝试对AlphaGo Zero去魅,通过定性分析表明AlphaGo Zero可以被理解为特定结构的GAN(生成对抗网络),这个系统本应具有良好的收敛性。因此,我们认为AlphaGo Zero的成功,可能不是新一代AI的标志。可能影响AlphaGo Zero性能的因素包括:1、围棋的固有属性;2、AlphaGo Zero的结构(基于ResNet的价值和策略网络,MCTS和强化学习)。这篇论文中,我们通过指出AlphaGo Zero可以被理解为一个具有良好收敛预期的特殊GAN,来试图定性的回答这个问题。

如果你对这篇论文感兴趣,可以在量子位微信公众号后台回复:"祛魅"两个字,就能获得相关的下载地址。

文中的现场图文、视频来自推特账号:@thinkmariya、@willknight等。

—完—

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2BV73Co
RSS Feed

RSS5

IFTTT

英伟达发布新一代旗舰显卡Titan V:Volta架构,售价3000美元

人们期待已久的 Volta 架构 Geforce 显卡终于出现了。在今天 NIPS 2017 大会的活动中,英伟达 CEO 黄仁勋发布了最新一代 Titan 显卡 Titan V,售价 3000 美元。NVIDIA Titan V 集成了英伟达最新一代 GPU 技术,采用 Volta GPU 架构 GV100,制程进入 12nm,同时拥有 12 GB 的 HBM2 显存。




Nvidia Titan V 宣传短片


英伟达 CEO 黄仁勋在 NIPS 上发布最新产品 TITAN V,这是第一块集成了 HBM2 显存的 Titan 显卡,也是第一个集成了 HBM2 显存的英伟达消费级显卡产品线(Quadro/Tesla 未计入)。该产品适合科学场景中的计算处理。其 211 亿个晶体管可传输 110 Teraflops,是上一代性能的 9 倍(上一代产品 Titan Xp 为 12Teraflops),非常节能。




新显卡功耗和 Titan Xp 持平,仍为 250W,采用了和 Geforce 10 系列相同的冷却解决方案。

在活动现场,黄仁勋宣布 Titan V 的售价为 3000 美元,这一价格远超上一代 Titan Xp 的 1200 美元。


「我们对 Volta 的愿景是扩展计算和 AI 的边界。我们的新处理器架构、说明、数字格式、内存架构和处理器链路都实现了创新。在 TITAN V 的帮助下,我们可以帮助全世界的研究者和科学家使用 Volta。」黄仁勋如是说。


英伟达的超算 GPU 架构


TITAN V 的 Volta 架构重点重新设计了 GPU 的核心单元,流式多处理器(streaming multiprocessor)。它比上一代 Passcal 架构的能源效率高了一倍,且在相同功率的情况下实现了性能的大幅度提升。




专为深度学习设计的新型 Tensor Cores 提供了高达 9 倍峰值的 Teraflops。借助独立的并行整数和浮点数据路径,Volta 同样在混合了计算和寻址运算的工作负载上效率更高。该架构结合了 L1 数据缓存和共享内存单元在简化编程的情况下显著地提升了性能。


TITANT V 采用了针对英伟达定制的新型 TSMC 12 纳米 FFN 高性能制造工艺,它还采用了 Volta 高度调优的 12GB HBM2 内存系统,因而能充分利用内存的带宽。




在 NIPS 的活动中,英伟达不仅发布了新显卡及其部分参数,还现场抽奖赠送了参会者 20 块 Titan V。


]]> 原文: http://ift.tt/2AnJdlC
RSS Feed

机器知心

IFTTT

NIPS 2017 经典论文奖获得者机器学习「炼金术」说引热议,LeCun发起反驳

去年的 NIPS 曾因 GAN 引发了一场风波,而今年的 NIPS 同样有着不同思想的碰撞,而这场机器学习「炼金术」讨论竟是从大会颁奖典礼上开始的。


谷歌研究员,MIT 博士 Ali Rahimi 获得了今年 NIPS Test of Time 大奖,他在颁奖时上做了一番演讲,主要介绍之前的研究成果,他在演讲中还打了个比方「机器学习是炼金术」,但这一言论遭到了 Yann LeCun 的反驳。在这篇文章中我们将看到不同思想的碰撞。


Ali Rahimi 的完整演讲视频


Ali Rahimi 在演讲中说道:


「吴恩达曾说过,机器学习就像是新时代的电力。我却认为,机器学习正在变成新时代的炼金术。炼金术本身并不坏,它引出了冶金、纺织、玻璃制造,也推动了人类医疗科技的发展;但与此同时,炼金术师还用水蛭来给人治病,希望让其他金属变成金子。」


「对于 18 世纪的物理学和化学而言,想要理解宇宙的法则,科学家们需要努力抵抗有两千年历史的炼金术的不利影响。」


「现在,如果我们想要做一个图片分享系统,『炼金术』是可以奏效的。但我们的需求早已不止这些了。我们正在试图构建基于人工智能的医疗服务系统、对话系统,我们的机器学习系统甚至影响了大选结果。我希望我所生活的世界是基于非常稳固、有规律的、理论性的知识之上的——而不是炼金术之上。」


「过去 NIPS 大会上经常出现的『学术警察』在哪里?我非常怀念他们。」


……


「我们现在是这样构建新知识的:我们应用最好的工具,简单地分析自己做的设置,我们学习现象,然后在自己不理解背后原理的情况下完成了研究。就这么完成了。」


Yann LeCun 对此番言论表示道:


Ali Rahimi 在 NIPS 上的演讲很好,很有意思,但是我不同意他的观点。他的主要观点是机器学习的当前实践就像「炼金术」(alchemy)。


这种观点具有侮辱性,而且也是错误的!


Ali 抱怨当前机器学习尤其是深度学习使用的很多方法缺少(理论)理解。(理论或其他方面的)理解当然重要。这正是我们很多人参加 NIPS 大会的目的。但另一个重要目标是发明新方法、新技术和新技巧。


在科技发展史上,工程的发展几乎总是先于理论理解:镜头和望远镜的发展早于光学理论、蒸汽机的发展超越热动力学、飞机的发展快于空气力学、无线电和数据通信的发展快于信息理论、计算机的发展早于计算机科学。


原因何在?因为理论家本能地研究「简单的」现象,不主动研究复杂现象,除非它具备很重要的实践意义。


仅仅因为理论没有追赶上实践的水平,就批评整个机器学习社区使用「炼金术」,这种言论是危险的。


为什么危险?正是这种态度使机器学习社区放弃神经网络 10 年有余,尽管大量实证研究证明神经网络在很多情况下非常有效。


之前,神经网络和非凸损失函数不确保一定会收敛,不过它们在实践中是奏效的(和现在一样)。但是人们就这样不分良莠地将它舍弃,转而专注于「可证明」的凸方法或「被夸大的」模板匹配方法(甚至 1957 年的随机特征方法)。


坚持一套方法仅仅因为它的理论比较充分,并因此忽视另一套实践效果更好的方法,仅仅因为缺乏理论理解,这种做法何异于缘木求鱼(原文:就像你在街灯下找丢失的车钥匙,虽然心里明明知道丢钥匙的地方并不在这)。


是的,我们需要更好地理解方法。但是正确的态度是尝试改变现状,而不是因为现状没有得到改变而去侮辱整个社区。


我组织和参加过很多深度学习研究者和理论家参与的 workshop,有些 workshop 由 IPAM 举办。作为 IPAM 科学顾问委员会的一员,我的使命就是使深度学习获得数学社区的注意。事实上,我作为联合组织者组织了一场将于 2018 年 2 月举办的 workshop(http://ift.tt/2jsJSYf


如果你不满意我们对你们日常使用方法的理解,那么就去改变它:研究深度学习理论,而不是抱怨别人不去做这件事,也不是认为如果仅使用「理论正确」的方法,NIPS 会变得更好。并不是这样。


Ali Rahimi 的回复:


Yann,感谢你的理智回应。「If you don't like what's happening, fix it」正是 Moritz Hardt 一年前告诉我的话。仅靠一个小群体是很难做出重大成果的,说实话,我已经被这个任务的巨大规模所淹没而不知所措。我这次演讲的目的就是请求他人的帮助。


我认为问题并不在于理论,而在于教育。我呼吁的是简单的理论和简单的实验,从而让所有人能无障碍地交流各自的见解。你很擅长构建深度学习模型,是因为你运行实验的经验比多数人都丰富。想象一下新手的困惑处境吧。我们做的事情的确看起来像魔法,因为我们并不讨论技术细节,而是模型整体。入门的过程太神秘了。


我同意炼金术式的方法很重要,正是它们使我们加快速度。这些方法解决了很多紧迫的问题。

我很尊重那些能快速在大脑中构建直觉和可行系统的人。你和我在谷歌的大多数同事都具备这种能力,但你们只是少数。


我希望你们传授一些技术细节,帮助我们也能达到你们级别的生产能力。而这就需要:简单的实验,简单的理论。


Yan LeCun 的回复:


简单而通用的理论当然很好。


热力学理论告诉我们不要浪费时间寻找拥有 100% 效率的热机或者永动机。


机器学习中也已经有这样适用于所有学习机器包括神经网络的理论(例如,VC theory consistency/capacity、没有免费午餐定理等)。


但我们很可能不会有具体到神经网络的「简单」理论,就像纳维-斯托克斯方程和三体问题也没有解析解。


虽然目前机器学习的部分工具还存在「黑箱」区域,但这项技术毫无疑问正处在越来越快的发展过程中,正如 Ali Rahimi 在演讲中所说的,希望随着人们的努力,我们能够最终将「炼金术」转化为真正的「电力」。

]]> 原文: http://ift.tt/2AFTI2D
RSS Feed

机器知心

IFTTT

阿里 NIPS 2017 Workshop 论文:基于 TensorFlow 的深度模型训练 GPU 显存优化

NIPS 2017 在美国长滩举办,场面非常热烈。阿里巴巴一篇介绍深度模型训练 GPU 显存优化的论文《Training Deeper Models by GPU Memory Optimization on TensorFlow》将在 NIPS 2017 ML Systems Workshop 中做口头报告。这篇论文聚焦特征图,提出两种方法减少深度神经网络训练过程中的显存消耗,并且把这些方法的实现无缝整合到 TensorFlow 中,克服了 TensorFlow 训练大模型时无法有效优化显存的缺点。


近期深度学习在不同应用中发挥的作用越来越重要。训练深度学习模型的必要逻辑包括适合 GPU 的并行线性代数计算。但是,由于物理限制,GPU 的设备内存(即显存)通常比主机内存小。最新的高端 NVIDIA GPU P100 具备 12–16 GB 的显存,而一个 CPU 服务器有 128GB 的主机内存。然而,深度学习模型的趋势是「更深更宽」的架构。例如,ResNet [6] 包含多达 1001 个神经元层,神经网络机器翻译(NMT)模型包含 8 个使用注意力机制的层 [7][8],且 NMT 模型中的大部分的单个层是按顺序水平循环展开的,难以避免地带来大量显存消耗。


简言之,有限的 GPU 显存与不断增长的模型复杂度之间的差距使显存优化成为必然。下面将介绍深度学习训练流程中 GPU 显存使用的主要组成。


特征图(feature map)。对于深度学习模型,特征图是一个层在前向传输中生成的中间输出结果,且在后向传输的梯度计算中作为输入。图 1 是 ResNet-50 在 ImageNet 数据集上进行一次小批量训练迭代的 GPU 显存占用曲线。随着特征图的不断累积,曲线到达最高点。特征图的大小通常由批尺寸(batch size)和模型架构决定(如 CNN 架构的卷积步幅大小、输出通道数量;RNN 架构的门数量、时间步长和隐层大小)。不再需要作为输入的特征图占用的显存将会被释放,导致图 1 中显存占用曲线的下降。对于复杂的模型训练,用户必须通过调整批尺寸,甚至重新设计模型架构来避免「内存不足」的问题。尽管在分布式训练的情况下 [9],训练任务可以分配到多个设备上来缓解内存不足的问题,但是这也导致了额外的通信开销。设备的带宽限制也可能显著拖慢训练过程。



图 1:ResNet-50 的显存占用在一个训练步中的变化曲线。横轴代表分配/释放次数,纵轴代表当前显存占用的总比特数。


权重。与特征图相比,权重占用内存相对较少 [11]。在这篇论文中,权重作为 GPU 内存中的持久内存,只有整个训练任务完成后才可以被释放。


临时显存(Temporary memory)。一些算法(如基于 Fast-Fourier-Transform(FFT)的卷积算法)需要大量的额外显存。这些显存占用是暂时的,在计算结束后立即得到释放。临时显存的大小可以通过在 GPU 软件库(如 cuDNN)中列举每个算法来自动调整,因此可以被忽略。


很明显,特征图是 GPU 显存使用的主要组成部分。论文作者聚焦特征图,提出了两种方法来解决 GPU 显存限制问题,即通用的「swap-out/in」方法以及适用于 Seq2Seq 模型的内存高效注意力层。所有这些优化都基于 TensorFlow [13]。TensorFlow 具备内置内存分配器,实现了「best-fit with coalescing」的算法。该分配器旨在通过 coalescing 支持碎片整理(de-fragmentation)。但是,它的内置内存管理策略未考虑大模型训练时的显存优化。


该论文的贡献如下。聚焦于特征图,提出两种方法减少深度神经网络训练过程中的 GPU 显存消耗。基于数据流图的「swap-out/in」方法使用主机内存作为更大的内存池,从而放宽 GPU 显存上限的限制;而内存高效的注意力层可用来优化显存消耗量大的 Seq2Seq 模型。这些方法的实现被无缝整合到 TensorFlow 中,且可透明地应用于所有模型,无需对现有模型架构的描述作任何改变。


论文: Training Deeper Models by GPU Memory Optimization on TensorFlow

 

作者:孟晨、孙敏敏、杨军、邱明辉、顾扬




论文地址:http://ift.tt/2jtV9rw


摘要:随着大数据时代的到来、GPGPU 的获取成本降低以及神经网络建模技术的进步,在 GPU 上训练深度学习模型变得越来越流行。然而,由于深度学习模型的内在复杂性和现代 GPU 的显存资源限制,训练深度模型仍然是一个困难的任务,尤其是当模型大小对于单个 GPU 而言太大的时候。在这篇论文中,我们提出了一种基于通用数据流图的 GPU 显存优化策略,即「swap-out/in」,将主机内存当做一个更大的内存池来克服 GPU 的内存限制。同时,为了优化内存消耗大的 Seq2Seq 模型,我们还提出了专用的优化策略。我们将这些策略无缝整合到 TensorFlow 中,且优化不会造成准确率的损失。我们在大量的实验中观察到了显著的显存使用降低。给定一个固定的模型和系统配置,最大训练批尺寸可以增加 2 到 30 倍。



图 2:引用计数(reference count)。



图 3:swap out/in 优化的原子操作(Atomic operation)。删除从节点 e 到节点 b 的引用边,并添加了红色和蓝色的节点和边。



图 4:注意力操作(Attention operation)优化。d 指梯度。图左未经优化,图右经过了显存优化。



表 1:对 swap out/in 的评估。GPU 的显存上限是 12GB。



表 2:对显存高效序列模型的评估。

]]> 原文: http://ift.tt/2AGWLYs
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...