2017年12月4日星期一

“不正经”NIPS大会指北:嘻哈歌手、感人长队(以及最佳论文)

夏乙 问耕 假装发自加州量子位 出品 | 公众号 QbitAI

这几天,AI圈人士纷纷前往洛杉矶附近风景宜人的长滩。

他们在这里排长队、晒太阳、看大海、听嘻哈、谈穿着,以及……顺便参加NIPS 2017。

我们不一样

神经信息处理系统大会,简称NIPS,是机器学习领域的顶级会议。

斯坦福不久前发布的AI Index报告说,NIPS目前已经是人工智能领域关注度最高的学术会议,增长速度仅次于新秀ICLR。

今年的NIPS大会在长滩会议中心(Convention Center)举行,参会门票早早地就被抢光,注册人数超过8000人。

据说照这个趋势发展下去,参会人数将超过全人类的总数。(感觉哪里怪怪的)

场面火爆到什么程度呢?第一天就让人热泪盈眶。

那注册的长队,长到让人怀疑人生,长到让友邦人士惊呼crazy,长到得用全景图才能拍下来,比方下面这张:

在室外艰辛的排完队,到门口一看:嚯~室内还得继续排!感人~

注册报到完毕,然后就是畅游在NIPS大会的海洋里了。你以为都是各类正经的不行的高大上分享和讨论?不不不,并不是这样。

还有派对!比方Intel AI组织的这场《Let the Gradient Flo》。这个大爬梯请来了美国著名嘻哈歌手Flo Rida。哟~

(不过这个活动也被@hardmaru 在推特上吐槽,说是AI泡沫的表现。他真的很严格)

现场还有展览区。据说各大企业在现场都支了摊儿,展示自家的科研成果,顺便强势宣讲一波以便招人。其中,IBM这个展区推荐看一下。

这是什么?这是IBM的量子计算机呀~

Dress Code

这么一个大会,怎么穿才不像第一次去的萌新?

上周有个小哥就在reddit上提出这个问题,在线等,挺急的……"热心"网友们,纷纷站出来出谋划策。量子位摘录如下:

穿西装、打领带有点不合适,只要不是穿得特别正式都应该可以。期待看到很多人穿牛仔裤和T恤,以及短袖衬衫、卡其裤。温馨提示,别穿印着"My NIPS are NP-Hard"字样的T恤去参会。

上面讲的这个T恤,讲真是2015年的老黄历了。今年的T恤上印的字是:"Yes,We GAN"。

(Goodfellow笑而不语)

当然上面这个回答算是很正经了,随后的讨论歪楼到了奇怪的方向~

只要别露着NIPS,怎么穿都行

这个梗在于,nips通常被美国人民口语里指代咪咪(不是猫那个)。

男士通常以漏点(NIP-slips)的方式穿着比基尼,女士穿和服和瑜伽裤。大家都不穿鞋。如果你是大实验室的研究院,可以在披风上写上过去一年用了多少GPU小时。

所谓NIP-slips,Google一下大概是这样:

还有人给出一个可行性很高的建议:

穿一套白色西装,定叫人过目难忘。

大会论文

最后,谈点正经的。

量子位在9月的报道中已经提到,NIPS 2017共收到3240篇论文投稿,毫不意外这个数字又创了新高。有678篇论文被选中作为大会论文,比例20.9%。

其中有40篇被选中进行口头报告(oral),112篇选为spotlight进行展示。

论文的领域分布,如下所示。

全部论文在这里:NIPS 2017 Proceedings

今天,NIPS还公布了两个奖项,一是最佳论文奖(Best paper awards),另一个是时间检验奖(Test of time award)。

最佳论文奖(共3篇):

Safe and Nested Subgame Solving for Imperfect-Information Games

作者:

Noam Brown,卡耐基梅隆大学计算机科学博士生

Tuomas Sandholm,卡耐基梅隆大学计算机科学教授,Brown的导师

摘要:

在不完美信息博弈中,子博弈的最优策略可能取决于其他未知子博弈的策略。因此,在为子博弈求解时必须将整个博弈视为整体来考虑策略,而不能像完美信息博弈一样孤立地求解。不过,可以先逼近整个博弈的解,然后通过解出单个子博弈来优化它。这叫做子博弈求解(subgame solving)。我们提出了在理论上和实践上都超越前人的子博弈求解技术,并展示了如何调整它们和过去的子博弈求解技术,在对手做出超出原始行为抽象的行为时,进行应对,这显著优于之前最先进的行为翻译(action translation)方法。最后我们表明子博弈求解在博弈沿博弈树进行的过程中可以重复,降低了可利用性。在第一个玩一对一无限注德州扑克击败人类对手的AI冷扑大师(Libratus)中,这些技术是关键的组成部分。

地址:

http://ift.tt/2ArtGzS

Variance-based Regularization with Convex Objectives

作者:

Hongseok Namkoong,斯坦福大学运筹学博士

John C. Duchi,斯坦福大学统计学和电子工程助理教授

摘要:

我们开发了一种风险最小化和随机优化的方法,该方法提供了方差的凸代替项,让近似和估计误差之间能够进行近似最佳且计算上高效的交换。我们的方法建立在分布式健壮优化和欧文经验似然的基础上,还提供了一些有限样本和渐近结果来表示估计的理论性能。我们特别表明,我们的方法带有最右证明,与通过自动平衡偏差和方差来实现经验风险最小化相比,(在某些情况下)能实现更快的收敛速度。有确凿的经验证据表明,我们的估计器在实践中确实会在训练样本的方差和绝对性能之间权衡,对很多分类问题,与标准的经验风险最小化方法相比,提高了样本外(测试)性能。

地址:

http://ift.tt/2AwL1FE

A Linear-Time Kernel Goodness-of-Fit Test

作者:

Wittawat Jitkrittum,伦敦大学学院盖茨比计算神经科学实验室博士生

Wenkai Xu,伦敦大学学院盖茨比计算神经科学实验室博士生

Zoltan Szabo,法国École Polytechnique应用数学中心副教授

Kenji Fukumizu,日本统计数理研究所教授

Arthur Gretton,伦敦大学学院盖茨比计算神经科学实验室教授

摘要:

我们提出了一种测试拟合优度的新方法,计算成本与样本数量线性相关。我们通过最小化假阴性率来学习最能显示观察样本与参考模型之间差异的测试特征。这些特征通过Stein方法构建,这意味着没有必要计算模型的标准化常数。我们分析了新测试的Bahadur渐近效率,证明了在均值漂移的情况下,无论怎样选择测试参数,我们测试的相对效率都比之前的线性时间内核测试更高。在实验中,我们方法的性能超过了之前的线性时间测试,不次于二次时间内核测试。在高维且模型结构可能被利用的情况下,从模型中抽取样本,我们的拟合优度测试明显优于基于最大平均偏差的二次二样本测试。

地址:

http://ift.tt/2ArtIaY

Python代码:

http://ift.tt/2AuxcHH

时间检验奖

今年的时间检验奖颁给了2007年的Random Features for Large-Scale Kernel Machines,作者是英特尔研究院的Ali Rahimi和加州理工的Benjamin Recht。

论文地址:Random Features for Large-Scale Kernel Machines

OMT

Google以及DeepMind等机构,还把各自被NIPS 2017收录的论文进行了整理。量子位这里直接给传送门了~

Google at NIPS 2017

http://ift.tt/2jJ5bnN

DeepMind papers at NIPS 2017

http://ift.tt/2Az2z6m

Facebook showcases latest research at NIPS 2017

http://ift.tt/2jxxHsH

— 完 —

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AsmELw
RSS Feed

RSS5

IFTTT

“不正经”NIPS大会指北:嘻哈歌手、感人长队(以及最佳论文)

夏乙 问耕 假装发自加州量子位 出品 | 公众号 QbitAI

这几天,AI圈人士纷纷前往洛杉矶附近风景宜人的长滩。

他们在这里排长队、晒太阳、看大海、听嘻哈、谈穿着,以及……顺便参加NIPS 2017。

我们不一样

神经信息处理系统大会,简称NIPS,是机器学习领域的顶级会议。

斯坦福不久前发布的AI Index报告说,NIPS目前已经是人工智能领域关注度最高的学术会议,增长速度仅次于新秀ICLR。

今年的NIPS大会在长滩会议中心(Convention Center)举行,参会门票早早地就被抢光,注册人数超过8000人。

据说照这个趋势发展下去,参会人数将超过全人类的总数。(感觉哪里怪怪的)

场面火爆到什么程度呢?第一天就让人热泪盈眶。

那注册的长队,长到让人怀疑人生,长到让友邦人士惊呼crazy,长到得用全景图才能拍下来,比方下面这张:

在室外艰辛的排完队,到门口一看:嚯~室内还得继续排!感人~

注册报到完毕,然后就是畅游在NIPS大会的海洋里了。你以为都是各类正经的不行的高大上分享和讨论?不不不,并不是这样。

还有派对!比方Intel AI组织的这场《Let the Gradient Flo》。这个大爬梯请来了美国著名嘻哈歌手Flo Rida。哟~

(不过这个活动也被@hardmaru 在推特上吐槽,说是AI泡沫的表现。他真的很严格)

现场还有展览区。据说各大企业在现场都支了摊儿,展示自家的科研成果,顺便强势宣讲一波以便招人。其中,IBM这个展区推荐看一下。

这是什么?这是IBM的量子计算机呀~

Dress Code

这么一个大会,怎么穿才不像第一次去的萌新?

上周有个小哥就在reddit上提出这个问题,在线等,挺急的……"热心"网友们,纷纷站出来出谋划策。量子位摘录如下:

穿西装、打领带有点不合适,只要不是穿得特别正式都应该可以。期待看到很多人穿牛仔裤和T恤,以及短袖衬衫、卡其裤。温馨提示,别穿印着"My NIPS are NP-Hard"字样的T恤去参会。

上面讲的这个T恤,讲真是2015年的老黄历了。今年的T恤上印的字是:"Yes,We GAN"。

(Goodfellow笑而不语)

当然上面这个回答算是很正经了,随后的讨论歪楼到了奇怪的方向~

只要别露着NIPS,怎么穿都行

这个梗在于,nips通常被美国人民口语里指代咪咪(不是猫那个)。

男士通常以漏点(NIP-slips)的方式穿着比基尼,女士穿和服和瑜伽裤。大家都不穿鞋。如果你是大实验室的研究院,可以在披风上写上过去一年用了多少GPU小时。

所谓NIP-slips,Google一下大概是这样:

还有人给出一个可行性很高的建议:

穿一套白色西装,定叫人过目难忘。

大会论文

最后,谈点正经的。

量子位在9月的报道中已经提到,NIPS 2017共收到3240篇论文投稿,毫不意外这个数字又创了新高。有678篇论文被选中作为大会论文,比例20.9%。

其中有40篇被选中进行口头报告(oral),112篇选为spotlight进行展示。

论文的领域分布,如下所示。

全部论文在这里:NIPS 2017 Proceedings

今天,NIPS还公布了两个奖项,一是最佳论文奖(Best paper awards),另一个是时间检验奖(Test of time award)。

最佳论文奖(共3篇):

Safe and Nested Subgame Solving for Imperfect-Information Games

作者:

Noam Brown,卡耐基梅隆大学计算机科学博士生

Tuomas Sandholm,卡耐基梅隆大学计算机科学教授,Brown的导师

摘要:

在不完美信息博弈中,子博弈的最优策略可能取决于其他未知子博弈的策略。因此,在为子博弈求解时必须将整个博弈视为整体来考虑策略,而不能像完美信息博弈一样孤立地求解。不过,可以先逼近整个博弈的解,然后通过解出单个子博弈来优化它。这叫做子博弈求解(subgame solving)。我们提出了在理论上和实践上都超越前人的子博弈求解技术,并展示了如何调整它们和过去的子博弈求解技术,在对手做出超出原始行为抽象的行为时,进行应对,这显著优于之前最先进的行为翻译(action translation)方法。最后我们表明子博弈求解在博弈沿博弈树进行的过程中可以重复,降低了可利用性。在第一个玩一对一无限注德州扑克击败人类对手的AI冷扑大师(Libratus)中,这些技术是关键的组成部分。

地址:

http://ift.tt/2ArtGzS

Variance-based Regularization with Convex Objectives

作者:

Hongseok Namkoong,斯坦福大学运筹学博士

John C. Duchi,斯坦福大学统计学和电子工程助理教授

摘要:

我们开发了一种风险最小化和随机优化的方法,该方法提供了方差的凸代替项,让近似和估计误差之间能够进行近似最佳且计算上高效的交换。我们的方法建立在分布式健壮优化和欧文经验似然的基础上,还提供了一些有限样本和渐近结果来表示估计的理论性能。我们特别表明,我们的方法带有最右证明,与通过自动平衡偏差和方差来实现经验风险最小化相比,(在某些情况下)能实现更快的收敛速度。有确凿的经验证据表明,我们的估计器在实践中确实会在训练样本的方差和绝对性能之间权衡,对很多分类问题,与标准的经验风险最小化方法相比,提高了样本外(测试)性能。

地址:

http://ift.tt/2AwL1FE

A Linear-Time Kernel Goodness-of-Fit Test

作者:

Wittawat Jitkrittum,伦敦大学学院盖茨比计算神经科学实验室博士生

Wenkai Xu,伦敦大学学院盖茨比计算神经科学实验室博士生

Zoltan Szabo,法国École Polytechnique应用数学中心副教授

Kenji Fukumizu,日本统计数理研究所教授

Arthur Gretton,伦敦大学学院盖茨比计算神经科学实验室教授

摘要:

我们提出了一种测试拟合优度的新方法,计算成本与样本数量线性相关。我们通过最小化假阴性率来学习最能显示观察样本与参考模型之间差异的测试特征。这些特征通过Stein方法构建,这意味着没有必要计算模型的标准化常数。我们分析了新测试的Bahadur渐近效率,证明了在均值漂移的情况下,无论怎样选择测试参数,我们测试的相对效率都比之前的线性时间内核测试更高。在实验中,我们方法的性能超过了之前的线性时间测试,不次于二次时间内核测试。在高维且模型结构可能被利用的情况下,从模型中抽取样本,我们的拟合优度测试明显优于基于最大平均偏差的二次二样本测试。

地址:

http://ift.tt/2ArtIaY

Python代码:

http://ift.tt/2AuxcHH

时间检验奖

今年的时间检验奖颁给了2007年的Random Features for Large-Scale Kernel Machines,作者是英特尔研究院的Ali Rahimi和加州理工的Benjamin Recht。

论文地址:Random Features for Large-Scale Kernel Machines

OMT

Google以及DeepMind等机构,还把各自被NIPS 2017收录的论文进行了整理。量子位这里直接给传送门了~

Google at NIPS 2017

http://ift.tt/2jJ5bnN

DeepMind papers at NIPS 2017

http://ift.tt/2Az2z6m

Facebook showcases latest research at NIPS 2017

http://ift.tt/2jxxHsH

— 完 —

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AsmELw
RSS Feed

RSS5

IFTTT

中国AI制药领域最大融资,AccutarBio获得IDG和依图科技1500万美元投资

近日,AccutarBio 完成由 IDG 资本和依图科技的联合投资,加上之前真格天使轮投资,总共融资 1500 万美元。这是迄今为止中国 AI 制药领域最大融资之一。


AccutarBio CEO 范捷博士 2004 年获得加州伯克利大学生物统计学硕士,2010 年博士毕业于美国纪念斯隆凯特琳癌症中心医学院,师从美国国家科学院院士 Nikola Pavletich 教授(注:著名结构生物学家、清华大学副校长施一公教授也曾在同一实验室任博士后研究员)。范捷博士于 2010-2015 年在洛克菲勒大学任博士后研究员,博士后合作导师 Gunter Blobel 是 1999 年诺贝尔奖获得者,创立了信号肽学说,目前任拉斯克奖(Lasker Award)评审委员会委员,拉斯克奖也被认为美国的诺贝尔奖,有 86 位拉斯克奖得主也获得过诺贝尔奖。


洛克菲勒大学是个研究型大学、现代细胞生物学发源地之一,先后诞生过 20 多位诺贝尔奖获得者,是生命科学研究顶级学术殿堂。洛克菲勒大学大师聚集的学术环境给范捷博士的科研之路提供了绝佳发展空间,耳濡目染中,范捷博士有幸和多位学术大师合作讨论,形成由科学大局观来指导选择重大科学命题和建立跨学科顶级人才团队来解决问题的方法论。


制药是高风险的行业,特别对于早期投资,尚未进入临床的项目,IDG 合伙人周全领投 AccutarBio, 可以看到中国的顶级投资人开始下注世界级突破性新药创制理念。


AccutarBio 目前已在上海、纽约布局了 AI 计算实验室、生化实验室。在一场全球顶级制药公司的现场测试中,AccutarBio 提出的 3D Molecular 算子和深度化学结构网络 (Accutar ChemiNet)的计算预测比该制药公司采用的现有内部方法在预测准确率上获得了显著的提高。可以预期,相关算法的采用将为该药厂大幅提升制药效率和成功率。


AccutarBio 计划将 Accutar ChemiNet 进一步推广,因为「这是第一次见证了 AI 指导下进行药物开发的新模式,将对传统的基于实验筛选和基于经验的药物开发过程带来革命性变革。」值得一提的是,AccutarBio 和美国顶级药厂的合作代表着中国 AI 制药团队直接进入到顶级的创新制药环节,结束了我国过去主要通过复制、学习他国制药研发技术进行新药研发的历史。


AccutarBio 不仅在探索制药领域的新技术,同时也积极参与最前沿科学研究工作。目前,AccutarBio 和来自哈佛大学、洛克菲勒大学、斯坦福大学等学府的诺贝尔奖得主、美国国家科学院院士、霍华德-休斯研究员(HHMI)等多位全球著名学者保持紧密合作。清华大学医学院基础医学系副系主任李海涛教授表示:「Acctuar 给了我们惊人的结果,在药物和靶点结构预测领域超过世界知名软件的分析结果,对我们的研究工作带来巨大推动。」


作为 AccutarBio 战略投资者,依图科技表示,「跨学科进展信息不对称给技术发展带来很大壁垒。希望我们在 AI 领域的全球领先的认知和成果能够帮助 AccutarBio 在生物学领域带来诺贝尔级的成就。并且通过深入合作,我们相信人工智能将极大改变生物研究、生物制药现状,而与依图医疗在临床应用领域的人工智能研究合作将能为临床应用带来更多深入的价值」。

]]> 原文: http://ift.tt/2AvpXQ4
RSS Feed

机器知心

IFTTT

Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测

近日,Artur Suilin 等人发布了 Kaggle 网站流量时序预测竞赛第一名的详细解决方案。他们不仅公开了所有的实现代码,同时还详细解释了实现的模型与经验。机器之心简要介绍了他们所实现的模型与经验,更详细的代码请查看 GitHub 项目。


GitHub 项目地址:http://ift.tt/2A1ZUTn


下面我们将简要介绍 Artur Suilin 如何修正 GRU 以完成网站流量时序预测竞赛。


预测有两个主要的信息源:

  1. 局部特征。我们看到一个趋势时,希望它会继续(自回归模型)朝这个趋势发展;看到流量峰值时,知道它将逐渐衰减(滑动平均模型);看到假期交通流量增加,就知道以后的假期也会出现流量增加(季节模型)。
  2. 全局特征。如果我们查看自相关(autocorrelation)函数图,就会注意到年与年之间强大的自相关和季节间的自相关。


我决定使用 RNN seq2seq 模型进行预测,原因如下:

  1. RNN 可以作为 ARIMA 模型的自然扩展,但是比 ARIMA 更灵活,更具表达性。
  2. RNN 是非参数的,大大简化了学习。想象一下对 145K 时序使用不同的 ARIMA 参数。
  3. 任何外源性的特征(数值或类别、时间依赖或序列依赖)都可以轻松注入该模型。
  4. seq2seq 天然适合该任务:我们根据先前值(包括先前预测)的联合概率(joint probability)预测下一个值。使用先前预测可保持模型稳定,因为误差会在每一步累积,如果某一步出现极端预测,则有可能毁了所有后续步的预测质量。
  5. 现在的深度学习出现了太多的炒作。

特征工程

RNN 足够强大来发现和学习自身特征。模型的特征列表如下:

  • pageviews:原始值经过 log1p() 的转换得到几乎正态的时序内值分布,而不是偏态分布。
  • agent, country, site:这些特征从网页 url 中提取,然后经过 One-Hot 编码。
  • day of week:捕捉每周的季节效应。
  • year-to-year autocorrelation, quarter-to-quarter autocorrelation:捕捉各年、各季度的季节效应。
  • page popularity:高流量和低流量页面具有不同的流量变化模式,该特征(pageviews 的中间值)帮助捕捉流量规模。pageviews 特征丢失了规模信息,因为每个 pageviews 序列被独立归一化至零均值和单位方差。
  • lagged pageviews:之后将具体介绍。

特征预处理

所有特征(包括 One-Hot 编码的特征)被归一化至零均值和单位方差。每个 pageviews 序列被独立归一化。


时间依赖特征(自相关性、国家等)被「拉伸」至时序长度,即每天重复使用 tf.tile() 命令。


模型在来自初始时序的随机固定长度样本上进行训练。例如,如果初始时序长度是 600 天,我们使用 200 天的样本进行训练,那么我们可以在前 400 天中随意选择开始采样的样本。


该采样工作是一种有效的数据增强机制:训练代码在每一步随机选择每次时序的开始点,生成无限量的几乎不重复的数据。


模型的核心技术

模型主要由两部分组成,即编码器和解码器。

编码器为 cuDNN GRU,cuDNN 要比 TensorFlow 的 RNNCells 快大约 5 到 10 倍,但代价就是使用起来不太方便,且文档也不够完善。


解码器为 TF GRUBlockCell,该 API 封装在 tf.while_loop() 中。循环体内的代码从上一步获得预测,并加入到当前时间步的输入特征中。


处理长时间序列


LSTM/GRU 对于相对较短的序列(100-300 项以内)来说是非常好的解决方案。但对于较长的序列来说,LSTM/GRU 仍然有效,只不过会逐渐遗忘较早时间步所包含的信息。Kaggle 竞赛的时间序列长达 700 多天,所以我们需要找一些方法来「加强」GRU 的记忆力。


我们第一个方法先是考虑使用一些注意力机制。注意力机制可以将过去较长距离的有用信息保留到当前 RNN 单元中。对于我们的问题,最简单高效的注意力方法是使用固定权重的滑动窗口注意力机制。它在较长距离的过去时间步上有两个重要的点(考虑长期的季节性),即 1 年前和 1 个季度前。

我们可以采用 current_day - 365 和 current_day - 90 这两个时间点的编码器输出,并将它们馈送到全连接层以降低维度,并将结果加入到解码器的输入特征中。这个解决方案虽然简单却大大降低了预测误差。


随后我们将重要的点与它们的近邻求均值,并借此减少噪声和补偿不均匀的间隔(闰年和不同长度的月份):attn_365 = 0.25 * day_364 + 0.5 * day_365 + 0.25 * day_366。


但随后我们意识到 0.25、0.5、0.25 是一个一维卷积核(length=3),我们可以自动学习更大的卷积核以检测过去重要的点。


最后,我们构建了一个非常大的注意力机制,它会查看每一个时间序列的「指纹」(指纹由较小的卷积网络产生),并决定应该注意哪些点和为较大卷积核生成权重。这个应用于解码器输出的较大卷积核会为每一个预测的日期生成一个注意力特征。虽然最后没有使用这种方法,但这个注意力机制仍然保留在代码中,读者可以在模型代码中找到它。


注意,我们并没有使用经典的注意力方案(Bahdanau 或 Luong 注意力机制),因为经典的注意力机制应该在每个预测步上使用所有的历史数据点从头开始计算,因此这种方法对于较长时间序列(约两年的天数)来说太耗时间了。所以我们的方案将会对所有数据点进行一次卷积,对所有预测时间步使用相同的注意力权重(这也是缺点),这样的方案计算起来要快很多。


因为我们对注意力机制的复杂度感到不太满意,因此我们试图完全移除注意力机制,并将一年前、半年前、一季度前重要的数据点作为编码器和解码器的附加特征。这样的结果是非常令人惊讶的,甚至在预测质量方面都要比带注意力机制的模型略胜一筹。因此我们最好的公开分数都是仅使用滞后(lagged)数据点实现的,它们都没有使用注意力机制。

滞后数据点另一个重要的优势是,模型可以使用更短的编码器而不需要担心损失过去的信息,因为这些信息现在明确地包含在特征中。在采用这种方法后,即使我们编码器的长度是 60 到 90 天,结果也是完全可以接受的,而以前需要 300-400 天的长度才能获得相同的性能。此外,更短的编码器就等于更快速的训练和更少的信息损失。


损失和正则化


SMAPE(竞赛用的目标损失函数)因其在零值周围不稳定的行为而无法直接使用(当真值为零的时候,损失函数是阶跃函数;预测值也为零的时候,则损失函数不确定)。


我使用经平滑处理的可微 SMAPE 变体,它在所有实数上都表现良好:

  1. epsilon = 0.1

  2. summ = tf.maximum(tf.abs(true) + tf.abs(predicted) + epsilon, 0.5 + epsilon)

  3. smape = tf.abs(predicted - true) / summ * 2.0


另一个选择是在 log1p(data) 上的 MAE 损失函数,它很平滑,且训练目标与 SMAPE 非常接近。


最终预测取最接近的整数,负面预测取零。


我尝试使用论文《Regularizing RNNs by Stabilizing Activations》中经正则化的 RNN 激活值,因为 cuDNN GRU 的内部权重无法直接正则化(也可能是我没有找到正确的方法)。稳性损失(Stability loss)不起作用,激活损失可以为较小损失权重(1e-06..1e-05)带来少许改进。


训练和验证


我使用 COCOB 优化器(详见论文《Training Deep Networks without Learning Rates Through Coin Betting》)结合梯度截断进行训练。COCOB 尝试预测每个训练步的最优学习率,因此我完全不必调整学习率。它的收敛速度也比传统的基于动量的优化器快得多,尤其是在第一个 epoch 上,可以让我及早停止不成功的实验。


有两种方式可以将时序分割为训练和验证数据集:

  1. Walk-forward 分割。这实际上不是分割:我们在完整数据集上训练和验证,但使用不同的时间跨度。验证用的时间跨度比训练用时间跨度前移一个预测间隔。
  2. Side-by-side 分割。这是主流机器学习传统的分割模型。数据集被分割成两个独立的部分,一个用于训练,另一个用于验证。

两种方式我都试了,但对于这个任务来说 Walk-forward 更好,因为它与竞赛目标直接相关:使用历史值预测未来值。但是该分割破坏了时序结尾的数据点,使得训练准确预测未来的模型变得困难。


具体来说:比如,我们有 300 天的历史数据,想预测接下来 100 天的数据。如果我们选择 walk-forward 分割,我们必须使用前 100 天的数据用于真实训练,后面 100 天的数据用于训练模式的预测(运行解码器、计算损失),再后面 100 天的数据用于验证,最后 100 天用于对未来值真正进行预测。因此,我们实际上可以使用 1/3 的数据点来训练,最后一个训练数据点和第一个预测数据点之间隔了 200 天。间隔太大了,因为一旦我们离开某个训练数据,预测质量将出现指数级下降(不确定性增加)。使用 100 天差距训练的模型预测质量相对较好。


Side-by-side 分割所需要的计算力更少,因为它在端点时并不会消耗数据点。但是对于我们的数据,模型在验证集上的性能与在训练集上的性能是强相关的,并且与将来的实际模型性能几乎不具有相关性。换而言之,并行分割对于我们的问题基本上是没有什么作用的,它只是复制了在训练数据集上观察到的模型损失。


我仅使用验证集(带有前向分步分割)进行模型调优,预测未来数值的最终模型只是在盲目的模式中进行训练,没有使用任何验证集。


降低模型方差


优于强噪音数据的输入,模型不可避免地具有高方差。坦白讲,我很惊讶 RNN 居然从噪音数据中学习到了东西。


在不同 seed 上训练的相同模型具有不同的表现,有时模型甚至在「不幸」的 seed 上变得发散。训练期间,表现也会逐步地发生很大波动。依靠纯粹的运气很难赢得比赛,因此我决定采取行动降低方差。

  1. 我不知道哪个训练步骤最适合预测未来(但前数据的验证结果与未来数据的结果只有弱相关关系),所以我不能使用提前停止。但是我知道近似区域,其中模型(可能)进行了充分训练,但(可能)没有开始过拟合。我决定把这个最佳区域设置为 10500 到 11500 次迭代区间内,并且从这个区域的每第 10000 个步骤保存 10 个检查点。
  2. 相似地,我决定在不同的 seed 上训练 3 个模型,并从每个模型中保存检查点。因此我一共有 30 个检查点。
  3. 降低方差、提升模型性能的一个众所周知的方法是 ASGD(SGD 平均)。它很简单,并在 TensorFlow 中得到很好的支持。我们必须在训练期间保持网络权重的移动平均值,并在推断中使用这些平均权重,而不是原来的权重。

三个模型的结合表现不错(在每个检查点上使用平均模型权重的 30 个检查点的平均预测)。我在排行榜上(针对未来数据)获得了相较于历史数据上的验证大致相同的 SMAPE 误差。


理论上讲,你也可以把前两种方法用作集成学习,但我主要用其降低方差。


超参数调节


很多模型参数(层的数量、深度,激活函数,dropout 系数等)能够(并且应该)被调节从而获得更优的模型表现。手动调节乏味且费时,所以我决定自动化该过程,并使用 SMAC3 搜索超参数。下面是 SMAC3 的一些优势:

  • 支持条件参数(例如,为每层联合调节层数和 dropout;如果 n_layers > 1,第二层上的 dropout 将被调节)
  • 明确处理模型方差。SMAC 在不同种子上训练每个模型的若干个实例,如果实例在相同种子上训练还要对比模型。如果它在所有相同种子上优于另一个模型,则该模型获胜。

与我的期望相反,超参数搜索并没有建立定义明确的全局最小。所有的最佳模型大致具有相同的性能,但参数不同。可能 RNN 模型对于这个任务来说太具有表现力了,并且最好的模型得分更多依赖于模型架构上的数据信噪比。不管怎样,最好的参数设置依然可以在 hparams.py 文件中找到。


原文链接:http://ift.tt/2AVjKj8

]]> 原文: http://ift.tt/2A4XnIg
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...