2017年12月4日星期一

NIPS 2017首日亮点全解读:四大获奖论文结果揭晓

大会第一天,长滩会展中心门口的注册排队长龙「长到可以让你看几篇论文」,这就是 NIPS 的魅力。


美国时间 12 月 4 日晨,第 31 届神经信息处理系统大会(Neural Information Processing Systems,NIPS)于美国加州长滩的会展中心正式开幕。作为人工智能和机器学习领域最重要的盛会,来自计算机科学领域的各路专家和业界人士汇集于此,将在未来的五天里共同讨论和分享人工智能的前沿想法。


为了近距离报道大会新进展,机器之心分析师走进了大会现场,将在本次大会上对各类新鲜事进行现场报道。此外,我们还将邀请大会接收论文的部分作者进行技术分享与热点评论,敬请期待。


Note:机器之心的「NIPS 2017 内容专题」开放投稿,接受的内容类型包括但不限于:NIPS 2017 论文技术解读、大会深度解读和行业观点评论类文章。投稿方式为:1)发送邮件到:content@jiqizhixin.com ; 2)添加机器之心小助手:synced2。


四篇获奖论文全部揭晓


除了关注度之外,NIPS 2017 的学术含金量也又上了一个新台阶。据统计,本届 NIPS 共收到 3240 篇论文投稿,创历年新高,其中 678 篇被选为大会论文,录用比例 20.9%。40 篇为 Oral 论文,112 篇为 Spotlight 论文。


今日,官网公布了 3 篇最佳论文、一篇 Test of time award 奖项,机器之心对这四篇获奖论文做了摘要介绍。

最佳论文奖(Best paper awards)


大会第一天,根据官网信息我们正式获知了今年的最佳论文等奖项。由于今年最佳论文的获奖者,来自卡耐基梅隆大学的 Noam Brown 与其导师 Tuomas Sandholm 早早地公布了自己的获奖信息(参见:NIPS 2017 最佳论文出炉:CMU 冷扑大师不完美信息博弈研究获奖),悬念就落到了另外几篇获奖论文上。


论文:Safe and Nested Subgame Solving for Imperfect-Information Games


论文链接:http://ift.tt/2eZZikK


摘要:和完美信息博弈不同,不完美信息博弈不能通过将博弈分解为可独立求解的子博弈而求得占优策略。因此我们越来越多地使用计算密集的均衡判定技术,并且所有的决策必须将博弈的策略当做一个整体。由于不能通过精确的分解来解决不完美信息博弈,人们开始考虑近似解,或通过解决不相交的子博弈提升当前结果。这个过程被称为子博弈求解(subgame solving)。我们提出了一种无论在理论上还是在实践上都超越了之前方法的子博弈求解技术。我们还展示了如何对它们和以前的子博弈求解技术进行调整,以对超出初始行动提取(original action abstraction)的对手的行动做出应答;这远远超越了之前的顶尖方法,即行动转化(action translation)。最后,我们展示了当博弈沿着博弈树向下进行时,子博弈求解可能会重复进行,从而大大降低可利用性。我们应用这些技术开发了能在一对一无限注德州扑克单挑中打败顶尖人类选手的第一个 AI。


来自伦敦大学学院(UCL)的 Wittawat Jitkrittum 等人同时获得了 NIPS 2017 最佳论文奖。


论文:A Linear-Time Kernel Goodness-of-Fit Test


论文链接:http://ift.tt/2jNPkEx


摘要:我们提出了一个全新的拟合优度(goodness-of-fit)的适应性测试法,其中计算资源的消耗与样本数呈线性关系。我们通过最小化假负类率来学习最能展示观察样本和参考模型之间差异的测试特征。这些特征是通过 Stein 法构造的——这意味着没有必要计算模型的归一化常数。我们分析了新测试的 Bahadur 渐进效率,并证明了在均值偏移(mean-shift)的情况下,无论选择哪个测试参数,我们的测试总是比先前的线性时间核测试具有更高的相对效率。在实验中,新方法的性能超过了早期线性时间测试,并且匹配或超过了二次时序内核(quadratic-time kernel)测试的能力。在高维和模型结构可用的情况下,我们的拟合优度测试在模型中抽取样本,表现远远超越基于最大平均差异(Maximum Mean Discrepancy)的二次时序双样本测试。

Wittawat Jitkrittum(左), Zoltan Szabo(右)


在接受机器之心的采访中,该论文的第一作者 Jitkrittum 表示他并没有想到会获得这个奖项。「我们的项目采取了一种独特的方法,并开发了一款工具,能够更高效地在模型中基于数据样本找出错误。但我并没有想到它会受到如此的好评。」


另一个最佳论文奖项则归于斯坦福大学的 John C. Duchi 与 Hongseok Namkoong。


论文:Variance-based Regularization with Convex Objectives

论文链接:http://ift.tt/2ii361R


摘要:我们研究了一种风险最小化和随机优化的方法,该方法可以为方差提供一个凸属性的替代项,并允许在逼近和估计误差间实现近似最优与高效计算间的权衡。我们的方法建立在分布鲁棒性优化和 Owen 经验性似然度的基础上,并提供了一些有限样本(finite-sample)和渐进结果以展示估计器的的理论性能。具体来说,我们证明了该过程具有最优性保证(ertificates of optimality),并通过逼近和最优估计误差间良好的权衡在更一般的设定下比经验风险最小化方法有更快的收敛率。我们还给出了确凿的经验性证据,其表明估计器在实践中会在训练样本的方差和绝对性能之间进行权衡。此外,估计器也会提升标准经验风险最小化方法在许多分类问题上的测试性能。


经典论文奖(Test of time award)


论文:Random Features for Large-Scale Kernel Machines

论文链接:http://ift.tt/2cmpjcK


摘要:为了加速核机器(核函数)的训练,我们提出了一种将输入数据映射到一个随机低维特征空间的方法,并将这种映射应用到现存的快速线性方法中。我们的随机化特征经过特定的设计以转化数据的内积近似等价于特征空间中用户指定位移不变性的核函数(shift-invariant kernel)。我们研究了两组随机特征,提供了其近似各种径向基核函数(RBK)能力的收敛范围,并表明在在大规模分类和回归任务中,使用这些特征的线性机器学习算法优于当前最佳的大规模核机器。


以上就是NIPS 2017大会的首日亮点,机器之心还将继续对大会进行现场报道,敬请关注。


延伸阅读

机器之心 NIPS 2017 线上分享往期回顾

]]> 原文: http://ift.tt/2ij6BVS
RSS Feed

机器知心

IFTTT

BP表达式与硬件架构:相似性构建更高效的计算单元

反向传播是当前深度学习主要使用的参数更新方法,因此深度学习的硬件设计也需要拟合这种反向传播的计算结构。本文从反向传播的抽象表达开始简要地分析了 BP 算法和脉动阵列架构(systolic array architecture)之间的相似性,从而表明了脉动阵列架构适合执行 BP 和进行模型训练。


在并行计算的体系架构中,脉动阵列(systolic array)是紧密耦合的数据处理单元(data processing unit/DPU)的一种同构网络。每一个结点或 DPU 独立地计算部分结果,并将该部分结果作为从上游单元接受数据的函数,在将结果储存在当前结点后会传递到下游单元。本文重点在于论述反向传播算法的抽象表达,并讨论表达式与这种脉动阵列架构之间的相关性。


假设我们有一个 n=3 的多层网络架构,且运算的对象为 m 维向量,因此预测或推断的过程可以表示为:



我们将预测函数 Y 放入到损失函数 l 中以进行最优化。为了表示这种结构,我们使用圆圈表示复合函数算子(Ring 算子),因此目标函数 L 可以写为:



根据链式法则,目标函数的导数可以根据矩阵乘法的形式写为:



其中,链式乘法中的每一项都是雅可比矩阵(Jacobian matrix)。为了更形象地说明这一过程,假设我们的损失函数 l 有以下形式:



层级函数 f 仅仅只是简单地求输入向量中每一个元素的平方:



它们的雅可比矩阵就可以写为以下形式:



为了计算目标函数的导数,我们需要乘以这些雅可比矩阵。因此这种链式矩阵乘法的维度就可以可视化为以下形式:



计算这种链式矩阵乘法首先需要注意的就是确定乘法的顺序,因为矩阵的乘法分为左乘和右乘,且不同的乘法顺序会影响计算的效率,所以我们需要确定矩阵乘法的计算顺序。这种寻找最优乘法序列的任务称为矩阵链式排序问题。在本案例中,因为向量左乘矩阵还是得到一个向量,所以我们只需要从左往右进行矩阵乘积就能进行高效的计算。



其次我们需要考虑如何具体地计算这些矩阵运算而不使用构建雅可比矩阵。这是非常重要的,因为模型的特征数量 m 可能是几万的数量级,这意味着雅可比矩阵可能有数十亿的元素。在本案例中,雅可比矩阵是一个对角矩阵,那么向量和雅可比矩阵的乘积就等价于向量对应元素间的乘积,因此我们就能避免构建一个 m-x-m 的雅可比矩阵。



神经网络中典型的层级函数也采用这种高效实现的运算。这种向量-雅可比乘积(vector-Jacobian product)运算是任何反向传播算法实现的关键,Theano 称其为「Lop」(左乘算符)、PyTorch 称之为「backward」方法、TensorFlow 称之为「grad」或「grad_func」。


为了简化表达,我们将计算生成的中间值(即激活值)记为「A」:



通过上图,我们将目标函数的导数写为:



因为损失函数的雅可比矩阵只是简单地转置输入矩阵,因此我们可以写为:



如果我们定义第一个反向传播的值为 B_3 = A_3',那么我们可以将计算写为一个序列



为了进一步简化,令 b 指代向量-雅可比乘积(即 backwards()、Left operator、grad_func),使用 Hadamard 乘积的符号表示元素对应乘积。我们就可以将向量-雅可比乘积写为:



我们最终可以将前向/反向传播的公式写为:



这一过程的计算图可以表示为(以下两个计算图是等价的):




如果我们查看二维 systolic array 的架构,就会发现它们之间的结构是非常相似的,也就是说这种硬件架构能很好地拟合反向传播算法。



]]> 原文: http://ift.tt/2BK3E9w
RSS Feed

机器知心

IFTTT

Petuum 新研究助力临床决策:使用深度学习预测出院用药

在过去一年中,我们看到了很多某种人工智能算法在某个医疗检测任务中「超越」人类医生的研究和报道,例如皮肤癌、肺炎诊断等。如何解读这些结果?他们是否真正抓住医疗实践中的痛点、解决医生和病人的实际需要? 这些算法原型如何落地部署于数据高度复杂、碎片化、异质性严重且隐含错误的真实环境中?这些问题常常在很多「刷榜」工作中回避了。事实上,从最近 IBM Watson 和美国顶级医疗中心 MD Anderson 合作失败的例子可以看出,人工智能对医疗来说更应关注的任务应该是如何帮助医生更好地工作(例如生成医疗图像报告、推荐药物等),而非理想化地着眼于取代医生来做诊断,并且绕开这个终极目标(暂且不论这个目标本身是否可行或被接受)之前各种必须的铺垫和基础工作。因此与人类医生做各种形式对比的出发点本身有悖严肃的科学和工程评测原则。这些不从实际应用场景出发的研究,甚至无限放大人机对战,对人工智能研究者、医疗从业者和公众都是误导。

知名人工智能创业公司 Petuum 近期发表了几篇论文,本着尊重医疗行业状况和需求的研究思路,体现出了一种务实风格,并直接应用于他们的产品。为更好地传播人工智能与医疗结合的研究成果,同时为人工智能研究者和医疗从业者带来更加实用的参考,机器之心和 Petuum 将带来系列论文介绍。本文是该系列第三篇,介绍了使用深度学习在就诊时间预测出院用药的方法。


随着美国电子健康档案(EHR)的普及以及医疗健康数据新来源的快速发展,一场医疗与健康数据的海啸已经出现。随着数据的数量增长和复杂度增加,医疗分析和决策正变得越来越耗时、易出错、结果不理想。在各种临床决策中,制定理想的治疗方案是至关重要并且很有难度的一个。即使在确诊的前提下,医生仍需要伴随患者病程不断优化治疗方案。例如并发慢性心力衰竭和高血压的慢性肾病患者,因心衰恶化入院,医生则需要已经使用的抗高血压药物进行调整,比如改变利尿剂的种类和剂量等。因此对于新确诊的病人,根据入院就诊时得到的有限信息预测该病人在出院时的药物治疗方案对医生来说是一件具有挑战的事情。在入院时,医生会了解病人的就诊原因, 病史(包括共病情况, co-morbidities)等,进行相关实验室或影像学检查等并记录在入院病历中(admission note)。借助先进的机器学习与深度学习技术,我们从上万份的患者入院病历记录中提取关键信息,对出院用药实现了更准确的预测。


精准的出院用药预测能向医生提供指导,帮助医生及时发现用药偏差(medication discrepancy)。用药偏差是指在患者入院,转院,出院过程中用药方案在记录过程中发生的非计划性的改变。在美国 70% 的患者受到用药偏差的影响,其中⅓可能对患者造成中度至重度的危害。为了解决用药偏差可能带来的问题,药物核对(medication reconciliation)作为一个保证患者治疗安全的重要环节,要求医生在患者入院及出院环节对药物方案进行仔细核实与比对。入院时对出院用药的预测可以帮助医生及时发现用药偏差,避免由于药物重复或遗漏可能造成的病人安全风险问题,同时这种预测可以作为一种有效的早期预警工具帮助医生尽早监控管理药物的处方,并及时减少不必要的用药疏失(medication error)。


在利用深度学习方法在入院就诊时间对出院药物进行预测的过程中,主要有有两方面的困难。首先,可用的就诊信息大多数都是非结构化的病历记录(称为入院记录),比如既往病史、家族史、过敏等情况。与实验室检测数据和体征数据等结构化信息相比,这些自由形式的文本更难被机器处理和理解。此外,这些记录还包含了同义词、缩写和拼写错误。因此,从这些非结构化且有噪声的文本中有效提取语义模式是我们需要解决的第一个问题。其次,在临床上,为了快速并有效的治愈疾病,达到治疗目的,常常会使用两种或两种以上的药物,许多联合用药的方案在临床治疗指南或专家共识中被广泛认可。例如,对已服用阿司匹林的中风病人,为了有效预防再次中风的发生,医生会推荐双联抗血小板治疗(dual anti-platelet therapy),既同时服用阿司匹林和氯吡格雷。大量研究表明多重药物的联合治疗对疾病的进展,预后及死亡事件的发生都有一定的影响。如何自动发现和利用药物之间的这种相关性,对于更准确的多药物预测是至关重要的,这也是非常有价值的。


论文:基于深度学习在就诊时间预测出院用药(Predicting Discharge Medications at Admission Time Based on Deep Learning)




论文地址:http://ift.tt/2AORBKg


摘要:在病人入院就诊时预测其出院用药可以帮助医生更好地计划和核对用药方案、发现用药偏差、降低用药安全风险。由于病人在住院期间病情进展不尽相同,仅利用就诊时可用的有限信息对病人出院情况进行预测会较为困难。本文研究了如何使用深度学习技术来协助医生根据病人就诊记录中的健康信息来预测其出院用药。在实现上,我们设计了一种卷积神经网络来分析就诊记录然后预测病人在出院时的用药。该模型可以从非结构化和有噪声的文本中提取语义表征,并能自动学习不同药物之间的药理相关性。我们在 2.5 万份病人就诊记录上对该模型进行了评估,并与 4 种基准模型进行了比较。在宏平均 F1 分数上,该方法相对于最好的基准模型有 20% 的提升。


贡献


本文提出了一种以电子健康档案为输入,预测一种或多种出院用药的卷积神经网络(CNN)模型。该模型可以从原始文本中学习到丰富的语义表征,并且可以自动获得药物之间的相关性。我们在 2.5 万份病人就诊记录上对抗高血压药这一特定药物类别上对该模型进行了评估。在平均 macro F1 分数上,我们的方法比最好的基准好 20%。


方法


研究设计


我们在之前收集到的重症监护病房(ICU)病人的电子健康档案进行了回顾性研究(retrospective study),根据就诊记录构建了一个预测出院用药的深度学习模型。我们对比了该模型和其他四个基准模型所预测的药物与医生给出的药物的区别,从而评估了模型的性能。


数据预处理


该研究使用了 MIMIC-III 数据集并且重点关注了其中出现的 8 种抗高血压药:美托洛尔(metoprolol)、呋塞米(furosemide)、赖诺普利(lisinopril)、氨氯地平(amlodipine)、阿替洛尔(atenolol)、氢氯噻嗪(hydrochlorothiazide)、地尔硫卓(diltiazem)、卡维地洛(carvedilol)。

 

图 1:8 种抗高血压药物在 MIMIC-III 数据集中的频率,Hctz 是氢氯噻嗪的简写

 

表 1:左栏显示 8 种就诊时可用的信息类型,右栏每行显示了 MIMIC-III 中对应的提取此类信息的标题字符串


模型设计


我们开发了一个可基于就诊时可用的信息来预测出院用药的深度学习模型。该模型的输入为就诊记录,输出是病人的出院用药(一种或多种)。该模型具备两种功能:1)能有效地从有噪声的和非结构化的原始文本中提取高层次的语义并能适当地考虑连续词汇之间的序列结构;2)其次,该模型能学习不同药物之间的药理相关性。


为了同时实现这两个目标,我们开发了一种基于卷积神经网络(CNN)的模型。从高层面看,该模型:1)使用了多个堆叠的隐藏单元层来获取输入记录的隐含语义;2) 使用了不同窗口大小的卷积算子来获取 n-gram 中存在的局部语义和序列结构;3) 可发现常见的隐含因子,从而学习得到药物之间的药理相关性。

 

图 2:CNN 模型的网络架构


结果


从宏平均和微平均两种 F1 分数上来看,CNN 有远高于其他所有基准模型的准确率。在两种平均 F1 分数之间,CNN 在宏平均上的提升更为显著。CNN 在 7 种药物上都得到了最好的 F1 分数。呋塞米是唯一的例外,其中随机森林(RF)的表现优于 CNN。CNN 相对于基准的提升主要体现在召回率(recall)上,而其准确率则与基准模型相当。在各类基准模型中,只使用就诊药物作为输入的 多层感知机(MLP)在宏平均和微平均 F1 上的表现最差;另外,非线性支撑向量机(SVM)和 RF 的表现优于线性的逻辑回归模型(LR)。


CNN 相较于其它基准较高的得分来源于它的分层的隐藏层结构。这样的结构使得 CNN 能在多种粒度(单词层面、短语层面和文本层面)上提取相关的语义信息。

 

表 2:CNN 和 4 个基准模型在 5 次实验中对每一类药物的准确率(P)、召回率(R)和 F1 的平均分数。药物从上到下按照频率降序排列。模型整体的分数分别通过以上所有分数的宏平均(Macro Avg)和微平均(Micro Avg)得到。


 表 3:在单词嵌入空间中一些词(Query)和它在空间中的最近邻(NN)。两个词之间的「相似程度」对应它们的嵌入向量之间的欧式距离。


扩展阅读:

  • 学界 | 人工智能如何更好的辅助医生?Petuum 研究自动生成医疗图像报告
  • 学界 | Petuum 新研究助力临床决策:使用深度学习实现自动 ICD 编码


]]> 原文: http://ift.tt/2AORKxi
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...