2018年1月6日星期六

训练深度神经网络失败的罪魁祸首不是梯度消失,而是退化

 作者通过深度线性网络的例子对照证明了导致最终网络性能变差的原因并不是梯度消失,而是权重矩阵的退化,导致模型的有效自由度减少,并指出该结论可以推广到非线性网络中。


在这篇文章中,我将指出一个常见的关于训练深度神经网络的困难的误解。人们通常认为这种困难主要是(如果不全是)由于梯度消失问题(和/或梯度爆炸问题)。「梯度消失」指的是随着网络深度增加,参数的梯度范数指数式减小的现象。梯度很小,意味着参数的变化很缓慢,从而使得学习过程停滞,直到梯度变得足够大,而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文:「Learning long-term dependencies with gradient descent is difficult」,目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。


让我们首先考虑一个简单的场景:训练一个深度线性网络学习线性映射。当然,从计算的角度来看,深度线性网络并不有趣,但是 Saxe 等人 2013 年的论文「Exact solutions to the nonlinear dynamics of learning in deep linear neural networks」表明深度线性网络中的学习动力学仍然可以提供非线性网络的学习动力学的信息。因此,我们从这些简单的场景开始讨论。下图是一个 30 层网络(误差线是由 10 次独立运行得到的标准差)的学习曲线和初始梯度范数(训练之前)。



我将在之后简短地解释图中的标签「Fold 0」的含义。这里的梯度是关于层激活值的(与关于参数的梯度的行为类似)。网络的权重使用标准的初始化方法进行初始化。起初,训练损失函数下降得很快,但很快渐进地收敛于一个次优值。此时,梯度并没有消失(或爆炸),至少在初始阶段。梯度确实随着训练过程变小,但这是预料之中的,从任何方面看都不能清楚表明梯度已经变得「太小」:




为了表明这里的收敛到局部最优解的现象和梯度范数的大小本身并没有关系,我将引入一种运算,它将增加梯度范数的值,却使得网络的性能变得更差。如下图所示(蓝线):


我只是简单地改变了初始化方法而已。初始网络的所有初始权重都是矩阵(使用标准方法初始化)。而在上图的蓝线中,我只是将每个初始权重矩阵的上半部分复制到下半部分(即初始权重矩阵被折叠了一次,因此称其为「Fold 1」网络)。这种运算降低了初始权重矩阵的秩,使得它们更加的退化(degenerate)。注意这种运算仅应用于初始权重矩阵,并没有加上其它对学习过程的约束,训练过程保持不变。经过几个 epoch 的训练之后,梯度范数的变化如下图所示:


因此,我引入了一种运算,它增大了全局的梯度范数,但是性能却变差了很多。相反地,接下来我将引入另一种运算以减小梯度范数,却能大幅地提升网络的性能。如下图所示(绿线):


正如图中的标签「Ortho」所示,这种运算将权重矩阵初始化为正交的。正交矩阵是固定(Frobenius)范数的矩阵中退化程度最低的,其中退化度可以用多种方法计算。以下是经过几个 epoch 训练之后的梯度范数:


如果梯度范数的大小本身和深度网络的训练困难并没有关系,那是什么原因呢?答案是,模型的退化基本上决定了训练性能。为什么退化会损害训练性能?直观地说,学习曲线基本上会在参数空间的退化方向变慢,因此退化会减少模型的有效维度。在以前,你可能会认为是用参数拟合模型,但实际上,由于退化,可以有效地拟合模型的自由度却变少了。上述的「Fold 0」和「Fold 1」网络的问题在于,虽然梯度范数值还不错,但是网络的可用自由度对这些范数的贡献非常不均衡:虽然一些自由度(非退化的)贡献了梯度的主要部分,但大部分(退化的)自由度对此没有任何贡献(仅作概念性的理解,并不是很准确的解释。可以理解为在每个层中只有少量的隐藏单元对不同的输入改变它们的激活值,而大部分隐藏单元对不同的输入都是相同的反应)。


正如 Saxe 等人的论文表明,随着相乘矩阵的数量(即网络深度)增加,矩阵的乘积变得更加退化。以下分别是该论文中的 1 层、10 层和 100 层网络的例子:


随着网络深度增加,积矩阵的奇异值变得越来越集中,而小部分出现频率很低的奇异值变得任意的大。这种结果不仅仅和线性网络相关。在非线性网络中也会出现类似的现象:随着深度增加,给定层的隐藏单元的维度变得越来越低,即越来越退化。实际上,在有硬饱和边界的非线性网络中(例如 ReLU 网络),随着深度增加,退化过程会变得越来越快。


 Duvenaud 等人 2014 年的论文「Avoiding pathologies in very deep networks」里展示了关于该退化过程的可视化:


随着深度增加,输入空间(左上角)会在每个点都扭曲成越来越细的细丝,而只有一个与细丝正交的方向会影响网络的响应。在两个维度上表示出输入空间的变化可能会比较难,但是实验证明输入空间的点在局部会变为「hyper-pancakey」,即每一个点都有一个单一的方向正交于扭曲后的表面。若我们沿着这个敏感的方向改变输入,那么网络实际上对变化会非常敏感。


最后我忍不住想提一下我和 Xaq Pitkow 的论文。在论文 SKIP CONNECTIONS ELIMINATE SINGULARITIES 中,我们通过一系列实验表明本文讨论的退化问题严重影响了深度非线性网络的训练,而跳过连接(ResNet 中采用的重要方法)帮助深度神经网络实现高精度的训练同样是一种打破退化的方法。我们同样怀疑其它如批量归一化或层级归一化等方法有助于深度神经网络的训练,除了原论文所提出的如降低内部方差等潜在的独立性机制,也至少有一部分原因是退化被破坏而实现的。我们都知道分裂归一化(divisive normalization)对于解相关隐藏单元的响应非常高效,它也可以看成一种打破退化的机制。


除了我们的论文外,我还应该提一下 Pennington、 Schoenholz 和 Ganguli 最近提出的论文 Resurrecting the sigmoid in deep learning through dynamical isometry: theory and practice。在该论文中,正交初始化完全移除了线性网络中的退化问题。他们提出了一种计算非线性网络雅可比矩阵的整个奇异值分布的方法,并表明在 hard-tanh 非线性网络(而不是在 ReLU 网络)中能实现独立于深度的非退化奇异值分布。实验结果表明有独立于深度的非退化奇异值分布的网络要比奇异值分布变得更宽(更高的方差)的网络快几个数量级。这是消除退化和控制整个网络奇异值分布的重要性的有力证明,而不只是该论文比较有意思。


论文:SKIP CONNECTIONS ELIMINATE SINGULARITIES 


论文地址:http://ift.tt/2qwcN3W


跳过连接(Skip connections)使得深度网络训练成为了可能,并已经成为各种深度神经架构中不可缺少的部分,但目前它并没有一个非常成功和满意的解释。在本论文中,我们提出了一种新的解释以说明跳过连接对训练深度网络的好处。训练深度网络的难度很大程度是由模型的不可识别所造成的奇异性(singularities)而引起。这样的一些奇异性已经在以前的工作中得到证明:(i)给定层级结点中的置换对称性(permutation symmetry)造成了重叠奇异性,(ii)消除(elimination)与对应的消除奇异性,即结点的一致性失活问题,(iii)结点的线性依赖性产生奇异问题。这些奇异性会在损失函数的表面产生退化的流形,从而降低学习的效率。我们认为跳过连接会打破结点的置换对称性、减少结点消除的可能性以及降低节点间的线性依赖来消除这些奇异性。此外,对于典型的初始化,跳过连接会移除这些奇异性而加快学习的效率。这些假设已经得到简化模型的实验支持,也得到了大型数据集上训练深度网络的实验支持。


]]> 原文: http://ift.tt/2m6UC01
RSS Feed

机器知心

IFTTT

火热报名中!冠军分享第一弹!AI Challenger英中机器文本翻译赛道夺冠技术分享

历时130天,全球AI届最大盛事之一,来自65个国家上万名选手参与的首届 "AI Challenger全球AI挑战赛"在17年12月21日落下帷幕。比赛过程中,要求AI Challenger技术分享会加入"本土明星"的呼声就屡屡出现,经过赛后紧锣密鼓的筹备,"AI Challenger技术分享会 | 本赛冠军特辑"正式启动!

从本周末起,到欢乐除夕,AI Challenger 2017各赛道冠军团队与大家每周末晚8点,不见不散!

冠军团队介绍

闵可锐

猎豹移动首席科学家,复旦大学计算机科学学士及英国牛津大学数学系硕士学位,后于美国伊利诺伊大学香槟分校攻读电子与计算机工程博士学位,师从于该校电气与计算机工程系史上最年轻的副教授马毅老师。曾获得牛津大学沃尔夫森中国奖学金,复旦大学人民奖学金。

宋洪伟

自然语言处理方向硕士研究生,读研期间在中文信息学报发表过两篇学术论文。目前就职于猎豹移动AI LAB,从事机器翻译领域的算法研发工作。

李晓普

毕业于大连理工大学信息与计算科学专业,计算几何与图形图像实验室。

分享提纲

  1. backbone模型
  2. 增强学习优化模型
  3. 模型融合
  4. 多句解码策略

分享详情

活动时间:

1月7日(周日)晚20:00-21:00

活动形式:

微信群语音分享+答疑

报名方式:

添加小助手:aiczhushou2(已添加小助手1,2的同学直接联系即可),回复"180107"



via AI Challenger - 知乎专栏 http://ift.tt/2CBDLse
RSS Feed

RSS1

IFTTT

南京大学提出SSWL模型:从半监督弱标注数据中学习多标签学习问题

在多标签学习中,通常我们会假设一个实例的所有标签都已知,但现实情况并不如此。在 AAAI 2018 所接收的论文中,南京大学周志华组提出了从半监督弱标注数据中学习并处理多标签学习问题。该方法假设实例和标签的相似性有助于补充缺失的标签。而且,当标签信息不足时,多个模型的集成通常比单个模型更有效。


传统的监督式学习通常假设每个实例都与一个标签相关联。然而,在现实生活的许多任务中,一个实例通常不止一个标签。传统的基于一个实例对应一个标签的监督学习不能解决这个问题,因此,用来处理与一组标签关联的实例的多标签学习(Zhang and Zhou 2014)受到了很大的关注。


在以前的多标签研究中,训练数据一个基本的假设是我们知道每一个实例的所有相关标签。然而这一点在现实中是不成立的,例如人类可能会给训练图像标注为汽车或道路而忽略行人与建筑。因此标注的不完全性显著地影响多标签学习(Zhou 2017)的性能。


显然,弱标签学习和半监督的多标签学习都不能解决本文所关心的问题。例如,弱标签学习忽略了许多可能非常有用而未标记的实例;半监督多标签学习假定所有相关标签都可用于标记实例,但在我们的情况中并非如此。注意本文中的数据情景学习与以前的多标签学习有很大不同。我们把这种多标签问题称为半监督的弱标签学习。下图举例说明了本论文的学习场景和图 1 中以前的多标签学习框架之间的差异。



图 1:四种多标签学习设定


本论文研究了半监督的弱标签学习问题,提出了 SSWL(半监督弱标签)模型。周志华等研究者的基本假设是,实例和标签的相似性有助于补充缺失的标签。而且,当标签信息不足时,多个模型的集成通常比单个模型更有效。具体来说,他们首先基于平滑假设构造一个正则化项,即类似的实例在其标签集合中应该有相似的概念组合,这要求最终的预测与实例和标签相似性的平滑性同时相关。最后研究者分别为有标签和无标签的实例建立模型,然后我们通过协同正则化框架(Sindhwani, Niyogi, and Belkin 2005)集成多个不同的模型。周志华等研究者将这个问题表示为双凸形式(bi-convex formulation),并提供了一个有效的块坐标下降解决方案。该方法的有效性在实验中得到验证。


论文地址: http://ift.tt/2m6lZGO


多标签学习同时处理与多个标签关联的数据对象。以前的研究通常假定每个实例都给出了与每个训练实例相关的所有标签。然而,在许多应用中,例如图像标注,通常很难为每个实例获得完整的标签集合,并且只有部分甚至是空的相关标签集合是可用的。我们把这种问题称为「半监督弱标签学习」问题。在这项工作中,我们提出了 SSWL(Semi-Supervised Weak-Label)模型来解决这个问题。通过考虑实例相似性和标签相似性来补充缺失的标签。利用多个模型的集合来提高标签信息不足时的鲁棒性。我们用高效的块坐标下降算法将目标形式化为双凸优化问题,且实验验证了 SSWL 的有效性。


算法 1 总结了我们提出的伪代码:


更具体来说,我们首先介绍一些符号:




这里 vec(M)是矩阵 M 的向量化,diag(v)是一个以向量 v 为对角元素的对角矩阵,⊗ 是 Kronecker 乘积(张量积)。


用固定的 W bar 和 L 来表示 W


我们可以推导出我们的目标,即找到 W,W bar 和标签相似度矩阵 L,使得下面的目标函数被最小化,


其中 α,β,ζ 是参数。U =(XW)◦C +(XW bar)◦(E - C)是两个模型的综合预测。式(3)一方面考虑实例和标签相似性的平滑性,另一方面,它结合了集成学习的优点以获得稳定的结果。


当 W bar 和 L 固定,我们通过使等式(3)关于 W 的导数为零,得到下面关于 W 的等式,


其中 R =(XW)◦C. 根据定理 1,我们可以将公式 4 重新写为,


这是一个简单普通的线性方程,我们可以使用共轭梯度算法(Møller1993)求解,这是求解线性方程的高效算法。


后面固定 W、L 以更新 W bar 和固定 W、W bar 以更新 L 的具体过程请查阅原论文。


文本分类任务



表 2:在 TMC 上的实验结果(平均值±标准差)。↑(↓)表示越大(小)越好。最好的结果标为粗体(成对 t 检验在 95%的显着性水平)。


基因功能分析任务



表 3:酵母的实验结果(平均值±标准差)。↑(↓)表示越大(小)越好。最好的性能或结果标为粗体(成对 t 检验在 95%的显着性水平)。


场景分类任务



表 4:SceneImage 上的实验结果(平均值±标准偏差)。↑(↓)表示越大(小)越好。最好的表现和结果标为粗体(成对 t 检验在 95%的显着性水平)。


图像标注任务



表 5:msrc 上的实验结果(平均值±标准偏差)。↑(↓)表示越大(小)越好。最好的表现和结果标为粗体(成对 t 检验在 95%的显着性水平)。

]]> 原文: http://ift.tt/2m3ZClf
RSS Feed

机器知心

IFTTT

Netflix微服务技术总结;2017JavaScript生态圈调查;Ray:有望取代Spark - InfoQ每周精要518期

 中文站「每周精要」
感谢您订阅每周精要第 518 期,本期内容截止于2018-01-07。
技术新闻  TECH NEWS
谷歌意欲改善Google Play应用程序的安全性和隐私性
在2018年8月之后,如果Android开发者必须遵守两个新的规定:一是需要支持最近的Android版本,二是需要增加对Native代码的64位支持。
Microsoft正式发布Azure Archive Storage
Azure Storage的归档特性已经面向客户预览了数月。此次发布包含Blob-Level Tiering,让客户可以在不同的层之间优化数据的全生命周期存储。
实体服务是一种反模式
实体服务是被广泛应用于微服务架构上的一种模式,但其实它是一种反模式,因为它背离了服务隔离的原则。
使用C#来面向GPU编程
新的Hybridizer技术给C#开发者提供了一种面向CUDA平台开发并利用GPU高性能的方法。
百度移动应用质量管理与数据分析
如何快速处理移动应用的碎片化测试、利用大数据分析指导移动运营策略是长盛不衰的话题。
jQuery UI和jQuery Mobile的未来
Query UI和jQuery Mobile在过去几年都经历了什么,新的项目负责人Alex Schmitz在博客上发表声明,简述了这两个项目面临的窘境以及后续的计划。
架构设计  ARCHITECTURE DESIGN
如果潜心研究Netflix微服务技术多年,能学到什么?
本文是作者多年研究Netflix技术资料的总结,可以认为是对Netflix微服务技术的一次全面系统的反向工程。
解读2017之Kubernetes+云原生:明天会更好
本文带您一起梳理2017年Kubernetes及云原生的发展,并对其在2018年的趋势作个展望。
美利好车的微服务实践
美丽好车的微服务实践是基于Spring Cloud体系来做的,在具体的开发过程中遇到了不少问题,踩了不少坑,对于微服务也有了实际的切身体会和理解,而不再是泛泛而谈。
运维 & DevOps  OPERATIONS & DEVOPS
中小型研发团队架构实践:高效率、低风险,一键发布并测试的持续集成工具Jenkins
为了提高项目的发布效率,也为了降低由人工操作失误带来的风险,需要引进持续集成工具。
《A Practical Guide to Continuous Delivery》作者访谈录
这本书向我们详细介绍了成功采用持续交付的一些主要概念,还有它对开发人员生产力以及服务质量的影响。
京东的Netty实践,京麦TCP网关长连接容器架构
本文重点介绍京东TCP网关的背景、架构及Netty的应用实践。
云计算  CLOUD COMPUTING
双11功臣:定制x86 CPU如何打通从业务负载到CPU架构的通路
2017天猫双11是一个从上层业务应用到底层服务器集群的庞大的系统协同的结果,其中作为计算力输出主角的定制x86 CPU功不可没 。
来自腾讯云的智能电商系统构建与实战精解
12 月 22 日,腾讯云联合 InfoQ 举办的电商技术沙龙分享了如何基于基础云平台解决方案,快速构建一个完全自主可控的电商系统。
Gremlin发布"恢复即服务":为混沌工程提供给力支持
Gremlin 公司发布了Gremlin,一种基于SaaS的"恢复能力即服务"平台,有助于在应用发生停机故障前预防问题的发生。
大前端  THE FRONT END
2017JavaScript生态圈调查报告
你知道JavaScript的现状吗?你知道JavaScript中哪些库最受欢迎吗?你知道使用哪些库的开发者工资最高吗?(国外的工资看了引人严重不适,已经去掉了)
Pinterest的PWA实践
本文讲解Pinterest如何确保网站在移动设备上的高速加载,主要涉及精简JavaScript包和通过Service Workers保持网络弹性。
苹果宣布收购Buddybuild,为iOS开发添新利器!
苹果表示将收购初创公司Buddybuid,不过收购金额尚未披露。
人工智能  ARTIFICIAL INTELLIGENCE
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
UC Berkeley AMP实验室开发了一个高性能分布式执行框架Ray,并于近日在Arxiv上发表了相关论文。
用算法撩妹都不会,别跟我说你是程序员
如果你还是一只"单身狗",同时你还是一个程序员,顺便你还对算法比较精通,那么尝试以下方法,在 2018 年到来之前,你或许能够脱单成功。
英特尔、谷歌和AWS回应CPU安全事件:AMD和ARM也有问题,影响巨大
英特尔、谷歌、AWS三家大厂随后接连发文回应,称此次bug事件影响范围较大,一直坚称自己没受影响的AMD也被谷歌发现了问题。
极客时间App  GEEK TIME APP
给普通人的人工智能入门课
王天一教授将结合自己的积累与思考,和你分享他对人工智能的理解,用通俗易懂的语言从零开始教你掌握人工智能。
AI 技术内参
本专栏将为你系统剖析人工智能核心技术,精讲人工智能国际顶级学术会议核心论文,解读技术发展前沿与最新研究成果,分享数据科学家以及数据科学团队的养成秘笈。
技术大会  CONFERENCE
AICon大会倒计时7天:详解40+国内外前沿机器学习落地案例
经过半年筹备,AICon 全球人工智能与机器学习技术大会即将于2018年1月13~14日在北京盛大开幕,我们邀请到了来自Amazon、Google、Snap、BAT、360、小米、京东等40+公司AI技术负责人前来分享他们的机器学习落地实践经验。
QCon北京2018:大数据下的软件质量建设实践
从源码撰写、持续集成、测试调试到发布运营,整个流程中大数据无所不在,重复bug如何减少,重要紧急的问题如何自动识别,随机crash、卡顿如何快速定位等这些都可以借力大数据技术来解决问题。那么各个公司有哪些利用大数据改善软件质量的最佳实践呢?
活动推荐  ACTIVITY
阿卡迈CDN峰会:实现你的18年不加班愿望清单
春节,网络工程师最讨厌的事情的什么?怒吼:加班!加班!!加班!!!试想你正在陪女朋友见丈母娘,突然接到公司电话:系统崩溃你来处理一下,我想你也很崩溃……如何实现节前不加班愿望清单?
AWS在线研讨会:如果不懂这项技术,你可能将被淘汰
2018,Serverless将实现全面爆发。如果你说还不懂这项技术的突破口,那就out了!1月9日下午,AWS解决方案架构师以一场Serverless全面技术解析敲响新年第一声,直播与畅聊,助你全面进阶新技术达人!
极客馆舍  GEEK STORE
只有这款防蓝光眼镜,才对得起你每天写下的代码
QRIC防蓝光护目镜使用在美国拥有27项专利的EOP人工黑色素技术,阻隔400nm~450nm波段的有害蓝光和紫外线,可以有效减少蓝光伤害。2018年,每个加班的夜里由他来守护您。
InfoQ中文站每周日针对会员发送每周内容精要邮件,
别人转发给你的邮件?现在注册获取您自己的 InfoQ每周精要邮件吧
InfoQ微博:@InfoQ
InfoQ微信:infoqchina
InfoQ手机客户端

2018年1月5日星期五

AI研发新药真有那么神?可能哈佛、斯坦福和阿斯利康实验室都在吹牛

安妮 李林 编译自 Medium量子位 出品 | 公众号 QbitAI

近年来,向往着用AI研发新药的美好愿景,巨头纷纷投下了重注。

制药巨头赛诺菲和AI药物发现平台Exscientia签下3亿美元巨额订单,葛兰素史克随后也出了4200万美元。默克和Atomwise、强生旗下的杨森制药与BenevolentAI也都有类似的合作。

风投也非常看好这个领域。硅谷VC公司安德森·霍洛维茨(A16Z)为投资AI药物发现公司,组建了一支4.5亿美元的基金。

好像巨头都上车了,小玩家要不要跟上?

今天,硅谷极客们最爱的HackerNews上有一篇热门文章就在探讨这件事。大部分评论者都同意这篇文章的基本观点:AI在药物发现中的作用被过度吹捧了

这篇文章通过分析制药公司阿斯利康、名校哈佛和斯坦福、以及创业公司Insilico Medicine等名声卓著的实验室最近的一些研究,来说明AI研究者是如何过度吹捧他们的成果的。

以下是这篇热门文章的主要内容,量子位编译整理:

1981年的《财富》杂志封面:

在默克,用计算机设计药物

我乐观地认为,这些事情2018年会有变化。这可能并不是因为人工智能的突破,而是因为这些研发机构会有进步:现在,随着在线教育和社交媒体的兴起,更强力的检查和平衡已经成为可能,为开放同行评议提供了新机会,这会成为挤泡沫的力量。

接下来,让我们进入技术部分,谈谈最近一些过度吹捧的AI研究案例。

阿斯利康

最近,英国制药公司阿斯利康和明斯特大学、上海大学的研究者一起发表了一项研究,尝试用循环神经网络(RNN)和强化学习来生成新分子。

相关论文:

Generating Focussed Molecule Libraries for Drug Discovery with Recurrent Neural Networks

http://ift.tt/2hZoE0x

这个问题很重要,因为一个创造性的AI能为发现引导物的流程中带来更多多样性。

这篇论文引起了我的注意,是因为用了很大篇幅来讲模型的评价。这看起来很有深度,他们给出了基于谷本系数相似性度量和基于levenshtein距离等多个衡量指标。论文中还有大量的可视化展示。

然而,他们的衡量标准都是用在AI生成的分子与自然分子之间的,总是"省略"了对AI产生的分子彼此之间距离的测量。这种省略让人有一种"多样性"的错觉:AI生成的分子和自然分子之间的距离很大,就可以认为AI具有创造性,探索了化学空间中的新方向。

于是我们就有了如下图所示的错觉:

真正的多样性:蓝色圆点代表AI生成的分子,红色十字代表自然分子

而实际上,如果AI生成的分子之间距离很小,这就意味着我们陷入了下图所示的状况,模型所产生的分子基本位于同一位置,并没有多样性:

多样性错觉:AI生成的分子(蓝色圆点)和自然分子(红色十字)之间仍然有很大距离,但AI生成的分子集中在一起

简单来说,阿斯利康这篇论文对房间里的大象视而不见,最近这家公司一些其他论文依然有这个问题。

比如:

Molecular De Novo Design through Deep Reinforcement Learning

http://ift.tt/2Cuw2wi

Application of generative autoencoder in de novo molecular design

http://ift.tt/2CYmElF

哈佛

哈佛的一个团队注意到了这个多样性的问题。他们通过查看人工智能生成的样本,感觉出了问题,想要做点什么,于是提出了ORGAN模型。

相关论文:

Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models

http://ift.tt/2rzcjJb

Optimizing distributions over molecular space. An Objective-Reinforced Generative Adversarial Network for Inverse-design Chemistry (ORGANIC)

http://ift.tt/2wnt62j

GitHub地址:

http://ift.tt/2qSyYfu

他们的想法是要带来更丰富的化学多样性和化学现实主义,用第二个神经网络——鉴别器来校正生成器。如果分子看起来不太自然,它就惩罚生成器。这个想法来自AI学术界火爆的"生成对抗网络(GAN)"。

这是个好想法,但执行得非常糟糕。他们的结论是ORGAN比较好,但这个说法只是基于他们自己的观察得到的,没有任何量化支持。他们的定量实验并不支持这一结论。

而且,他们训练模型的方式是有问题的。看他们在GitHub上公开的训练日志就会发现,鉴别器总是在高度惩罚生成器,这个鉴别器太追求完美了,根本就是消灭了GAN的好处。

斯坦福

斯坦福有个用AI和深度学习研究化学的大团队,团队负责人是Vijay Pande,具有斯坦福教授和A16Z风投公司投资人的双重身份。

在Vijay Pande管理的投资项目中,"专为用机器学习方法测试分子性质而设计的基准"MoleculeNet最受关注的一个。

这个项目看起来画风严肃,包含大量化学知识、图形及深度学习模型,尤其关注graph-CNN和斯坦福团队其他为化学问题特制的神经网络。

MoleculeNet中的特制图

然而,还有一个大家心知肚明但却避而不谈的问题:上述Pande团队没有努力将他们的数据插入到一个字符级的卷积神经网络(char-CNN)中。自2015年Yann LeCun的论文Text Understanding from Scratch提出这种方法后,字符级CNN就容易被例行公事地用在各种AI任务中进行文本处理,并且比graph-CNN简单得多。

如果想使用字符级CNN,插入"SMILES(simplified molecular-input line-entry system)"字符串就好了。

回过头来想想,为什么斯坦福的研究人员不选择这种更简单的操作呢?在论文MoleculeNet: A Benchmark for Molecular Machine Learning的第17页,我们可以看到:

最近的研究已经证明了用更复杂的方法从SMILES字符串学习有用表示的能力,所以在不久的将来,将SMILES字符串用于进一步的学习任务是可行的。

MoleculeNet: A Benchmark for Molecular Machine Learning

http://ift.tt/2mtuVrg

我不太相信字符级CNN对这个斯坦福团队来说过于复杂了,他们甚至在另外一篇文章中用到了字符级CNN。

Retrosynthetic reaction prediction using neural sequence-to-sequence models

http://ift.tt/2rWdans

一个更合理、更尴尬的解释是,他们害怕字符级CNN的效果会更好。这意味着,他们心爱的graph-CNN模型将在分子基准测试中被击败,而这并不符合他们的期望。

原因很简单。DeepChem是一个斯坦福领导的开源库,用来实现MoleculeNet模型。如果字符级CNN比graph-CNN效果好,那么实践者就无需DeepChem了,他们可以直接用简单的TensorFlow或Pytorch实现。

DeepChem主页

在2018年,开源框架是一种战略性资产,就像通过Android,谷歌主宰了移动操作系统市场一样。DeepChem可能也想走一条类似的道路,控制AI在药物发现领域的发展。这可能就是MoleculeNet对字符级CNN视而不见的原因。

我自己使用DeepChem的经历印证了这个推测。曾经我天真地想在项目中使用DeepChem,直到我发现,无法将DeepChem模型和非DeepChem模型混合在一起。用DeepChem辨别器和非DeepChem生成器对对抗训练很有用,但我无法实现这个想法。相反,我被牢牢锁在DeepChem的代码中,没有料想到还有如此恶意的东西。

为了逃离这个陷阱,让DeepChem真正开源,我不得不挖掘复杂的代码。

项目地址:

http://ift.tt/2lYhJsL

对于一个更成熟的项目来说,这样做会更加困难。所以我的印象是,用这种"厂商锁定"的策略,DeepChem想吃掉AI世界来做化学研究。所以我对他们的合作投资人中有Marc Andreessen一点都不惊异。

Marc Andreessen曾有句名言:简而言之,软件正在吃掉世界

虽然MoleculeNet的团队成员刻意避免用字符级CNN做基准测试,但他们仍为MoleculeNet和DeepChem设计了精美的网页。这表明他们还是太注重表面,PR优先于坚实的科学研究。这也是硅谷的典型策略,初创公司设计虚假产品吸引流量,然后依靠社区来构建真实的东西。

硅谷知道,设计外表面比建造房屋更有用

Insilico Medicine

Insilico Medicine是AI创业公司中生成模型的先驱。在一篇论文中,Alex Zhavoronkov和他的团队提出了DruGAN,一种先进的生成式对抗自编码模型。我一直搞不明白这个模型哪里先进了。

druGAN: An Advanced Generative Adversarial Autoencoder Model for de Novo Generation of New Molecules with Desired Molecular Properties in Silico

http://ift.tt/2wUBDwa

就发现药物这个需求来说,DruGAN肯定已经不先进了:它和其他的生成模型有相同的缺点,可能会让人失望。

在最近的一篇论文中他们使用了更复杂的工具,但也称不上先进吧。在他们论文的第9-10页,有这样一段话:

本研究使用的MACCS分子指纹不是理想的分子结构表征。Direct SMILES、InChI、分子图以及其他化学和生物相关的分子结构表征可作为更好的训练类型。

他们甚至还没有用到基准测试的变分自编码器(VAE)。在论文中他们声称DruGAN比VAE好,但是在Github上,一个DruGAN的作者提出了相反的观点:

实际上,我们没有像AAE[DruGAN]那样调优VAE网络,所以这种比较不公平。我的意思是,你可以优化VAE,并超越我们的AAE。

所以我认为,DruGAN只比他们8个月前发表的论文先进。在整个论文中,他们不断提到相比以前工作的改进。也许,"进步"只是一个自我祝贺的词。

综上所述,我认为,AI在药物研发领域的应用被很多研究人员夸大了。

http://ift.tt/2CrUoL1

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2Edf2eb
RSS Feed

RSS5

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...