2017年12月30日星期六

AI大咖们的18岁照,你能认对几个?

李根 发自 凹非寺量子位 报道 | 公众号 QbitAI

2017最后几天,晒18岁成风。

我们收集到几个这一年里的AI风云人物,几张图,几段故事,你们猜猜是谁?

K先生

K先生1961年生,11岁那年全家移民到美国,在田纳西州橡树岭完成了中学学业,并跟所有华人子弟一样,成绩优异,数理天才。

18岁那年,除了成年,人生还给他寄来一张哥伦比亚大学计算机系录取通知书。

那年估计他也很难预料,会因为这样一个专业,开启了职业履历,并且因此回到中国。

K先生正式回到中国已经是1998年,他37岁,那一年他受到比尔·盖茨赏识加入微软,然后创建了微软中国研究院,这个研究院在当时名不见经传,与微软其他地区的研究院并无本质不同,谁也预料不到,后来这里走出了那么多大牛,多到AI时代来临,全球最好的CV公司都出自其间。

不过K先生的传奇故事还没结束。其后几年里,他还会引发微软和Google之间全球瞩目的人才竞业案。

更后来,拥有"K老师"称号的K先生最终自己创业,在移动互联网时代开始,一波又一波年轻人在K先生鼓动下走上创业之路。

不过K先生的一切也并非顺风顺水,比如在AI热浪铺天盖地之时,最让他感叹的就是"生不逢时"。

于是他既投资,也孵化,更愿意把时间花在AI科普和传播中。

至少目前为止,他仍是中国范围内把AI喊得最响的人,也是不断在全球范围内介绍中国AI的那个人。

K先生是谁?或许不难猜。

Q先生

与K先生不同,Q先生直至2017才开始在国内搅动风云。

但K先生和Q先生有过两段相似的履历,他们都是CMU计算机系的博士毕业生,也都曾在微软担任过要职。从字辈上来说,Q先生是K先生的师弟,不过他们同是1961年生人。

Q先生的经历也要坎坷得多。18岁成年那年,他看不见未来的样子,也不知道自己一年后会考入上海最好的大学,更预料不到读不到自己最喜欢的专业。

18岁那年的Q先生,最向往的是物理相关的工作,也曾希望成为一家轮船制造厂的职员,但因为常年营养不良造成的体格孱弱,他被拒之门外。

命运在一年后给了他一份努力的奖赏,不过录取通知书并非复旦物理系,而变成了复旦计算机系。

7年后,1987年,Q先生拿下复旦计算机硕士学位留校。这一年里,他依靠个人奋斗成为学术明星,也会因为历史际遇获得出国机会。

不过Q先生真正踏上CMU博士征程已经是1992年,其后名声一点点累积,谁也想不到,在硅谷华人圈子名声最盛之际,他选择回国掌舵一艘转型中的航母。

整整15年,Q先生穿过大山大海,又回到了中国。

Q先生的中国故事,才刚刚开始。

J先生

J先生的中国故事,比Q先生跌宕得多,只是他们或许也预料不到,双方竟然会有一段短暂交集。

J先生18岁,初入中国科学技术大学,专业是计算机系,他在这里完成了本科学业,其后又进一步获得了计算机硕士学位。他原本以为日子就这样安稳过下去,直到时代的浪潮击中了他。

80年代末90年代初,有些事让J先生感到迷茫和失望,已经上班的他决定出国读书,在精心准备后终于得偿所望,到了美国南方的一所大学,复又拿到了一个硕士学位。

他先在美国工作,其后在千禧年回到中国,起初在阿里,其后又到了eBay,最后在2010年之前,在Google中国停留过。

2010年,又一个10年,J先生迎来人生的大事件。

那一年他跟R先生在一家咖啡馆中见面,相谈甚欢,R先生决定要引J先生加盟,当时给出的诚意,跟7年后给Q先生的差不多。

只是后来的故事有些唏嘘,个中细节冷暖,可能也只有当事者自知。

7年后,冬去春来的时节,北京春寒料峭,J先生遭遇"寒流",远赴美国加州。

J先生创业做了一件在老东家启动的事业,于是争议也关联其间。

不过,等到2017年行将结束之际,J先生还是再次回到了中国,只是不同的是,这次他落地的航班不在上海,也不在北京,而是广州。

那天广州微风细雨,J先生说:祖国,我们回来了。

F女士

这一年里同样高调回归"祖国"的,不止J先生一位。

更早之前,F女士就在上海宣布心愿达成。

F女士1976年出生北京,然后在四川长大。1992年那年,16岁的她跟随家人移民美国新泽西。

1992是个有意思的年份,至少在我们本文介绍的几位主人公旅程里,那一年他们都身处美国,只是境遇各不相同。

那一年的F女士算不上被生活善待,她们家生活困难,需要向亲友借钱才能维系父母的洗衣店。

不过F女士成绩优异,18岁那年,她在SAT考试中刷出1250分,数学更是满分,她拿到全额奖学金入读普林斯顿。

其后再过16年,她还会与普林斯顿一起被载入AI发展史册。

但F女士的"祖国"故事,却要到2017年才会被记入史册。这一年她多了一个Google云首席科学家的身份,并且在上任之后便开始策划"AI 回国",从1月份开始,到12月宣布,F女士在演讲中多次强调:AI没有国界,AI福祉亦无国界。

然而在说出那段深情表白之后,她还是收到了现场最热烈的掌声。

F女士说:中国也是我的家乡,我生在这里,在这里长大,我有很多家人朋友在这里生活、工作,我的心始终牵挂这里。

F女士的话也像极了这一年的写照。更多中国人在全球AI领域拥有更强影响力,也有越来越多的AI伴随他们在中国快速生长。

不知道他们18岁时想过什么,也不知道他们是否想过有一天会被人们惦记起自己的18岁……

只是最后,你是否已然知道K、Q、J、F分别指代的是谁?

量子位公众号内回复"KQJF",马上验证答案。

— 完 —

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2C06FCj
RSS Feed

RSS5

IFTTT

AI大咖们的18岁照,你能认对几个?

李根 发自 凹非寺量子位 报道 | 公众号 QbitAI

2017最后几天,晒18岁成风。

我们收集到几个这一年里的AI风云人物,几张图,几段故事,你们猜猜是谁?

K先生

K先生1961年生,11岁那年全家移民到美国,在田纳西州橡树岭完成了中学学业,并跟所有华人子弟一样,成绩优异,数理天才。

18岁那年,除了成年,人生还给他寄来一张哥伦比亚大学计算机系录取通知书。

那年估计他也很难预料,会因为这样一个专业,开启了职业履历,并且因此回到中国。

K先生正式回到中国已经是1998年,他37岁,那一年他受到比尔·盖茨赏识加入微软,然后创建了微软中国研究院,这个研究院在当时名不见经传,与微软其他地区的研究院并无本质不同,谁也预料不到,后来这里走出了那么多大牛,多到AI时代来临,全球最好的CV公司都出自其间。

不过K先生的传奇故事还没结束。其后几年里,他还会引发微软和Google之间全球瞩目的人才竞业案。

更后来,拥有"K老师"称号的K先生最终自己创业,在移动互联网时代开始,一波又一波年轻人在K先生鼓动下走上创业之路。

不过K先生的一切也并非顺风顺水,比如在AI热浪铺天盖地之时,最让他感叹的就是"生不逢时"。

于是他既投资,也孵化,更愿意把时间花在AI科普和传播中。

至少目前为止,他仍是中国范围内把AI喊得最响的人,也是不断在全球范围内介绍中国AI的那个人。

K先生是谁?或许不难猜。

Q先生

与K先生不同,Q先生直至2017才开始在国内搅动风云。

但K先生和Q先生有过两段相似的履历,他们都是CMU计算机系的博士毕业生,也都曾在微软担任过要职。从字辈上来说,Q先生是K先生的师弟,不过他们同是1961年生人。

Q先生的经历也要坎坷得多。18岁成年那年,他看不见未来的样子,也不知道自己一年后会考入上海最好的大学,更预料不到读不到自己最喜欢的专业。

18岁那年的Q先生,最向往的是物理相关的工作,也曾希望成为一家轮船制造厂的职员,但因为常年营养不良造成的体格孱弱,他被拒之门外。

命运在一年后给了他一份努力的奖赏,不过录取通知书并非复旦物理系,而变成了复旦计算机系。

7年后,1987年,Q先生拿下复旦计算机硕士学位留校。这一年里,他依靠个人奋斗成为学术明星,也会因为历史际遇获得出国机会。

不过Q先生真正踏上CMU博士征程已经是1992年,其后名声一点点累积,谁也想不到,在硅谷华人圈子名声最盛之际,他选择回国掌舵一艘转型中的航母。

整整15年,Q先生穿过大山大海,又回到了中国。

Q先生的中国故事,才刚刚开始。

J先生

J先生的中国故事,比Q先生跌宕得多,只是他们或许也预料不到,双方竟然会有一段短暂交集。

J先生18岁,初入中国科学技术大学,专业是计算机系,他在这里完成了本科学业,其后又进一步获得了计算机硕士学位。他原本以为日子就这样安稳过下去,直到时代的浪潮击中了他。

80年代末90年代初,有些事让J先生感到迷茫和失望,已经上班的他决定出国读书,在精心准备后终于得偿所望,到了美国南方的一所大学,复又拿到了一个硕士学位。

他先在美国工作,其后在千禧年回到中国,起初在阿里,其后又到了eBay,最后在2010年之前,在Google中国停留过。

2010年,又一个10年,J先生迎来人生的大事件。

那一年他跟R先生在一家咖啡馆中见面,相谈甚欢,R先生决定要引J先生加盟,当时给出的诚意,跟7年后给Q先生的差不多。

只是后来的故事有些唏嘘,个中细节冷暖,可能也只有当事者自知。

7年后,冬去春来的时节,北京春寒料峭,J先生遭遇"寒流",远赴美国加州。

J先生创业做了一件在老东家启动的事业,于是争议也关联其间。

不过,等到2017年行将结束之际,J先生还是再次回到了中国,只是不同的是,这次他落地的航班不在上海,也不在北京,而是广州。

那天广州微风细雨,J先生说:祖国,我们回来了。

F女士

这一年里同样高调回归"祖国"的,不止J先生一位。

更早之前,F女士就在上海宣布心愿达成。

F女士1976年出生北京,然后在四川长大。1992年那年,16岁的她跟随家人移民美国新泽西。

1992是个有意思的年份,至少在我们本文介绍的几位主人公旅程里,那一年他们都身处美国,只是境遇各不相同。

那一年的F女士算不上被生活善待,她们家生活困难,需要向亲友借钱才能维系父母的洗衣店。

不过F女士成绩优异,18岁那年,她在SAT考试中刷出1250分,数学更是满分,她拿到全额奖学金入读普林斯顿。

其后再过16年,她还会与普林斯顿一起被载入AI发展史册。

但F女士的"祖国"故事,却要到2017年才会被记入史册。这一年她多了一个Google云首席科学家的身份,并且在上任之后便开始策划"AI 回国",从1月份开始,到12月宣布,F女士在演讲中多次强调:AI没有国界,AI福祉亦无国界。

然而在说出那段深情表白之后,她还是收到了现场最热烈的掌声。

F女士说:中国也是我的家乡,我生在这里,在这里长大,我有很多家人朋友在这里生活、工作,我的心始终牵挂这里。

F女士的话也像极了这一年的写照。更多中国人在全球AI领域拥有更强影响力,也有越来越多的AI伴随他们在中国快速生长。

不知道他们18岁时想过什么,也不知道他们是否想过有一天会被人们惦记起自己的18岁……

只是最后,你是否已然知道K、Q、J、F分别指代的是谁?

量子位公众号内回复"KQJF",马上验证答案。

— 完 —

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2C06FCj
RSS Feed

RSS5

IFTTT

阿里iDST联合华东师大提出τ-FPL: 线性时间的约束容忍分类学习算法


国际知名的人工智能学术会议 AAAI 2018 即将于 2 月份在美国新奥尔良举办,据机器之心了解,阿里巴巴共有 11 篇论文被接收。机器之心 AAAI 2018 论文专栏,将会对其中的数篇论文进行介绍,同时也欢迎读者推荐更多优质的 AAAI 2018 接收论文。


本文介绍了阿里巴巴 iDST 与华东师大合作发布的论文《τ-FPL: Tolerance-Constrained Learning in Linear Time》,该论文提出了一种出了一个新的排序-阈值方法τ-FP。


摘要


许多实际应用需要在满足假阳性率上限约束的前提下学习一个二分类器。对于该问题,现存方法往往通过调整标准分类器的参数,或者引入基于领域知识的不平衡分类损失来达到目的。由于没有显式地将假阳性率上限融合到模型训练中,这类方法的精度往往受到制约。本文提出了一个新的排序-阈值方法τ-FPL 解决这个问题。首先,我们设计了一个新的排序学习方法,其显式地将假阳性率上限值纳入考虑,并且展示了如何高效地在线性时间内求得该排序问题的全局最优解;而后将学到的排序函数转化为一个低假阳性率的分类器。通过理论误差分析以及实验,我们验证了τ-FPL 对比传统方法在性能及精度上的优越性。


研究背景


在疾病监测,风险决策控制,自动驾驶等高风险的分类任务中,误报正样本与负样本所造成的损失往往是不同的。例如,在高死亡率疾病检测的场景下,遗漏一名潜在病人的风险,要远高于误诊一名正常人。另一方面,两类错误的损失比也很难量化估计。在这种情况下,一个更加合理的学习目标是:我们希望可以在保证分类器假阳性率 (即错误地将负样本分类为正样本的概率) 低于某个阈值 τ 的前提下,最小化其误分正样本的概率。可以看到,由于问题的转换,传统的基于精度 (Accuracy),曲线下面积 (AUC) 等目标的学习算法将不再适用。


假阳性率约束下的分类学习,在文献中被称为 Neyman-Pearson 分类问题。现存的代表性方法主要有代价敏感学习 (Cost-sensitive learning),拉格朗日交替优化 (Lagragian Method), 排序-阈值法 (Ranking-Thresholding) 等。然而,这些方法通常面临一些问题,限制了其在实际中的使用:

  1. 需要额外的超参数选择过程,难以较好地匹配指定的假阳性率;
  2. 排序学习或者交替优化的训练复杂度较高,难以大规模扩展;
  3. 通过代理函数或者罚函数来近似约束条件,可能导致其无法被满足。


因此,如何针对现有方法存在的问题,给出新的解决方案,是本文的研究目标。


动机:从约束分类到排序学习


考虑经验版本的 Neyman-Pearson 分类问题,其寻找最优的打分函数 f 与阈值 b,使得在满足假阳性率约束的前提下,最小化正样本的误分概率:

我们尝试消除该问题中的约束。首先,我们阐述一个关键的结论:经验 Neyman-Pearson 分类与如下的排序学习问题是等价的,即它们有相同的最优解 f 以及最优目标函数值:

这里, f(x[j]^-) 表示取负样本中第 j 大的元素。直观上讲,该问题本身是一个 pairwise ranking 问题,其将所有的正样本与负样本中第τn 大的元素相比较。从优化 AUC 的角度,该问题也可看作一个部分 AUC 优化问题,如图 1 所示,其尝试最大化假阳性率τ附近的曲线下面积。


图 1: Neyman-Pearson 分类等价于一个部分 AUC 优化问题


然而,由于引入了取序操作符 [.],可以证明,即使将 0-1 损失用连续函数替换,该优化问题本身也是 NP-hard 的。因此,我们考虑优化该问题的一个凸上界:

这里 l 是任意 0-1 损失的凸代理函数 (convex surrogate function)。(2)仍然是一个排序问题,其尝试最大化负样本中得分最高的那部分的「质心」与正样本之间的距离。这个新问题有一些良好的性质:

  1. 通过设计高效的学习算法,我们可以在线性时间内求得该问题的全局最优解,这使其非常适合于大规模数据下的场景;
  2. 形式上显式地包含τ,无需引入额外的损失超参数 (cost-free);
  3. 最优解 f 有可理论保证的泛化误差界。


我们也可以从对抗学习 (Adversarial learning) 的角度,给出排序问题 (2) 的一个直观解释。读者可以验证,(2)与如下的对抗学习问题是等价的:

其中 k = τn,且

换句话说,排序学习问题 (2) 可以看作是在两个玩家——打分函数 A 与样本分布 B 间进行的一个 min-max 游戏。对于 A 给出的每个 f,B 尝试从负样本分布的集合△中给出一个最坏的分布 p,以最小化 A 的期望收益。该游戏达到纳什均衡 (Nash equilibrium) 时的稳点,也就是我们要求的最优解。


τ-FPL 算法总览


如上所述,τ-FPL 的训练分为两个部分,排序 (scoring) 与阈值 (thresholding)。在排序阶段,算法学习一个排序函数,其尝试将正样本排在负样本中得分最高的那部分的「质心」之前。阈值阶段则选取合适的阈值,将学到的排序函数转化为二分类器。


排序学习优化算法


考虑与 (2) 等价的对抗学习问题 (3),其对偶问题如下:

这个新问题不含任何不可导项,并且目标函数 g 是光滑的 (Smooth)。因此,我们可以使用投影梯度下降算法求解该问题,并利用加速梯度方法 (Nesterov) 获得最优的收敛率。

线性时间的变上界欧式投影


排序学习算法的一个关键步骤,是将梯度下降的解投影到可行集 Gamma_k 上。我们注意到,这个投影问题是⼀⼤类被⼴泛研究的欧式投影问题的推⼴。然而传统⽅法仅对一些特例可以⾼效求解,即便对于该问题的一个简化版本,也仅能达到 O(nlogn +τn^2) 的超线性复杂度。


本文中,我们提出了一个算法,能够在 O(n) 的线性时间内高效地求解该投影问题,且其性能不受τ增长所带来的影响。该算法的核心是二分求根法与分治法的有效结合。根据 KKT 最优条件,我们将投影问题转换为一个求解分段线性方程组的问题,该方程组仅包含三个未知的对偶变量,且可以通过二分求根法获得指定精度的解。进一步地,利用方程组分段线性的特殊结构,以及对偶变量间「同变」的单调性质,我们可以在二分过程中逐步减少每次迭代的计算消耗,最终显著减少总的算法运行时间。实验中,我们观察到随着 n 与τ的增长,我们的算法较现有的求解该类问题的方法有一至三个数量级的性能提升,见图 2。


图 2:我们的方法与现存算法 (PTkC) 在求解简化版问题时的性能对比 (log-log 曲线)


阈值选择


阈值选择阶段,算法每次将训练集分为两份,⼀份训练排序函数, 另⼀份用来选取阈值。该过程可以进⾏多次,以充分利⽤所有样本,最终的阈值则是多轮阈值的平均。该方法结合了 out-of-bootstrap 与软阈值技术分别控制偏差及方差的优点,也适于并行。


理论结果


收敛率与时间复杂度 通过结合加速梯度方法与线性时间投影算法,τ-FPL 可以确保每次迭代的线性时间消耗以及最优的收敛率。图 3 将τ-FPL 与一些经典方法进行了对比,可以看到其同时具备最优的训练及验证复杂度。


泛化性能保证 我们也从理论上给出了τ-FPL 学得模型的泛化误差界,证明了泛化误差以很高的概率被经验误差所上界约束。这给予了我们设法求解排序问题(2)的理论支持。


图 3:不同算法的训练复杂度比较


实验结果


图 4 报告了不同算法优化部分 AUC 的效果,'N/A'代表该模型的训练无法在一周内完成。可以看到,τ-FPL 对于不同τ值,在大部分实验中都具有较好的表现。另外,其相比二分排序算法有明显的性能优势。


图 5 比较了不同算法输出的分类器的分类性能。这里选取 NP-score 作为评价标准,其综合考虑了分类器间的精度差异与违背假阳性率约束的惩罚。可以看到,采用 OOB 阈值的算法在大部分情况下均可有效地抑制假阳性率在允许范围内。另外,即使采用同样的阈值选择方法,τ-FPL 也可以获得较代价敏感学习 (CS-SVM-OOB) 更好的精度。


总结


在高风险分类任务中控制假阳性率是重要的。本文中,我们主要研究在指定的假阳性率容忍度τ下学习二分类器。为此,我们提出了一个新的排序学习问题,其显式地最大化将正样本排在 前 τ% 负样本的质心之上的概率。通过结合加速梯度方法与线性时间投影,该排序问题可以在线性时间内被高效地解决。我们通过选取合适的阈值将学到的排序函数转换为低假阳性率的分类器,并从理论和实验两个角度验证了所提出方法的有效性。



]]> 原文: http://ift.tt/2lpN201
RSS Feed

机器知心

IFTTT

完全云端运行:使用谷歌CoLaboratory训练神经网络

Colaboratory 是一个 Google 研究项目,旨在帮助传播机器学习培训和研究成果。它是一个 Jupyter 笔记本环境,不需要进行任何设置就可以使用,并且完全在云端运行。Colaboratory 笔记本存储在 Google 云端硬盘 (http://ift.tt/wZv67B) 中,并且可以共享,就如同您使用 Google 文档或表格一样。Colaboratory 可免费使用。本文介绍如何使用 Google CoLaboratory 训练神经网络。


工具链接:http://ift.tt/2zxtOdA


谷歌近期上线了协作写代码的内部工具 Google CoLaboratory。Colaboratory 是一个 Google 研究项目,旨在帮助传播机器学习培训和研究成果。它是一个 Jupyter 笔记本环境,不需要进行任何设置就可以使用,并且完全在云端运行。


Colaboratory 笔记本存储在 Google 云端硬盘 (http://ift.tt/wZv67B) 中,并且可以共享,就如同您使用 Google 文档或表格一样。Colaboratory 可免费使用。


CoLaboratory


首先,访问 CoLaboratory 网站(http://ift.tt/2C22u96 允许使用谷歌虚拟机执行机器学习任务和构建模型,无需担心计算力的问题,而且它是免费的。


打开 CoLaboratory,会出现一个「Hello, Colaboratory」文件,包含一些基本示例。建议尝试一下。


使用 CoLaboratory 可以在 Jupyter Notebook 上写代码。写好后执行 (Shift + Enter),代码单元下方就会生成输出。




除了写代码,CoLaboratory 还有一些技巧(trick)。你可以在 notebook 中 shell 命令前加上「!」。如:!pip install -q keras。这样你就可以很大程度上控制正在使用的谷歌虚拟机。点击左上方(菜单栏下)的黑色按钮就可以找到它们的代码片段。


本文旨在展示如何使用 CoLaboratory 训练神经网络。我们将展示一个在威斯康星乳腺癌数据集上训练神经网络的示例,数据集可在 UCI Machine Learning Repository(http://ift.tt/2BZCOKd

本文所用的 CoLaboratory notebook 链接:http://ift.tt/2lqzbWl


深度学习


深度学习是一种机器学习技术,它使用的计算技术一定程度上模仿了生物神经元的运行。各层中的神经元网络不断将信息从输入传输到输出,直到其权重调整到可以生成反映特征和目标之间底层关系的算法。


要想更多地了解神经网络,推荐阅读这篇论文《Artificial Neural Networks for Beginners》(http://ift.tt/2BYHyQ6


代码


问题:研究者获取乳房肿块的细针穿刺(FNA),然后生成数字图像。该数据集包含描述图像中细胞核特征的实例。每个实例包括诊断结果:M(恶性)或 B(良性)。我们的任务是在该数据上训练神经网络根据上述特征诊断乳腺癌。


打开 CoLaboratory,出现一个新的 untitled.ipynb 文件供你使用。


谷歌允许使用其服务器上的一台 linux 虚拟机,这样你可以访问终端为项目安装特定包。如果你只在代码单元中输入 !ls 命令(记得命令前加!),那么你的虚拟机中会出现一个 datalab 文件夹。




我们的任务是将数据集放置到该机器上,这样我们的 notebook 就可以访问它。你可以使用以下代码:

  1. #Uploading the Dataset

  2. from google.colab import files

  3. uploaded = files.upload()

  4. #Save uploaded file on the Virtual Machine's

  5. #Thanks to user3800642 from StackOverflow

  6. with open("breast_cancer.csv", 'w') as f:

  7.    f.write(uploaded[uploaded.keys()[0]])

输入 !ls 命令,检查机器上是否有该文件。你将看到 datalab 文件夹和 breast_cancer_data.csv 文件。




数据预处理:


现在数据已经在机器上了,我们使用 pandas 将其输入到项目中。

  1. import numpy as np

  2. import pandas as pd

  3. #Importing dataset

  4. dataset = pd.read_csv('breast_cancer.csv')

  5. #Check the first 5 rows of the dataset.

  6.    dataset.head(5)



CoLaboratory 上的输出结果图示。


现在,分割因变量(Dependent Variables)和自变量(Independent Variables)。

  1. #Seperating dependent and independent variables.

  2. X = dataset.iloc[:, 2:32].values  #Note: Exclude Last column with all NaN values.

  3. y = dataset.iloc[:, 1].values

Y 包含一列,其中的「M」和「B」分别代表「是」(恶性)和「否」(良性)。我们需要将其编码成数学形式,即「1」和「0」。可以使用 Label Encoder 类别完成该任务。

  1. #Encoding Categorical Data

  2. from sklearn.preprocessing import LabelEncoder

  3. labelencoder = LabelEncoder()

  4. y = labelencoder.fit_transform(y)

(如果数据类别多于两类,则使用 OneHotEncoder)

现在数据已经准备好,我们将其分割成训练集和测试集。在 Scikit-Learn 中使用 train_test_split 可以轻松完成该工作。

  1. #Splitting into Training set and Test set

  2. from sklearn.model_selection import train_test_split

  3. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

参数 test_size = 0.2 定义测试集比例。这里,我们将训练集设置为数据集的 80%,测试集占数据集的 20%。


Keras


Keras 是一种构建人工神经网络的高级 API。它使用 TensorFlow 或 Theano 后端执行内部运行。要安装 Keras,必须首先安装 TensorFlow。CoLaboratory 已经在虚拟机上安装了 TensorFlow。使用以下命令可以检查是否安装 TensorFlow:


!pip show tensorflow


你还可以使用!pip install tensorflow==1.2,安装特定版本的 TensorFlow。

另外,如果你更喜欢用 Theano 后端,可以阅读该文档:http://ift.tt/2C0wwK3

安装 Keras:


!pip install -q keras


  1. # Importing the Keras libraries and packages

  2. import keras

  3. from keras.models import Sequential

  4. from keras.layers import Dense

使用 Sequential 和 Dense 类别指定神经网络的节点、连接和规格。如上所示,我们将使用这些自定义网络的参数并进行调整。


为了初始化神经网络,我们将创建一个 Sequential 类的对象。

  1. # Initialising the ANN

  2. classifier = Sequential()

现在,我们要来设计网络。


对于每个隐藏层,我们需要定义三个基本参数:units、kernel_initializer 和 activation。units 参数定义每层包含的神经元数量。Kernel_initializer 定义神经元在输入数据上运行时的初始权重(详见 http://ift.tt/2CoHmwQ 定义数据的激活函数。

注意:如果现在这些项非常大也没事,很快就会变得更加清晰。


第一层:


16 个具备统一初始权重的神经元,激活函数为 ReLU。此外,定义参数 input_dim = 30 作为输入层的规格。注意我们的数据集中有 30 个特征列。


Cheat:


我们如何确定这一层的单元数?人们往往会说这需要经验和专业知识。对于初学者来说,一种简单方式是:x 和 y 的总和除以 2。如 (30+1)/2 = 15.5 ~ 16,因此,units = 16。

第二层:第二层和第一层一样,不过第二层没有 input_dim 参数。


输出层:由于我们的输出是 0 或 1,因此我们可以使用具备统一初始权重的单个单元。但是,这里我们使用 sigmoid 激活函数。

  1. # Adding the input layer and the first hidden layer

  2. classifier.add(Dense(units = 16, kernel_initializer = 'uniform', activation = 'relu', input_dim = 30))

  3. # Adding the second hidden layer

  4. classifier.add(Dense(units = 16, kernel_initializer = 'uniform', activation = 'relu'))

  5. # Adding the output layer

  6. classifier.add(Dense(units = 1, kernel_initializer = 'uniform', activation = 'sigmoid'))

  7. # Compiling the ANN

  8. classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

拟合:


运行人工神经网络,发生反向传播。你将在 CoLaboratory 上看到所有处理过程,而不是在自己的电脑上。

  1. # Fitting the ANN to the Training set

  2. classifier.fit(X_train, y_train, batch_size = 10, epochs = 100)

这里 batch_size 是你希望同时处理的输入量。epoch 指数据通过神经网络一次的整个周期。它们在 Colaboratory Notebook 中显示如下:




进行预测,构建混淆矩阵。

  1. # Predicting the Test set results

  2. y_pred = classifier.predict(X_test)

  3. y_pred = (y_pred > 0.5)

  4. # Making the Confusion Matrix

  5. from sklearn.metrics import confusion_matrix

  6. cm = confusion_matrix(y_test, y_pred)

训练网络后,就可以在 X_test set 上进行预测,以检查模型在新数据上的性能。在代码单元中输入和执行 cm 查看结果。


混淆矩阵


混淆矩阵是模型做出的正确、错误预测的矩阵表征。该矩阵可供个人调查哪些预测和另一种预测混淆。这是一个 2×2 的混淆矩阵。




混淆矩阵如下所示。[cm (Shift+Enter)]




上图表示:70 个真负类、1 个假正类、1 个假负类、42 个真正类。很简单。该平方矩阵的大小随着分类类别的增加而增加。


这个示例中的准确率几乎达到 100%,只有 2 个错误预测。但是并不总是这样。有时你可能需要投入更多时间,研究模型的行为,提出更好、更复杂的解决方案。如果一个网络性能不够好,你需要调整超参数来改进模型。


希望本文可以帮助你开始使用 Colaboratory。该教程的 Notebook 地址:http://ift.tt/2lqzbWl


原文链接:http://ift.tt/2zud3zp


]]> 原文: http://ift.tt/2CngaP9
RSS Feed

机器知心

IFTTT

2017年的10大AI顶会,风起云涌的故事 | 机器之心年度盘点


在过去的一年中,从 AAAI 到 NIPS 很多学术顶会都在关注人工智能和机器学习,而它们的参会情况与论文提交情况很大程度上都体现了这个领域的活跃程度。在本文中,机器之心概览了 2017 年人工智能顶会的参会情况、论文提交与接受情况、华人力量和获奖论文情况,我们希望读者能从这些观察中获得一些今年的趋势与研究主题。


文本主要分为两部分,第一部分是 2017 年顶会的概览,包括今年该领域 10 个顶会的论文提交与接受情况和它们的华人力量。第二部分重点关注这些顶会的获奖论文情况,我们将这些获奖论文主要分为计算机视觉、自然语言处理、学习过程和数据问题等 6 大主题,并从这些主题简要概述对应研究论文的观点与发现。


顶会论文概览


顶会论文的提交与接收


AAAI、CVPR、IJCAI、ICCV、NIPS 今年的投稿数量均超过 2000,接收的论文数量均超过 600。ICLR 2017 是举办以来的第五届,去年的论文录用率接近 30%,今年达到了 40%。KDD 论文录用率 18.9%,是上图十项会议中论文录用率最低的会议。(数量统计误差 ±5)


下面我们简要介绍这些会议及其今年接收论文的情况。


1. 综合性会议

  • ICML 是计算机科学领域的顶会之一。据统计,ICML 2017 共评审了 1676 篇论文,接收了 434 篇,录取率为 25.89%。
  • 本届 NIPS 共收到 3240 篇论文投稿,创历年新高,其中 678 篇被选为大会论文,录用率为 20.9%。40 篇为 oral 论文,112 篇为 spotlight 论文。
  • AAAI 是人工智能领域一年一度的顶级盛会,围绕人工智能的研究与发展,吸引了全球的人工智能精英。AAAI 2017 收到的投递论文有 2571 篇,其中 639 篇论文被大会接收,录用率不足 25%。
  • IJCAI(人工智能国际联合大会)是人工智能领域的顶级综合会议,被中国计算机学会推荐国际学术会议列表认定为 A 类会议。今年 IJCAI 共收到 2540 篇论文投稿,最终录用 660 篇,录用率 26%。

2. 计算机视觉领域会议

  • 根据谷歌发布的 2017 版学术指标,在计算机视觉与模式识别领域,CVPR 是影响力最大的论文发布平台。CVPR 全称为「IEEE Conference on Computer Vision and Pattern Recognition」(计算机视觉与模式识别会议),是近年来计算机视觉领域全球最影响力、内容最全面的顶级学术会议。今年的 CVPR 共收到有效提交论文 2680 篇,其中 2620 篇论文经过完整评议,最终总计 783 篇被正式录取(占总提交数的 29%)。被接收的论文中,71 篇将进行长口头演讲,144 篇进行短亮点演讲。
  • 国际计算机视觉大会(ICCV)全称是 IEEE International Conference on Computer Vision,由 IEEE 主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。据统计,本届 ICCV 共收到 2143 篇论文投稿,其中 621 篇被选为大会论文,录用比例 29%。其中有 45 篇口头报告(Oral)和 56 篇亮点报告(Spotlight)。大会公开的信息显示,本届共有 3107 名参会者。

3. 自然语言处理领域会议 

  • 国际计算语言学协会 (ACL,The Association for Computational Linguistics),是世界上影响力最大、最具活力的国际学术组织之一。今年 ACL 收到论文 1419 篇,接收 344 篇,录用率 24%。
  • EMNLP 是自然语言处理领域的顶级会议。今年 EMNLP 共收到 1466 篇论文,录用 323 篇论文,包括 216 篇长论文和 107 篇短论文,录用率 22%。

4. 深度学习领域会议


ICLR 是深度学习领域的盛会,每年举办一次。2013 年,深度学习巨头 Yoshua Bengio、Yann LeCun 主持举办了第一届 ICLR 大会。经过几年的发展,在深度学习火热的今天,ICLR 已经成为人工智能领域不可错过的盛会之一。ICLR 会议涉及的相关主题有:

  • 无监督、半监督、监督式表征学习
  • 进行规划的表征学习,强化学习
  • 度量学习和核学习
  • 稀疏编码和维度扩展
  • 层级模型
  • 表征学习的优化
  • 学习输出或状态的表征
  • 实现问题、并行、软件平台、硬件
  • 在视觉、音频、语音、自然语言处理、机器人、神经科学或任何其它领域的应用

ICLR 2017 收到了 507 篇论文,其中 196 篇论文被大会接收,录用率 38.7%。今年的论文评审结果也已出炉,提交论文的数量为 491 篇,而被接受的情况为:15 篇 oral(3%),183 篇 poster(37.3%),录用率为 40%。


5. 数据挖掘领域会议


KDD 是国际数据挖掘领域的顶级会议。据统计,KDD 2017 共收到 1144 篇论文投递,收录 216 篇,录用率 18.9%。


顶会中的华人力量


在计算机视觉领域的顶会中,到处都能见到华人的身影,很多参会的学者都会惊喜地发现 CVPR 接收论文名单有非常多的华人署名。而 ICCV 2017 同样将最佳论文和最佳学生论文都授予了何凯明等人。如下是计算机视觉获奖论文的华人作者情况(不完全统计):

  • CVPR 2017 最佳论文《Densely Connected Convolutional Networks》的两位共同一作 Gao Huang(黄高)、Zhuang Liu(刘壮)均为华人。黄高是清华大学博士、康奈尔大学博士后;刘壮也来自清华大学。另一篇最佳论文《Learning from Simulated and Unsupervised Images through Adversarial Training》的作者之一 Wenda Wang 毕业于卡内基梅隆大学,现任苹果公司机器学习工程师。
  • ICCV 2017 Facebook AI 研究员何恺明获得最佳论文奖,同时是最佳学生论文的作者之一。最佳学生论文《Focal Loss for Dense Object Detection》的一作林宗毅(Tsung-Yi Lin)毕业于国立台湾大学,后在康奈尔大学完成博士学位。此外,贾扬清领衔的 Caffe 团队获得 Everingham 团队奖。

在自然语言处理领域中,最大的亮点可能是 ACL 2017 有 5 篇国内论文入选杰出论文,分别来自北京大学、复旦大学、清华大学和中科院自动化所。以下是详细情况(不完全统计):


ACL 2017 最佳演示论文《Hafez: an interactive poetry generation system》共同一作 Xing Shi(史兴)本科毕业于清华大学,现于南加州大学读博。以下五篇 ACL 2017 杰出论文皆来自国内:

  • Adversarial Multi-Criteria Learning for Chinese Word Segmentation。作者:陈新驰、施展、邱锡鹏、黄萱菁(复旦大学)
  • Visualizing and Understanding Neural Machine Translation。作者:丁延卓、刘洋、栾焕博、孙茂松(清华大学)
  • Abstractive Document Summarization with a Graph-Based Attentional Neural Model。作者: Jiwei Tan、万小军(北京大学)
  • Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme。作者:郑孙聪、Feng Wang、Hongyun Bao(中科院自动化研究所)
  • A Two-stage Parsing Method for Text-level Discourse Analysis。论文作者:王义中、李素建、Houfeng Wang(北京大学)


EMNLP 2017 最佳长论文《Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints》作者 Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez 和 Kai-Wei Chang,其中来自弗吉尼亚大学的赵洁玉、王天露、张凯崴均为华人。一作赵洁玉 UCLA 二年级在读博士生,师从 Kai-Wei Chang(张凯崴)教授。主要研究领域为自然语言处理与机器学习。此前,在北京航空航天大学获得计算机本科及硕士学位,并在弗吉尼亚大学完成博士一年级的学习,现就读于 UCLA 计算机专业。


在综合性顶会和深度学习顶会中,也常有华人的论文获奖。其中值得注意的是 ICLR 2017 关于重新思考泛化的最佳论文,该论文非常有影响力,且一作也是华人。

  • IJCAI 2017 最佳学生论文奖《Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering》是优必选悉尼 AI 研究院创作的论文,一作王超岳,悉尼科技大学 FEIT 三年级博士生,优必选悉尼 AI 研究院访问学生,导师陶大程教授。陶大程是优必选 AI 首席科学家,他领导的优必选悉尼 AI 研究院有 13 篇论文被接收,除这篇外,论文《General Heterogeneous Transfer Distance Metric Learning via Knowledge Fragments Transfer》进入最佳杰出论文奖前三名。
  • ICML 2017 最佳论文《Understanding Black-box Predictions via Influence Functions》作者之一 Percy Liang 是著名华人学者、斯坦福大学副教授。
  • ICLR 2017 一共有 3 篇最佳论文,其中论文《Understanding deep learning requires rethinking generalization》的一作是毕业于浙江大学、现于 MIT 读博的 Chiyuan Zhang。论文《Making Neural Programming Architectures Generalize via Recursion》的作者 Dawn Song(宋晓东)本科毕业于清华大学,现任职于加州大学伯克利分校。


获奖论文分析


我们统计了 2017 年人工智能顶会的获奖论文数,并在简要地筛选后,统计了这些获奖论文的关注领域与关键词等比较有意思的信息。如下展示了大会获奖论文的分布情况,2017 年获奖论文不精确统计大约有 56 篇,其中包括了经典论文奖或其它年份发表的论文。



AAAI 2017 的奖项除了一篇最佳论文与一篇最佳学生论文外,还有另外 10 大奖项,包括经典论文奖、应用开发奖等 7 大获奖论文。但我们只会分析两篇最佳论文的主题与关键词。今年 AAAI 其它获奖论文的主题很有意思,例如经典论文主要开创了粒子滤波的应用,它为机器人定位提供了有效和可扩展的方法,而应用奖论文更是关注在线人才招聘和物理材料的合成与表征。除了论文奖项外,香港科技大学林方真教授因为对知识表达、非单调逻辑和行为理论等领域的重大贡献而获得 AAAI Fellow。


其它顶会的论文情况也和 AAAI 类似,我们将去除历年的经典论文和其它年份的论文。例如在今年 ICML 的经典论文中,2007 年的研究者关注结合 UCT 在线知识与离线知识以构建强大的 9*9 围棋系统,但近来深度强化学习和自我对抗策略等技术已经在围棋游戏中取得了很重要的成果,所以这一类的主题我们并不会深入探讨。


值得注意的是,很多顶会的经典论文都出现了支持向量机相关的主题。例如 ICML 经典论文 Pegasos: Primal Estimated sub-GrAdient SOlver for SVM 提出了一个简单有效的随机子梯度下降算法,用于解决支持向量机(SVM)提出的优化问题。KDD 的经典论文 Training Linear SVMs in Linear Time 提出了一种训练线性 SVM 的截平面算法,该算法经证明对于分类问题而言训练时间只需 O(sn),有序回归问题的训练时间为 O(sn log(n)),其中 s 为非零特征数,n 为训练样本数。而刚刚结束的 NIPS 也发布了关于 SVM 的经典论文 Random Features for Large-Scale Kernel Machines 提出了一种把输入数据映射到随机的低维特征空间中,然后再使用现有的快速线性化算法的方法。


此外,KDD 主要是数据挖掘领域与知识发现方面的顶会,所以虽然它与人工智能有很大的联系,但我们并没有将其纳入研究主题的统计。今年的 KDD 从主题上来看主要关注于时序数据与图算法,且接受的应用类论文占据了 40% 左右。该会议的最佳论文探讨了如何学习更简单的结构化表征方法,它结合众包与循环神经网络从产品描述中抽取向量表征,并且这些学到的向量能比传统信息检索方法更精确与快速地找到类比信息。除此之外,该会议的最佳应用论文关注于防御安卓恶意软件,它通过分析 API 之间的不同关系以创建更高层级的语义信息,因而检测出恶意软件的攻击者。今年 KDD 大会确实有非常多的见解与创意,不过限于我们的主题与关注点,后文并没有统计与分析 KDD 相关的信息。


因此,在今年顶会 56 篇获奖论文中,我们以下讨论了 32 篇获奖论文的主题与关键词等信息。


研究主题的分布


我们首先根据这 32 篇获奖论文分析了 AAAI、ICLR、ICCV 和 NIPS 等顶会(除去 KDD)的获奖研究主题。其中我们将这些获奖论文的主题分为 6 种,它们之间可能会有交叉,例如可能有论文使用强化学习的方法研究自然语言处理相关的问题。值得注意的是,学习过程这一主题描述的是最优化方法、模型拟合或模型验证等问题,数据问题描述的是新型数据集、数据隐私和数据偏见等相关的问题。以下展示了今年部分顶会获奖论文的主题分布:



在这些获奖论文的主题中,讨论地最多的是计算机视觉与自然语言处理。这两个任务也是目前非常流行的研究领域,从 CVPR 和 ICCV 专注于计算机视觉领域,ACL 和 EMNLP 专注于自然语言处理领域就可见一斑。对于其它如 AAAI、ICML 和 IJCAI 等综合性会议,它们关注地更多的是学习过程与数据问题。此外,强化学习和迁移学习等前沿话题在各大会议的获奖论文中也常提到。


1.计算机视觉


对于计算机视觉领域来说,贡献最大的当然是 CVPR 与 ICCV,其它如 IJCAI 等也有相关主题的获奖论文。这些获奖论文具体研究的方向主要有目标检测、图像标注、图像生成、语义分割、卷积神经网络架构等方面。今年唯一以研究卷积架构为主题的获奖论文是康奈尔与清华大学联合完成的 Densely Connected Convolutional Networks,他们发现如果卷积神经网络在接近输入层和输出层的层级中包含较短的连接,那么 CNN 就能在训练上显著地变得更深、更精确和拥有更高的效率。据此,他们提出了密集卷积网络(DenseNet),这种卷积神经网络以前馈的方式将每一层与其他层相连接起来。这篇论文的评价非常高,很多研究者认为 DenseNet 在 ResNet 基础上提出了更优秀的密集型连接方式,这种连接不仅能使得特征更加稳健,同时还能产生更快的收敛速度。虽然有学者指出 DenseNet 的内存占用太大,训练成本很高,但也有研究者测试表明在推断时它所需要的内存要比 ResNet 少。以下展示了 DenseNet 的基本架构:



除了卷积架构外,语义分割或目标实例分割最有影响力之一的获奖论文就是何凯明等研究者提出来的 Mask R-CNN,它是一种简单、灵活和高效的通用目标分割框架。Mask R-CNN 是基于 Faster R-CNN 的扩展,它在用于边界框识别的分支上添加了一个并行的分支用于预测目标的掩码。因此这种方法不仅能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩码。值得注意的是,何凯明是该最佳论文的第一作者,同时是今年最佳学生论文的作者之一,若加上 CVPR 2009、CVPR 2016 两篇最佳论文,那么他已有四篇获计算机视觉顶会的最佳论文。


Mask R-CNN 框架


在计算机视觉研究主题中,今年获奖论文讨论得比较多的可能就是目标检测。在 YOLO9000: Better, Faster, Stronger 论文中,作者提出了 YOLOv2 和 YOLO9000 检测系统。YOLOv2 能大大改善 YOLO 模型,并且以非常高的 FPS 获得更好的结果,而 YOLO9000 这一网络结构可以实时地检测超过 9000 种物体分类,这主要可以归因于 WordTree 混合了目标检测数据集与目标识别数据集,因此通过联合训练能实现非常好的效果。而在 Focal Loss for Dense Object Detection 论文中,研究者提出的全新 Focal Loss 方法,它集中于稀疏、困难样本中的训练,避免了训练过程中可能出现的大量负面因素。他们表明使用 Focal Loss 进行训练的 RetinaNet 可以在目标检测任务上达到一步检测器的速度,同时准确性高于业内最佳的两步检测器。


图像生成其实也是今年获奖论文比较关注的主题,例如苹果公司的 Learning from Simulated and Unsupervised Images through Adversarial Training 提出了模拟加非监督学习方法在使用合成图像方面展现出了显著的提升效果。而另一篇 Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering 提出了一种条理化的标签解纠缠的生成对抗网络(TDGAN),该 TDGAN 通过指定多个场景属性(如视角、照明和表现等)从单张图片重新渲染出感兴趣目标的新图片。若给定一张输入图像,解纠缠网络会抽取解开的、可解释性的表征,然后这些表征再投入到生成网络以生成图片。


2.自然语言处理


自然语言处理是除计算机视觉外另一个非常受关注的研究领域,甚至今年以 NLP 为主题的获奖论文比计算机视觉还要多。基本上,ACL 和 EMNLP 是对这一领域贡献非常大的顶会,今年该领域的获奖论文关注的也非常广,主要有机器翻译、语音语域、分词模型、语言的生成模型和其它一些 NLP 数据相关的问题。值得注意的是,自然语言处理领域和计算机视觉领域一样有很多引人注目的应用,最突出的就是神经机器翻译。虽然去年神经机器翻译就已经有了很大的发展,但今年很多研究者真正从编码器-解码器架构、注意力机制、强化学习方法甚至是 LSTM 与 GRU 的结构来提升神经机器翻译的性能。除此之外,自然语言处理其它很多方面都有非常大的进步,下面我们将简介今年顶会有关自然语言处理的获奖论文。


今年 NLP 获奖论文有很多关注于偏语言学的问题,例如在论文 Probabilistic Typology: Deep Generative Models of Vowel Inventories 中,研究者介绍了一系列深度随机点过程,并将他们与之前的计算性的、基于模拟的方法相对比。该论文提出了首个针对音韵类型学中基础问题的概率性方法,它希望通过深度神经网络的学习方法来对元音空间构建一个可训练的概率型生成分布,从而来研究语言类型学中的元音的分散性和聚焦性问题。此外,该论文的研究者在 ACL 大会演讲结束时表明 NLP 工具应该是进行科学研究的手段,而不止是工程任务,这也正是该论文将深度学习与传统 NLP 研究相结合的一次尝试。除此之外,The Role of Prosody and Speech Register in Word Segmentation: A Computational Modelling Perspective 探讨了在分词任务中语音语域和韵律学的作用,他们发现语域之间的区别要小于以前的,并且韵律学边界信息帮助成年人指向的语音要比婴幼儿指向的语音更多一些。


今年以 NLP 为主题的获奖论文还有另一个非常有意思的话题,论文 Hafez: an Interactive Poetry Generation System 提出了一种自动诗歌生成系统,它将循环神经网络(RNN)与一个有限态接收器(FSA)进行整合,因此可以在给定任意话题的情况下生成十四行诗。Hafez 还能让用户调整各种不同风格的配置,从而对已生成的诗歌进行修改和润色。


NLP 获奖论文除了以上研究型成果,还有一部分是因为在数据上或工具上有重要成果而获得了奖项。数据集、数据偏见或语料库等问题将在后一部分详细讨论,因为除了 NLP 中的数据问题,其它如图像标注等问题在大会获奖论文中也有讨论。另一项哈佛大学 NLP 组开源的神经机器翻译工具则体现了工程方向的研究成果。在论文 OpenNMT : Open-Source Toolkit for Neural Machine Translation 中,研究者介绍了一种用于神经机器翻译的开源工具包。该工具包以效率、模块化、可延展性作为优先考虑因素,从而在模型架构、特征表征、开源形态中支持 NMT 研究,哈佛 NLP 组在官网上表示该系统已经达到生产可用的水平。



OpenNMT 可以像主要的翻译服务提供商的已投入生产的系统那样使用。该系统简单易用,易于扩展,同时也能维持效率和当前最佳的翻译准确度。其特性包括:

  • 简单的通用型接口,仅需要源文件和目标文件;
  • 为高性能 GPU 训练进行了速度和内存优化;
  • 可以提升翻译性能的最新研究的特性;
  • 有多个语言对的预训练好的模型;
  • 允许其它序列生成任务的扩展,比如归纳总结和图像到文本生成。


3.学习过程


在我们的分类中,学习过程其实是一个很广的研究领域,它可以包括最优化方法、训练过程或方法、最大似然估计或其它构建损失函数的方法以及泛化问题与黑箱问题等话题。当然,一般学习过程指的是训练或最优化过程,但我们这里不妨将这个概念推广到一般机器学习模型所共有的问题,例如我们思考的黑箱问题、随机扰动或新型验证方法等适用于一般机器学习模型的研究主题。这一部分确实最近越来越受到研究者的关注,很多论文在讨论是否有更优的梯度下降方法、更好的模型解释或更美的参数估计方法,这一倾向也表现在今年顶会获奖论文的研究主题中。我们一共将 7 篇获奖论文归到这一类中,它们讨论了机器学习模型的各个方面,非常值得各位读者详细了解。


其实最近 ICLR 2018 评分排第二的论文就详细研究了最优化方法,在 ON THE CONVERGENCE OF ADAM AND BEYOND 论文中,研究者发现 MSPROP、ADAM、ADADELTA 和 NADAM 等方法都是基于使用前面迭代所产生梯度平方的指数滑动平均值,它们在对该滑动平均值取平方根后用于缩放当前梯度以更新权重。该论文表示些算法因为使用了指数滑动平均操作而有时并不能收敛到最优解(或非凸条件下的临界点)。因此研究者提出了一种 ADAM 算法的新变体,它通过赋予这些算法对前面梯度的「长期记忆」能力而解决收敛问题。在 NIPS 2017 的最佳论文 Variance-based Regularization with Convex Objectives 中,研究者探讨了一种风险最小化和随机优化的方法,该方法可以为方差提供一个凸属性的替代项,并允许在逼近和估计误差间实现近似最优与高效计算间的权衡。他们证明了该过程具有最优性保证(ertificates of optimality),并通过逼近和最优估计误差间良好的权衡在更一般的设定下比经验风险最小化方法有更快的收敛率。因此,前一篇论文表明了 Adam 等算法的局限性而提出改进方法,后一篇论文直接提出一种能提升标准经验风险最小化在许多分类问题测试上的性能的方法。


ADAM和AMSGRAD 在简单一维合成案例中的性能对比


最优化方法是标准的学习过程,但泛化与黑箱等问题与学习过程也有很大的关系。例如如何在训练过程中控制模型不产生过拟合,或理解模型的超参数与所学习到的参数等问题都是值得我们关注的话题。在 Understanding deep learning requires rethinking generalization 论文中,作者表明传统的泛化思考是将小的泛化误差归结为模型族的特性,或是与训练过程中的正则化技术有关。但这些传统的方法并不能解释大型神经网络在实践中泛化良好的原因,因此作者通过理论构建与实证研究表明只要参数的数量超过了数据点的数量,那么简单的 2 层深度的神经网络就已经有完美的有限样本表达能力。同样在 Understanding Black-box Predictions via Influence Functions 论文中,研究者使用了稳健性统计的经典技术影响函数,它可以通过学习算法追踪模型的预测并返回训练数据,因此我们能确定最影响给定预测的训练数据点。他们表示即使在理论失效的非凸和不可微模型下,影响函数的近似依然能提供有价值的信息来理解黑箱模型的预测结果。


4.数据问题


今年各大学术会议确实非常关注数据相关的问题,例如数据偏见、数据隐私和大数据集等。这一类主题大致可以分为两部分,即新型数据集、语料库、知识库,或者是数据本身存在的特性与问题。其实今年已经提出了好几个数据集,我们可能比较熟悉旨在替代 MNIST 的 fashion-MNIST 数据集,还有 Facebook 构建的用于星际争霸人工智能研究的新一代数据集 STARDATA,这些强大的数据集都推动了深度学习与机器学习向前发展。此外,苹果和微软等大公司对数据隐私问题做出了进一步的思考。例如微软今年推出了 PrivTree,它利用差分隐私算法保护位置隐私,而苹果的差分隐私算法从数学角度严格定义了隐私,他们的想法即仔细校准的噪声可以隐藏用户数据。今年 IJCAI 和 EMNLP 等顶会也都有以数据为主题的获奖论文。


对于获奖数据集与知识库等内容,在 A Corpus of Natural Language for Visual Reasoning 论文中,研究者提出了一种新的视觉推理语言数据集,包含对合成图像进行自然描述(3962 条语句)的 92244 对样本。该数据集证明,大多语言学现象都需要视觉和集合论(set-theoretic)推理,因此它在未来的研究当中将是极具竞争力的。YAGO 知识库的扩展 YAGO2 中,研究者表明它从维基百科、GeoNames 和 WordNet 中自动构建而成,涵盖了 980 万实体的 4.47 亿事实。人类评估已经确认其中 95% 的事实属实。


Alane Suhr 等人提出的视觉推理语言数据集。


对于数据偏见与数据隐私,Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints 论文研究了与多标签目标分类和视觉语义角色标注相关联的数据和模型。他们发现这些任务的数据集包含严重的性别偏见,且在这些数据集上训练的模型放大了这些偏见。例如,在训练集中,做饭涉及到女性的概率要比男性高 33%,而训练后的模型在测试集上将这一概率放大到了 68%。因此研究者建议可以注入用于校准现有结构化预测模型的语料库级约束,并基于拉格朗日松弛设计一种算法以进行群体推断。此外,谷歌大脑等研究员在论文 Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data 表示模型中可能会无意中隐含一些训练数据,因此通过仔细分析就能揭露一些敏感性信息。为了解决这个问题,研究者提出了教师集成的私有聚合(PATE),该方法通过黑箱的方式组合多个由互斥数据集训练的模型。因为这些模型都依赖于敏感性数据,所以它们并不会公开,但是它们还是可以作为「学生」模型的「教师」。因此,即使攻击者可以访问学生与检查内部运行工作,但他并不能直接访问到单一教师的基础参数或数据。


5.其它问题


其实今年的学术会议的获奖论文还有很多关注于强化学习与应用方面。在强化学习方面,The Option-Critic Architecture 论文表明时间抽象(temporal abstraction)是强化学习中对学习和规划进行扩展的关键,他们为 option 推导出策略梯度定理,并提出了一种新型 option-critic 架构,它能同时学习内部策略和 option 终止条件而不需要提供任何额外的奖励或子目标。而在应用方面,Making Neural Programming Architectures Generalize via Recursion 提出了使用一种使用递归来增强神经架构的方法,他们在一个神经编程器-解释器框架中实现了这种递归,且该框架可用于四种任务:小学加法、冒泡排序、拓扑排序和快速排序。该论文的研究者最后表明我们有必要结合使用递归这样的概念,来使神经架构能稳健地学习程序语义。


结语


今年的机器学习领域,尤其是深度学习方法非常引人注目,这一点从顶会的提交论文与参会人数就能体现出来。例如在 NIPS 2017 的第一天,长滩会展中心门口的注册排队长龙「长到可以让你看几篇论文」。所有这些知名的顶会都表明着这个时代刚刚好,很多想法、很多可能都能通过研究与探讨得到实现。最后祝各位读者在新的一年里都能实现各自的想法,为蓬勃的人工智能领域与机器学习社区留下一些印记。机器之心在 2018 也将继续并深入地观察学术会议,我们将展现这个蓬勃领域最可爱的一面。


]]> 原文: http://ift.tt/2lpKnDz
RSS Feed

机器知心

IFTTT

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...