2020年9月16日星期三

EMNLP 2020 录取结果已出,听说你中的是Findings?

作者 | 陈大鑫
EMNLP 是由国际语言学会(ACL)下属的 SIGDAT 小组主办的自然语言处理领域的顶级国际会议,在计算语言学类别下影响力排名全球第二。EMNLP 每年举办一次,去年则与 IJCNLP 联合,在香港举办,今年由于疫情转为线性举办。
昨日,EMNLP 2020 录取结果出炉:接受论文754篇,接收为Findings论文520篇,被拒论文1840篇,总体接收率为24%。
论文结果一出,几家欢喜几家愁,有人连中几篇,还有人被拒表示立马转投AAAI......
做科研很是辛苦,AI科技评论祝每一位科研er都劳有所获。
今天AI科技评论主要关注一下顶会的变化。
因为新冠疫情,AI顶会的参与形式不可避免地从线下转为了线上,而在参会形式之外,关于AI顶会本身的一些制度创新也在“不悄然”地发生变化,比如前些天AI科技评论刚刚报道的NeurIPS开启论文预注册模式:“我有一个顶会idea还没做实验,NeurIPS:先占坑再实验!”
而今年,EMNLP 2020带来的创新是:“Findings of ACL: EMNLP 2020”。
这是一种新的接收论文类型,EMNLP表示,这将使更多高质量的论文(短篇和长篇)被接收。它用于刊登在主会上未被接收,但经过程序委员会评估为足够solid的工作,其实质、质量和新颖性有足够保证。这些论文将作为ACL选集的一部分被收录。
1
Findings详细介绍
Findings中的论文将遵循与EMNLP 2020会议录中接受的论文相同的时间表。也就是说,它们有相同的DDL。
这些论文与EMNLP会议接收的论文不同之处在于,Findings论文不会在会议上进行演讲(包括演讲和poster)。被Findings接收的论文不能提交给其他会议或期刊。
除了新颖性、严谨性、实验鲁棒性等评审标准外,评审者还将对论文的“可发表性”进行评估。
EMNLP表示,他们提出这个想法的目的是,将主会论文的排名过程与评估论文是否具有足够的实质性、质量和新颖性的过程分开。这基于如下假设:存在大量符合可发表标准的被拒论文,由于各种原因而无法被会议接收。
某些类型的论文更适合出现在Findings中,例如:
1、扩展了有关特定任务的SOTA水平的论文,但是对于EMNLP社区而言,却没有新颖的见解或发现;
2、实验实现良好,想法新颖,并提供详尽的分析和发现,但使用的方法被认为不够“新颖”;
评审委员会对评审Findings论文的普遍要求是,审稿人必须同意论文写得好、有原创性、有合理的方法论并包括适当的分析和结论。
Findings论文与主会论文的不同之处在于,无需产生明显的影响力,因此在小众领域开展的工作以及其他更具特色的工作会更符合资格。
被Findings接收的论文可以立即将其在线发表。对于时间特别紧迫的研究而言,这将是一个有吸引力的选择。
例如,如果由于被EMNLP拒绝而推迟发表,论文的新颖性将会降低。这对于在两次会议之间的重叠匿名时段的论文也有好处。当然,Findings接收论文的作者可以通过撤回或不提交论文终稿而选择退出。 
EMNLP表示,许多论文在arXiv上都处于低迷状态,而从未在同行评审中发表过,因为它们被NLP研究的不断加快所取代。
这种新的发表方式将使更多的作者有机会在给定的时间点发表具有杰出贡献的论文,即使它们的长期影响可能不大。同时这也将减少AI领域中未经评审的工作,从而提高论文质量。
一些人提出“该计划会加剧评审和论文接受方面的偏见”的担忧,EMNLP则回应,审核过程并不完美,存在一些固有偏差。他们将尽力缓解这些偏见,并确保评审过程尽可能公平。会议的主要重点是还是主会论文,只有在确定主会论文之后,审稿人才会查看其余的论文,以确认那些值得被Findings接收的论文。
如果这种新的发表方式得到EMNLP社区的热烈欢迎,并得到足够的采纳,官方预计Findings机制将在之后的会议上继续运作。
最后,EMNLP程序主席表示,他们希望研究人员能以在Findings中发表论文为荣。
以上有关Findings的介绍其实最早在今年4月19日就在EMNLP官网就有所通知,但是大家对于这种“新螃蟹”多少有些疑惑,于是,EMNLP 程序主席Tim Baldwin在今年7月30日对有关Findings的相关问题整理出了5个官方回答。
2
有关Findings的官方回答
1、Findings的存在是否会使评审人员有权利从主会上驳回论文,而这些论文本来是可以被接收的?
我们不希望这种情况发生,但是要承认有这种风险。根据此反馈,我们决定不让评审人员者参与“Findings”决定;相反,该决定将完全由高级程序委员(senior programme committee)决定。我们将注意确保主会的接收决定不会受到有关Findings接收决定的影响。
2、我们能更准确地定义将“Findings ”论文与主会论文区分开的原因吗?
虽然我们很乐意,但是它是很难确定的。我们在较早的博客文章中提供了一些广泛的指导原则,在将来可能会有更清晰的定义。暂时来讲,我们希望这些差异将有序地出现,类似于标准会议上的talks和posters之间的差异,该会议目前也缺乏具体的定义。
3、我们将如何衡量Findings实验的成功与否?
首先,我们将衡量在Findings中提供的论文数量占比。如果接受率很高,那么我们将评判对该新出版物对社区的价值。深入研究,我们可以尝试描述论文提交及其评论的方面,这些方面可以预测作者的决定。
其次,我们将对论文作者做一些调查,以评估他们对“Findings”的看法,包括那些收到“Findings”通知的论文作者,那些被主会接收的作者以及那些被拒绝的作者。我们将去积极了解作者对Findings的偏好。我们也欢迎社区提出更好地建议。
4、Findings对workshops和其他会议有什么影响?
论文被Findings接受的作者可能更喜欢将其投给workshops或转投随后的顶会(此处@AAAI、NAACL、ACL)。
许多workshops 正朝着non-archival 进程迈进,允许作者介绍他们在其他会议发表的论文。因此,我们将鼓励EMNLP上的workshops邀请接收为Findings论文的作者介绍他们的工作。请注意,并非每篇论文都能与在EMNLP上举办的workshop匹配,因此无法保证这将适用于所有Findings论文。
总体而言, Findings不应降低workshops上发表论文的质量。我们承认Findings可能会在会议周期的晚些时候影响会议,但是我们认为作者和审稿人的利益使它成为一个值得权衡的选择。
5、在主会上,Findings 论文可能会有某种形式的presentation / poster吗?
我们不打算如此。如果日程安排和技术允许,我们也许可以为Findings 论文进行某种形式的简短介绍,例如在以前的会议中举行的“海报互吹--poster boaster”和“一分钟疯狂--one minute madness”会议。但现在我们不承诺任何事情。
ACL刚刚进行了一项有关审核的调查,其中包括有关“Findings/存档”的问题。ACL审核委员会正在处理此反馈意见,并将等待EMNLP试验的结果,然后对Findings / ACL存档采取进一步的措施。
在EMNLP试验完成之后,我们将对社区对Findings的观点有一个更好的了解。就目前情况而言,我们不确定这将是一次性的尝试,还是像原先计划的那样继续作为未来会议的一部分。
3
有关Findings的知乎问答
昨日,在EMNLP 2020 录取结果出来后,知乎上“如何评价EMNLP增加Findings of EMNLP这个类别?”的问题受到了很多人的关注,也有一些大V做了相关回答。
1、清华大学刘知远@zibuyu9对此问题给出了很中肯的建议:
最近收到很多私信问怎么看Findings和建议,以下是我的个人看法。
因为录用Findings的是得分略低于录用正会的论文,这些论文应该质量都还可以,所以Findings应该会变成一份受人尊敬的NLP论文集;但同时,录用机制又给同行暗示,这些论文从统计上要比正会差一些。所以,我的建议是,如果你认为自己的工作还有较大的改进余地,也不着急抢先发表,可以考虑认真修改后转投后面的AAAI、NAACL或ACL;否则,可以接受在Findings上发表,以腾出更多精力来开展新的研究工作。
2、复旦大学邱锡鹏本次EMNLP中了几篇Findings,这里现身说法:
中了几篇Findings,所以专门研究了下。
ACL的官方说明:https://ift.tt/32BPFlo
定位:ACL官方认证的论文存档(a.k.a. “ACL archives”),不像http://arxiv.org那样任何人都可以上传。
和主会接受论文的区别:Findings论文不给主会上报告,其它没有清晰定义,就像很难区分口头报告和海报一样。
For the time being, we hope that the differences will emerge organically, similar to the difference between talks and posters at a standard conference, which also lacks a concrete definition.
其实就是review分数低一些。看大家的反馈,这次EMNLP比主会接受论文的下线分数低1~2分。
要想评估含金量,最快的是等list公布后,可以评价下里面的论文质量。真正的评价估计得等3~5年之后了,到时看看这批论文的引用率怎样。
个人认为:1~2分的差距和评审中的随机性相比,几乎可以忽略。因此,含金量还是有保证的。如果不在乎是否一定要在CCF推荐列表中,也是个不错的选择。将精力多用在下一个工作上更值得。
3、还有一网友则从功利、影响力、学生/审稿人三个角度说道:
1 、功利的讲一讲,paper肯定是被emnlp承认的,就像其他答主所说,regular和workshop之间。中国标杆CCF估计严格来看是算不了B了,毕竟short paper和Demo paper在正刊里都算不了。
会议论文指“Full paper”或“Regular paper”(正式发表的长文),对于会议上其他形式发表的论文如Short paper、Demo paper、Technical Brief、Summary以及作为伴随会议的Workshop等不计入目录考虑的范围。
2 、从影响力角度讲,在疫情时代,我觉得挂arXiv就算发了,自媒体报道你就算oral了。以今年acl的经验来看,在线会议扩大影响力不太可能了。所以finding和主会可能都不如早点arXiv
3 、对学生来讲,有总比没有强。肯定是对研究的一种肯定。对审稿人来讲,这个极大的缓解了下一个会的压力,终于不用再审一次了。
总之,现在arXiv和leaderboard这么多,好的工作不会被埋没,也同时鼓励了很多新入行的同学。多一个EMNLP finding我觉得是个好东西。
4、知乎匿名网友1表示官方给出的Findings定位应该是介于主会和workshops之间:
其实EMNLP的官方说明还是挺清楚的。
关于含金量,官方的说法是 expect to be higher for findings than for most workshops。所以定位应该是介于main conference和workshops之间。EMNLP强调findings有着和EMNLP相同的审稿和camera-ready timeline,以及会被发布在ACL anthology,让人觉得和EMNLP有着相当的含金量。但我觉得这些并不是含金量的决定因素。。。。关键还是看收录为findings的论文数量和质量。
至于什么样的工作应该更多考虑findings而不是转投别的conference,官方的说法是:This might be more pertinent if the paper has already been rejected from another publication venue, or if the author needs to fill out their CV, e.g., a PhD student wanting to secure a postdoc or faculty position. Other reasons might be that the importance of the work may diminish with time, and the work needs to be published quickly to have an impact.
这样看来就比如申请PHD或者Faculty,来不及等别的会出结果了,被findings收录肯定是好过没有发表。。。还有就是热门的方向和想法,很可能在转投时候被别人占坑的,快速在findings发表也是一个好的选择。
5、知乎匿名网友2则拿全日制非全日制的名分举例,直白地说道:
个人意见:说白了想收你钱,又不想给正式名分。
可以类比刚出来的时候非全日制硕士和全日制硕士,同一张卷子,同一复试线,全日制被刷的可以调剂非全日制。官方强调含金量一样,但是用人单位那边就难说了。因此有的被刷的同学贪图名校的名分就读了非全,有的人不甘心再来就再来一年冲全日制。非全日制含金量主要看你的目标就业单位怎么看,同理,Findings的含金量主要看你的学校、目标单位的评价体系。
当然,除了实际上的含金量,还有面子的问题。你读了北大非全,可以说自己是北大的,但总是底气不足,但起码是北大啊,但还是非全,但起码是北大...
看你怎么权衡了。Findings同理。
6、知乎匿名网友3最是直接,直接拿数据说话:
Accept = 754
Accept-Findings = 520
Reject = 1840
Accept: 24%
Accept+Findings: 41%
我们接上面网友的数据来看,Accept+Findings的接收率达到了41%,如果都算以往的顶会论文应有的质量,那这是什么样的一个接收率呢?一届顶会能录取这么多论文吗?得分多少的论文才能被录取的?
那就得看看EMNLP近两年论文得分和录取情况了。
4
EMNLP近两年录取情况
EMNLP 2018年录取情况
EMNLP 2018共收到论文 2100 多篇(数量比去年多出 46% ),收录 549  篇,接收率为 24.6%;另外收到 72 篇 demo 论文(数量比去年多出 40% ),收录 29 篇(接收率为 40%)。
本次收录的论文中,长论文共有 1376 篇投稿,共收录 315 篇,接收率大约占 25.5%,其中,140 篇作为 talk 被收录,收录率为 10.2%,211 篇作为 Poster 被收录,收录率为 15.3%;短论文共有 855 篇投稿,共收录 198 篇,接收率大约占 23.2%,其中,81 篇作为 talk 被收录,收录率为 9.5%,117 篇作为 Poster 被收录,收录率为 13.7%。另外,大会还收录了 10 篇 TACL 论文,3 篇被作为 talk 收录,7 篇被作为 Poster 收录。
从论文得分情况来看,分数在 3.33 分以下的论文基本上都被拒了,得分在 3.67 以上的论文很少被拒。
EMNLP-IJCLPN 2019年录取情况
本次大会共收到1813篇长论文和1063篇短论文,有效投稿2876篇,比去年的2100余篇增长了1/3;其中长论文接收做Oral 报告164篇,Poster301篇,接收率 25.6%;短论文被接收Oral 48篇,Poster 170篇,接收率20.5%,总接收率23.7%,相比起去年 24.6%的接收率略有下降。
稿论文数量的增加也提升了论文选择的难度。据AI科技评论了解,从论文的评审及程序委员会的组织结构上,EMNLP延续了类似ACL2019的做法,即每个领域邀请一位资深区域主席(Senior Area Chair),每个资深领域主席下设多名领域主席(Area Chair),每篇论文由一名AC主席及三名评审者(Reviewer)负责。
本次会议的AC共有152人之多,以保证所有论文都能得到充分的阅读和评分。从今年的论文得分和录用率看,今年的论文录用难度加大,去年分数在 3.67 及以上的论文很少被拒,而今年分数在3.67的论文仍有30%以上被拒,要得到3.83分才会比较保险。这一结果也反映出了NLP研究的火热和竞争激烈程度。
可以看出,EMNLP的最近两年的录取率都稳定在24%-25%,因此,中了Findings的某些论文的质量是存在商榷的?也说不准其实每年都有这么多优秀论文,但是以往都被各种奇葩评审和严控录取率给限制住了?
5
不盲目以SOTA评论文
今年5月份, EMNLP 组委会就专门向审稿人发布了一篇建议公告,指出审稿人应该做什么以及不应该做什么,并特别强调“一篇论文的贡献可以是在效率、泛化能力、可解释性和许多其它的指标上有所进步。任何令人信服的贡献都不应该仅仅因为没有在某些指标上取得最高排名而被拒绝。”
在这里,EMNLP 组委会希望重新强调一些建议/不建议做的事,希望它们能够帮助审稿人和作者。
首先,请评价论文的贡献。此时,你应该用到你在 NLP 领域的专业知识。我们建议你不应该仅仅因为作者在论文中给出的实验结果较好,或者在数学上似乎很复杂就接收论文。这都不是论文构成贡献的充分或必要条件。
同时,我们还建议你不应该仅仅因为有些论文的实验结果没有比目前最佳的工作(SOTA)好就拒掉它们。在之前的 ACL 大会上,一些审稿人过于看重 SOTA 的模型性能,他们给任何没有达到 SOTA 性能的系统都打了低分。
然而,我们的目的是发表真正最好的论文,那么一个具有建设性的问题就是「论文应该在哪些方面最先进?」。正如博文「Peer review in NLP: reject-if-not-SOTA」中所谈到的,一篇论文的贡献可以是在效率、泛化能力、可解释性和许多其它的指标上有所进步。任何令人信服的贡献都不应该仅仅因为没有在某些指标上取得最高的排名而被拒绝。
其次,在阅读论文和撰写审稿意见时,请考虑下面这些重要的因素:
  • 论文提出了什么学术观点,论文的哪些内容对这些观点起了什么支撑作用?如果论文提出了观点 X 并取得了一定的性能提升,那么这种性能提升是否真的是由 X 带来的?
  • 审稿意见要详细具体。例如,如果你认为作者忽略了一些需要引用的关键论文,请在你的审稿意见中将这些参考文献列出来。引用这些文献可能对你来说是显而易见的,但是作者往往并不这么清楚。详细的审稿意见可以帮助作者制定一份有力的针对审稿意见的应对方案,并在他们的论文中解决这些问题。值得注意的是,作者并不一定要引用或对比同时期的其它工作(即在论文提交三个月内出现的其它文献),特别是在这些论文没有在经过同行评审的平台上发表的情况下。
  • 请提出具有建设性的建议。指出论文在哪些方面做得不好,可能在评审时起到把关性的作用(给出拒稿的理由),但是这样做对作者的帮助就没有那么大了。给出一些关于作者可以如何改进这些存在问题的方面的建议,则可以让他们把工作做得更好。
  • 即使在批评的时候,也请注意使用友善的语言。审稿人可能会很容易变得有些激动,写出一些你永远不会当着别人的面说的不礼貌的话。请尽量在你的审稿意见中保持礼貌。最后需要注意的是,现在越来越多的作者会在社交媒体上公开评审意见(尤其是当这些评审意见以不切实际的理由拒掉这些论文时)。
因此,我们建议审稿人不应该基于下面的原因拒掉一篇论文:
  • 论文的语言或写作风格。请重点关注论文的实质性内容。我们理解,有时论文的语言或写作风格很差,以至于审稿人无法弄懂论文的内容和实质。在这种情况下,拒稿是可以的,但你只有在努力弄懂这篇论文后才能这么做。
  • 论文的研究工作针对的语言不是英语。我们关注的是针对任何语言的自然语言处理。
  • 论文的实验结果并不比 SOTA 的工作好。请根据上文和「Peer review in NLP: reject-if-not-SOTA」(https://hackingsemantics.xyz/2020/reviewing-models/)中给出的建议,查看论文的贡献和发现。
  • 论文没有使用某类特定的方法(例如,深度学习)。好的工作并不要求一定要使用某种特定的方法。请说明为什么需要这种方法。想想这篇论文的贡献是什么,请牢记:使用多种方法并不是一件坏事。
  • 论文的方法过于简单。我们的目的是不要设计出最为复杂的方法。在这里,请再想想论文的贡献和发现是什么。通常,使用最简单的方法完成的论文的引用量是最多的。如果某种简单的方法比以前的工作中更复杂的方法性能更好,那么这通常是一个重要的发现。
  • 论文的主题范围较窄或者过时。请保持开放的心态。我们并不希望整个研究社区都争相研究同一个火热的话题。请关注论文的贡献,想想它对我们的研究社区有何影响。
  • 如果论文的主题是全新的,这样一来我们就没有现有的对比工作,或者所有现有的工作都是在另外的领域完成的。我们需要对涉足新领域的论文保持兴趣。论
  • 论文介绍的是研究资源。在像 NLP 这样依赖于有监督机器学习的领域中,数据集的开发与建模工作同等重要。博文「Peer review in NLP: resource papers」(https://hackingsemantics.xyz/2020/reviewing-data/)讨论了接收/驳回一篇描述研究资源的论文的原则,大家可参考。
参考链接:
https://2020.emnlp.org/blog/2020-04-19-findings-of-emnlp/    
https://ift.tt/3iCtjG4
https://ift.tt/2Rx8Kih

EMNLP 9月16日出录用结果了!
加AI科技评论的官方微信,备注EMNLP ,拉您进交流群!

[赠书福利]
在AI科技评论9月11日推文“《柏拉图与技术呆子》:探讨人类与技术的创造性伙伴关系”留言区留言,谈一谈你对本书的相关看法、期待等。
AI 科技评论将会在留言区选出5名读者,每人送出《柏拉图与技术呆子》一本。
活动规则:
1. 在留言区留言,留言点赞最高且留言质量较高的前 5 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服(aitechreview)。
2. 留言内容和留言质量会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。
3. 本活动时间为2020年9月11日 - 2020年9月18日(23:00),活动推送内仅允许中奖一次。
点击阅读原文加入“EMNLP”小组!
继续阅读

没有评论:

发表评论

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...