2018年2月27日星期二

打游戏时领悟了“向死而生”,这个AI算法真的不虚强化学习

问耕 发自 凹非寺量子位 出品 | 公众号 QbitAI

来自德国弗莱堡大学的研究团队,最近有了一个好玩的发现。

AI又在打游戏时掌握了新技能。

"向死而生"

这个游戏是雅达利平台上的经典游戏Qbert:一个伪3D游戏,玩家需要控制角色(橙色章鱼)在立方体金字塔中跳跃,每成功一次,立方体就会变色。全部变色之后,就会进入下一关。而在这个过程中,需要躲避开障碍物和敌人。

研究团队开发的AI智能体(agent)玩这个游戏时,开始还是普通玩法,按照规则累积积分。然后,智能体突然对过关失去兴趣。

相反,智能体开始"钓鱼":站住不动,吸引敌人(紫色小球)来到身边,然后智能体操纵角色跳到敌人头上。这是一种杀敌的方法,也是自杀的方法。但是主动杀敌之后,能够产生足够多的分数来获得额外的生命奖励。

于是智能体开始一遍遍的重复这种向死而生的手法,如上图所示。

不止如此。

AI智能体还发现了一个Bug。在完成第一关之后,智能体操纵角色从一个立方体跳到另一个立方体,这似乎是一种随机的跳跃。但由于某种人类不了解的原因,游戏没有进入下一关,整个立方体金字塔开始闪烁。

然后智能体平白无故开始获得大量积分。如下图所示。

同样有意思的是,智能体也不是每次都能利用好这个bug。嗯,不是每次都能成。

当然还有其他的好玩的事儿,暂时按下不表。

不虚强化学习

当然,搞研究不是为了好玩。

弗莱堡大学的这个研究,主要关注的是进化策略(ES)。而且是一种非常基本的进化策略算法,没用镜像采样,没有衰减参数,没有任何高级优化。

在研究实验中,基于OpenAI Gym评估了八个雅达利游戏中的性能表现,这些游戏难度等级不同,简单的如Pong(乒乓)和Breakout(打砖块),复杂的如Qbert、Alien。此前,强化学习也都是在这些游戏上取得惊人的进展。

这个基于ES算法的AI,网络结构与原始DQN相同。变化之处,是把激活函数从ReLU变成了ELU,并增加了批量标准化层。

详细的研究过程,可以参考如下论文:Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari

http://ift.tt/2ozJuJf

总之,研究团队得出结论:即便是非常基础的规范ES算法,也能实现和强化学习相同甚至更好的性能。

而且他们还定性地证明了,ES算法与传统的强化学习算法相比,也有非常不同的性能特征。在某些游戏中,ES算法能更好的学会探索环境,并能更好的执行任务。

当然在另外的一些游戏中,ES算法有可能陷入次优局部最小值。

研究团队表示,如果能把ES算法与传统强化学习算法结合,可能会出现强强联手的局面,并推动现有人工智能相关技术的新进展。

基于ES算法搭建的AI智能体,在上述几个游戏中的表现,可以在下面这个视频中感受一下,除了开头提到的一些案例,期间也有其他有趣的游戏策略出现。

undefined_腾讯视频

附一个剧透:0:00 Alien,0:29 BeamRider,2:30 Breakout,3:15 Enduro,4:44 Pong,5:38,Qbert exploit,6:12 Qbert bug,6:47 Seaquest,8:36 SpaceInvaders。

曾被LeCun硬怼

这次弗莱堡大学的研究,基于OpenAI此前发布的ES算法。当然,弗莱堡大学公布的成绩表明,他们的AI玩游戏更胜一筹。并且用了一张表进行了详细的对比。

他们把相关代码也公布在了GitHub上,地址如下:http://ift.tt/2CrDP1p

进化策略(ES)是一种已经发展了数十年的优化技术,去年OpenAI发表论文Evolution Strategies as a Scalable Alternative to Reinforcement Learning中指出,ES算法可以与强化学习方法媲美,耗时更少而且代码简单。

对这个理论感兴趣的同学,阅读论文请前往:https://arxiv.org/abs/1703.03864,以及GitHub地址在此:https://github.com/openai/evolution-strategies-starter 。

不过,当时这个理论遭遇Yann LeCun的正面硬刚。

大意是说:

1、基于梯度的优化,远比黑箱优化更有效率

2、黑箱优化应该是最后的办法,无法基于梯度优化时才用

3、对于知道强化学习和黑箱优化的人来说,OpenAI这篇东西没什么用

不知道你们怎么看。

今天,就酱吧~

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2oAZkTX
RSS Feed

RSS5

IFTTT

92分钟和26秒:这家公司的AI在标准商业合同审查PK中,完败20位顶尖律师

撰文 | 微胖


最近,法律人工智能平台 LawGeex 公布了一项最新研究成果。在标准商业合同审查中,二十位拥有数十年公司法和合同审查经验的美国顶尖律师,败给了该公司的人工智能系统。


来自律所、公司等机构的二十位资深律师参加了一场比赛。比赛要求他们在 4 个小时内审阅五份标准保密协议(NDAs)并找出其中 30 个法律问题,包括仲裁、保密关系和赔偿金(indemnification)等。这些问题也是当今商业活动的基础。


「大多数合同,无论是遗嘱、公司经营协议还是保密协议,都非常相似。」参与了这次研究的知识产权律师 Grant Gulovsen 说,这次比赛设置的任务和律师日常工作非常相似。


比赛涉及的五份保密协议来自安然数据集(Enron Data Set), 也是行业常用文档标准语料库。这几份保密协议是美国公司(包括安然、嘉吉、太平洋瓦电等)使用的真实、日常协议,形式不等——2 页、3 页、2 份 4 页和 5 页保密协议。这些合同从未被公司 AI 系统处理过,比赛模拟了系统首次接触到客户输入文档的真实场景。


结果在准确率上,LawGeex 的人工智能系统取得了平均准确率 94% 的成绩,而人类平均准确率只有 85%。其中,在一份保密协议中,人工智能审查准确率达到了 100%,而人类律师最好成绩为 97%。


在时间上,律师平均花费 92 分钟完成所有保密协议的审查工作。其中,一位律师花了 156 分钟才完成任务,而花费时间最短的律师用时 51 分钟。不过,与此形成鲜明对比的是人工智能完成所有工作的耗时仅为 26 秒。

比赛结果


更加详细的结果


LawGeek 之所以将这次研究聚焦在保密协议上,主要是考虑到它是目前最为常见的商业合同。


每家公司(不论大小)每天都要接触到各种商业合同问题。其中,给定时间下,典型的财富 1000 强公司管理的合同平均数量高达 2 万到 4 万份,但是,83% 的公司都对现有组织的合同管理流程不满。尤其是保密协议,通常需要耗费一个礼拜甚至更长的审查时间,如此漫长的过程不仅让其他部门倍感灰心,也降低了交易速度。


更为糟糕的是,在工作量不降反增的前提下,不少公司却在裁减法律服务的预算。数据显示,在近三分之二的法律部门工作量变多的情况下,只有 28% 的法律部门在招人。但是,鉴于保密协议的战略性地位,特别是公司拥有可能被其他同行利用的商业秘密时,即使是最平淡无奇的保密协议也需要律师审查。


「先让人工智能评估保密协议,就像让律师助理先找出问题所在。律师可以将更多时间花在咨询和更加价值的工作上。」杜克大学法学院法律诊所教授 Erika Buell 说。


LawGeex 的这次研究与以往类似研究不同之处在于,不仅确保了参赛律师确实拥有相关专业知识,研究也保证了所有参赛者是精确完成了同样的任务,是一次名副其实的、旗鼓相当的较量。


预训练的 AI


自然语言处理、机器学习以及其他人工智能技术可被用于多个合同周期环节,比如发现、分析、合规审查等。合规审查和合同管理,已经成为人工智能最为重要的法律应用场景,也是一个不断涌现创新的重要领域。


在此之前,Kira Systems 就与英国欧华律师事务所合作推出了一款基于人工智能的并购交易文件审查系统。该软件能够处理 60 多种形式文件的标准和非标准合同和条款。据介绍,律师审查合同时间被缩短了 20% 至 60%。


成立于 2014 年 12 月的 LawGeex 花了三年时间研发出目前这款基于 AI 的合同审查平台,它将机器学习算法、文本分析技术和专业律师知识结合起来,使用法律团队预定标准,为用户提供深度合同审查服务。据介绍,公司系统可以识别超过十二种不同类别法律合同中的争议问题。


这套预系统使用了定制机器学习和深度学习技术,已接受了数以万计保密合同的训练。


训练建立在独家文档语料集基础上,它们为 LawGeek 算法提供了各种样本,帮助系统识别不同法律概念之间的区别。技术之所以可以实现当前的文档分析水平,离不开过去五年来计算机技术的发展,因为计算机可以将文本转变为数值表征(如下图所示)。


计算机「读懂」文本的方式。每一个点表征语义空间中的一个段落。不同颜色代表不同法律问题。比如,粉色代表竞业禁止问题样本。训练人工智能就像训练一位新的律师,让他接收各种不同的样本案例,这些都是增进法律实践理解的关键。


不过,法言法语(legalese)一直是系统理解法律的一个难点。就合同审查来说,自然语言处理技术和现有办法还无法有条理地阅读「法言法语」。


为此,LawGeeX 创造了一种新的法律「语言(language)」,亦即公司的专利产品——法律语言处理(LLP)和法律语言理解(LLU)模型。让人工智能系统接触各种不同法律文档,掌握法言法语。一旦系统掌握了某个法律术语,训练人员就会指出其他需要识别的概念。LLP 技术让算法识别概念成为可能,即使这些概念以(系统)前所未见的方式出现。


人工智能在法律领域的实践还会遇到第二个痛点:高度精确性。


律师的首要任务就是风险控制甚至降低风险,工作对精确性的要求非常高。相比较大数据「情感」分析(使用既有文本分析技术挖掘不同来源的数据,获取意见,预测趋势),法律人工智能系统训练过程中,单独法律文本分析对准确性有更高的要求。


为此,公司采用了概念(而不是关键词)监测的办法。真正的人工智能可以识别某个概念,无论这个概念以何种方式表达出来或者出现在何处,如此以来,公司的人工智能系统就能以一种远比关键词搜索更为成熟的方式运行。


「我坚信,法学院的学生和高级律师需要理解这些人工智能工具以及其他技术。这些技术将在未来帮助他们成为更好的律师,也将重塑法律实践。」Buell 在给媒体的信件中写道。


人工智能已经对商业活动产生了巨大影响,规模达 6 千亿的法律服务市场已经无法置身事外。


正如近期 Gartner 的一份报告所言,从事法律事务的人工智能创业公司不能仅仅将这些新技术视为「更好、更省钱的战略性投资」,而是应该超越这一立场。当前人工智能的应用已经改善了律师作为可信赖咨询者的基本角色,也将有助于确保法律职业的相关性,并在接下来的十年中,继续维持律师的竞争力。

]]> 原文: http://ift.tt/2FzSarf
RSS Feed

机器知心

IFTTT

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...