2017年11月2日星期四

群贤毕至:微软亚洲研究院第二届院友会闭门会议

上周日,微软亚洲研究院(MSRA)于北京举办了第二届院友会年度闭门会议,包括前微软亚研院院长、创新工场创始人、董事长及CEO李开复,前微软亚研院院长、微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋,以及现微软亚研院院长,微软全球资深副总裁,微软亚太研发集团主席洪小文在内的共三十位嘉宾为各位院友献上了六场诚意满满的对话,分别涉及对 AI 领域的投资逻辑,CTO 的职责与体悟,人脸识别、人机交互、金融以及自动驾驶领域的选择与挑战。清大学国家金融研究院院长朱民为会议做了以「世界金融群结构及市场波动」为主题的报告。

以下为机器之心对会议内容所做纪要。


洪小文致辞:数字化转型对每个公司的影响

参与嘉宾

  • 微软全球资深副总裁、微软亚太研发集团主席、微软亚洲研究院院长 洪小文

洪小文提到,大数据、大计算,以及AI算法的结合所造成的影响,叫做数字化转型(Digital Transformation)。而数字化转型将对每一个个人、每一个单位、每一个公司都将产生无比的影响。影响有四部分:


第一,用智能系统迭代产品,这跟中国几年前提出的"互联网+"是非常类似的。


第二,利用智能系统更好地与客户联系。无论是 2B 或者 2C 的企业,乃至政府,都能从消极支持到积极沟通。


第三,优化公司运营。如何利用系统智能来更有效、更高级地运营,是每个公司、每个单位可以利用的机会。


第四,赋能员工。员工是公司最宝贵的财富,用智能系统帮助员工高效地处理工作,同时可以兼顾家庭,甚至于激发其创造力,为公司产出更多的价值。




总而言之,数字化转型是一个全面性的机会。这也是今天在互联网IT行业工作的人最振奋人心的未来机会。


而亚研院从今年开始进行一项新尝试:除了对内输出赋能外,也开放研发成果乃至人才,与中国其他领域的公司合作。例如,和中国最大的投资公司,华夏基金一起做一些前瞻性的共同研究。陆续还会有和其他公司的合作曝光,也欢迎在各个公司的对微软技术有兴趣的院友前来接洽,进行战略上、商业上、技术上的合作。

朱民主题演讲: 世界金融群结构及市场波动

参与嘉宾

  • 清华大学国家金融研究院院长 朱民

朱民展示了自己在国际货币基金组织(IMF) 工作期间的有关世界经济体「关联性」的研究。




世界金融的根本结构变化,使得人的行为、市场的行为发生了根本的变化。一方面,世界经济金融的结构变为网络和群结构,另一方面,群结构引起了世界经济金融的高度关联性和溢出效应。


观察的开始是 2008 年,市值 8000 亿美元的雷曼公司的垮台让全球金融市场当年损失了一半的市值,合 26.2 万亿美元,让世界经济直接损失了 14 万亿 美元,让 6700 万跟雷曼无关的工人变成失业者。由此看来,世界的传导机制已经改变了。


今天世界分成三大版块:服务业版块,核心是美英;制造业板块,主要是亚洲垂直供应链、巴西和智利(巴拿马运河以南,所有的国家在经济上属于亚洲);能源板块,由俄罗斯、沙特阿拉伯、哈萨克斯坦等组成。


而国家和世界通过群结构而不是点线结构联系在一起。小的国家群结构里有小队长,小队长把这个群带到中等集群,中等集群的队长再把它们带到全球核心国家。有趣的是,这个世界群的结构居然和微信非常相近。


当世界变成群时,信息在群之间的流动、耦合的速度是指数级增长的,从而带来系统的不稳定性。


每个人在同一时间接到信息,信息会迅速在群内反弹震荡,变成信心,信心会走向恐慌,恐慌会推动市场波动。这完全异于原有的市场运行机制:大震荡不需要大事件发生引导,一条消息就可以了,而信息的起源无法控制。


最后,朱民称,最后经济学家最终可能需要回到微软,请科学家来解决由信息和信心引起的恐慌问题。


对话:投资未来

参与嘉宾

  • 创新工场创始人、董事长及CEO李开复
  • 源码资本合伙人 张宏江
  • 海尔集团副总裁、首席技术官 赵峰

主持人

  • 硬蛋CTO 李世鹏


投些什么?

李开复:创新工场由孵化器转化为风投后,投资的要点有二。一是投资数据。今天中国已经成为了世界最大的市场:移动互联网人口是美国的 3 倍;手机移动支付是美国的 60 倍;共享单车是美国的 500 倍。大市场意味着大数据,一方面是把已有的数据激活,一方面是快速产生大量新数据。数据转化成为价值,是巨大的创业机会。二是投资「不满意」。因为没有信用卡,所以移动支付起来了;因为没有大型购物商场,所以电子商务起来了。未来其他行业的颠覆,也都是可以预期的,今天中国的医疗、教育,还有有很多不满意的地方,这些都是可以快速颠覆推动的。


张宏江:源码资本主要投资从「应用」开始。如同 AlphaGo Zero 打破大家对数据的迷信:场景规则清楚、目标清晰的情况下,没有数据也能够做出很好的AI。


赵峰:海尔在投资三件事:第一是「人工智能+硬件+软件」,让硬件成为人工智能的出口;第二是不止卖一件产品,而是投资客户的终身价值;第三是通过资本的方式引入资源、硬件、传感器、服务等生态,建造智能全链条的服务生态。


谁适合创业?

李开复:在座的每一位都适合创业,不一定适合做CEO。AI 创业有四种,第一,互联网 AI 创业,靠流量。AI 人才拿不到流量,但是可以把进入这样公司的机会看做「就业」;第二,商业 AI 创业,激活传统行业多年存储下来的数据价值。靠谱,也有问题,因为要服务于思维固化的公司,且「CEO 要变销售」,因为对方会「一定要跟大科学家 CEO 喝酒」。第三,颠覆型 AI 创业,过去没有数据的,把数据找出来。重点是要想清楚合作的方式。第四,全自动化,先做技术,再找应用。一个提醒是,一定要是被市场证明的技术,投资人承担商业的风险、竞争的风险、市场的风险、周期的风险、资本的风险,不愿意再承担技术的风险。


张宏江:技术提供者一定要向上走到 killer app,或者向下走到平台,不然长期价值会有大问题。


前沿技术论坛:看脸的时代

参与嘉宾

  • 商汤科技联合创始人兼CEO 徐立
  • Face++ 旷视科技首席科学家、研究院院长 孙剑
  • 旷视科技创始人兼CEO 印奇
  • 中科院计算所教授、中科视拓董事长兼CTO 山世光
  • 依图科技业务技术副总裁 吴岷

主持人

  • 微软全球执行副总裁,微软人工智能及微软研究事业部负责人 沈向洋

计算机视觉,历史与未来

沈向洋:今天在中国有很多计算机视觉初创的公司,其实计算机视觉已经有 50 年的历史了,最早由 Marvin Minsky 在 MIT 提出,他想得比较简单:相机接到计算机上看看就可以解决,结果做了 50 多年终于有点希望了。


最近深度学习对计算机视觉带来巨大影响,让计算机视觉在很多特定的识别方面,已经初步超越人类。我认为,未来五年,计算机语音会超过人类。十年,计算机视觉会超过人类。超过指的是,不管你看到什么东西,AI 都能做到识别效果比人更好。


我很感动的是微软亚研院做的 ResNet 在计算机视觉里扬威立万,包括 AlphaGo Zero 的两大支柱之一就是 ResNet。


计算机视觉对世界影响巨大,但是还有很长的路要走。




人脸识别:计算机与人类,孰强?

徐立:陌生人识别技术,在一定程度上超过人。熟人识别,还远远不能超过人。不过,不同阶段对「技术成熟」的定义不同:十多年前在罗湖口岸,53% 准确率的人脸识别技术已经在应用了;现在这个阶段也是,在一些场景上可以应用了,因此成为发展的契机。


印奇:人脸识别跟场景结合最重要。场景选好,系统局部可能可以和人相比较。


吴岷:用户体会到计算机的功能强大后自行开发场景的实例:警察系统看到机器在对比 10 年前身份证旧照与真人方面胜过人(哪怕是熟人),就主动询问能否识别尸体照片。


山世光:陌生人识别,特别是配合场景下,机器无疑超越人。熟人识别,哪怕是家庭场景 5 个人,也做不到 100% 识别。


孙剑:人脸识别不止于人脸,人脸识别的问题要超出人脸识别的范围来去解答。


云平台、端应用、垂直领域服务:三个产品角度,公司如何选择?


山世光:中科视拓做垂直领域服务,满足实名制与验明正身需求,落地在公安、单位,全面替代指纹。部署到家庭风险还是偏大,暂时不考虑。


吴岷:依图在云平台方面,接了200多家互联网金融远程身份核实业务。在垂直领域服务方面,我们做了警务通,给民警做身份核实,把核查效率从原来的十万分之三得到了显著提高。


徐立:云+端是必然的走势。端上必然有前置化运算,因为全世界有 37 亿台联网手机,2 亿 5000 万安防摄像头,在 2020 年,中国的安防摄像头+室内摄像头将达到 10 亿支。这不可能完全集中化,但也需要云在背后进行整体调控。垂直服务方面,定制化项目即使营收很大也不赚钱,因此一定要标准化、产品化。


印奇:垂直领域行业要选择中间层。不能是被互联网完全改造过的行业,因为其公司数据垄断,即使占有先机,也容易在后期被抹平。也不能是特别传统的行业,因为尚未完成信息化和联网化,更无从谈数据化与智能化。符合中间层要求典型行业是广义的金融行业与安防行业。


学术分类法:人脸识别是感知问题还是认知问题?

山世光:前端是感知的(perception),后端是认知的(cognition)。目前,计算机视觉只有感知没有认知。但感知也可以做很多:虽然表情识别方面由于缺少专业标注人员,机器很难做到比人好,但是对其他内心情绪的指标感应方面(如眨眼次数,心跳次数,微表情),机器可以感知到肉眼无法观察到的细节并进行解析。


孙剑:认识究竟是否必要,这个问题我纠结了很久且仍在纠结。一方面认知标注难度大,主观内容很难标注一致。另一方面低等动物不需要认知也能进行交互,因此认知的作用仍未可知。但是这是非常重要的问题,下一步机器人要和人交互,一定要解决这个问题。


印奇:企业界往往不在意能否解决艰深的学术问题,业界往往会用工程化、产品化的方法,绕开技术壁垒,找到高性价比的解决方案。


Face ID:终端强应用场景带来哪些机会?


徐立:现在各家的人脸的使用标准都是不兼容的,没有办法进行数据流同步。未来我觉得应该形成联盟,尽早统一人脸的使用标准,才能应用于更多线上与线下场景,获得更大流通性。


印奇:这一代 iPhone 搭载人脸识别技术的驱动力有二:一是全面屏的普及,二是手机厂商对摄像头强大的投入意愿。这两大驱动力之下,人脸识别成为了短期关注点,但可能不是最核心的商业动机。


山世光:iPhone X 对人脸识别有蛮大的一个推广作用,解除大家对「深度学习计算太复杂,没法在便宜的端上做」的误解,让大家意识到可以在端上做很多工作。


对话:CTO 之路

参与嘉宾

  • 联想集团首席技术官、高级副总裁 芮勇
  • 硬蛋CTO李世鹏

主持人

  • 微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长 洪小文


「登顶」 CTO 之后:会不会输入少于输出?

芮勇:去年加入联想后,我发现还是输入比输出大。计算机领域非常广阔,我只了解有限的几个方向,有太多别的东西是从同事那里学到的。联想有一个三级的研发技术体系:BU 看 1-2 年的技术创新,研究院、研发部门看 3-5 年的,创投看 5-10 年的。研究院的大方向包括设备、5G,都和我原来的知识结构没有太大的关系,让我学到很多。同时 CTO 也要和技术部门之外的其他部门打交道,乃至吵架,都是非常好的输入。


李世鹏:芮勇说的是大公司的 CTO,我们是一个小公司,CTO 其实所有的事情都要做,因此输入多而全面,不只是技术,还有商业的需求。


CTO 眼中的技术发展趋势

李世鹏:大方向是物联网+人工智能,也就是数据+算法+AI。然而目标要远大,路线却要脚踏实地。小公司要避免直接做平台,应该先做好特别的产品,再思考横向、纵向扩展。


芮勇:一是设备,PC 之后,手机之后,下一个设备是新发力点?我认为 AR 会成为一个较大的生态。二是设备和云中间的「雾计算」,边缘服务器垂直行业。三是服务器,从单纯服务器转型到服务器+软件,结合垂直行业落地。


数字化转型对外、对内的影响?

芮勇:对外,联想和客户的关系从基于交易的关系变成基于关系的关系。卖完 PC 之后还要思考,什么服务可以帮助 ta。对内,我们在研究如何把员工提出的意见通过自然语言处理的方式直接发给对应部门负责人。另外,联想不同于微软之处,在于做硬件的企业要考虑供应链。我们内部也在举行一个「人机大战」,让供应链专家和 AI 算法分别估算上游进货量、下游出货量等,每月一 PK,还在持续中。


李世鹏:我们也希望把对接商业需求、做客户拜访报告的过程用人工智能来记录、识别、总结。



前沿学术论坛:未来人机交互

参与嘉宾

  • 今日头条人工智能实验室主任 李航
  • 小鱼在家创始人兼 CEO 宋晨枫
  • 清华大学美术学院信息艺术设计系主任、清华大学终身学习实验室主任、清华大学无障碍发展研究院副院长 徐迎庆
  • 百度技术委员会主席 吴华

主持人

  • 微软亚洲研究院副院长 周明



徐迎庆:第一,人机交互中,人的自然交互行为和物理空间的状态变化是多通道、非精确、动态多样的。第二,人要告诉计算机如何理解人的自然交互行为、意图,并且精确的反馈。自然交互的准确性,实时性和鲁棒性还有很大的提高空间。人的生理变化、心理变化、周围环境变化也会影响交互的状态。这都是我们面临的挑战。


吴华:自然语言的精确理解问题,哪怕是限定领域的,也还没有解决,现在只能做到模式匹配。因此接下来第一个待解决问题:不依赖太多标注地解决具体领域的精确语言理解问题。随后还有理解人和人、人和机器之间对话逻辑的问题,人的主观倾向建模问题,人的进化机制问题等等。自然语言的路还有好长好长。


李航:人得到信息主要通过眼睛看,输出信息主要通过语音和语言,所以要做人机交互,理解人的对话是最核心的部分了。在我看来,人机交互的基础已经得到了普遍应用:推荐和搜索就是最成功的人机交互。搜索是人找信息,推荐是信息招人。在对话系统方面,整个业界的水平是只能把单轮对话做得不错。现在看到的多轮对话是以单轮对话为主实现的,含有简单多轮对话机制的,让人感觉像是多轮对话的系统。业界尚未达到认真研究多轮对话的状态,数据并不够。可喜的是,单轮对话通过和用户不断交互为多轮对话收集到了更多数据,在闲聊和任务驱动这两类多轮对话中,可能任务驱动的多轮对话更容易突破。


宋晨枫:人机交互影响影响用户体验的除了技术还有很多其他因素,例如音频处理、ASR、NLP等多个模块的串联。理想情况下,这个串联系统可以达到 90% 满意度,现在的用户交互满意度不足 70%,三个模块都有技术瓶颈,如果想等所有技术完美了再解决问题、推出产品,可能还需要五年的时间。因此在初期,要管理用户预期,做用户自然语言成长体系。让用户知道能问的问题的类目和边界。


前沿技术论坛:AI+金融

参与嘉宾

  • 美团金融 CTO 包塔
  • Datavisor 中国区总经理 吴中
  • 微软亚洲研究院副院长 刘铁岩
  • 乌镇智库理事长 张晓东
  • 36氪联合创始人、鲸准公司总裁 胡健

主持人

  • 氪信创始人兼 CEO 朱明杰


人工智能 + 金融的机会和挑战

胡健:中国市场跟美国市场不一样,但是这几年中国的金融机会非常多。特别是在一级市场。差异体现在:第一,中国有很多做风控/征信的企业,美国相对少。因为美国的信用体系非常成熟,而中国使用信用卡的人数不超过 20%。第二,美国有较多金融技术、智能投顾、量化投资公司,中国较少。因为我国金融市场整体信息化程度偏低、数据结构化程度不足,并且我国大部分金融企业为国有,对人工智能这类新兴事物接受度不高。第三,美国二级市场发达,我国一级市场活跃。中国平均基金的规模不到 2 亿人民币,但是美国平均基金规模至少在 5 亿美金。


张晓东:我国分析师目前搜集数据的手段大部分还是手工搜索,因此只能投研是一个重要的方向。


刘铁岩:在微软亚研院跟金融机构合作的半年多时间里,我们发现了其实有很多技术上的挑战。第一,数据不准确。通常认为,金融相对于其他传统行业数字化的程度较高,实际上这句话只对了一半。在金融领域,输出端信号很好,股票涨跌数据可以细致到分钟;输入端信息不明确,甚至有虚假信息,需要做数据清洗、风控、反欺诈,导致精度很难有保障。第二,二级市场并不是稳定系统,经济原动力、市场规律都会发生变化,基于历史数据的机器学习模型就不好用了。第三,散户数量多,处于盲目投资状态,同时机构投资人受考核指标限制,行为短视而非理性,因此市场离理想状态很远,无法用博弈的方式分析。


包塔:很多时候大家讨论是「金融科技」,还是「科技金融」,我现在的看法很明确:这是金融,科技是手段。所以要尊重金融的客观规律。举一个挑战的例子:小额信贷公司试图用 AI 做人群分析,降低坏账率,但是 AI 分析不出来循环借贷、多头借贷现象,因此有系统性风险。再举一个机会的例子:我国推行普惠金融,力求汇集原来难以服务的客户,而美团等平台,提供了 AI 还原商户运营情况的基础数据,


前沿技术论坛:智能驾驶

参与嘉宾

  • 地平线创始人兼CEO 余凯
  • Momenta CEO 曹旭东
  • 图森高级研究员 黄泽铧
  • Deep Motion 创始人兼CEO 蔡锐
  • 博世中国新业务发展部总监 张翠波

主持人

  • 将门CEO,将门创投创始合伙人 高欣欣





提问地平线:智能驾驶的现状?

余凯:计算力是未来的重要资源,未来资源型的效应会更加明显,因此以十年为维度,大家应该投资计算力。地平线关注自动驾驶领域的计算力,我们希望花十年的时间能够成为自动驾驶这个领域的核心计算力的供应商。自动驾驶需要软硬件的深度结合。它首先是一个软件问题,要把感知、定位、建图、路径规划都要做好,核心是软件。硬件是软件的高效实现方式。我们很期待和英特尔合作,英特尔在自动驾驶里的地位就像三国里的曹操,它兵多将广,有综合实力。当然,我们也会跟英伟达等其他机构保持合作关系。

提问 Momenta: 下一步继续算法创新,还是延展向产业链其他业务

曹旭东:Momenta 成立一年多的时间,经历了三个阶段。第一个阶段搭建人工智能平台和大数据的平台。第二阶段,在做跟自动驾驶相关的算法。第三个阶段,也就是现在,还是持续以软件和算法为主。自动驾驶这个行业太大,未来产业一定会分层,会有众多玩家。一个创业公司能在一个关键点上做透已经创造很大价值了。这是我们关注的重点。

提问图森:为什么选择卡车场景落地?

黄泽铧:我们选择在卡车深耕,有三点考量。第一,长尾问题。L4级别的自动驾驶需要在没有司机监管的情况下完成所有的问题。做到99.99%都不够,任何的 0.01% 都会导致事故,而这对于创业公司来说这是致命性打击。我们预计会花 99% 的精力解决在无人驾驶中占时长 1% 的问题。逐个解决长尾问题对创业公司来说非常困难,我们希望专注于特定业务。第二,高精地图。大规模高精地图的建立和维护都非常困难,而做点对点的货运,可以从线到面去逐渐构建高速运输网,不需要一开始解决全部的问题。

从研发者到创业者,身份转变的感受是什么?

蔡锐:以前我在研究院做立体视觉,做三维,会自诩比做图像厉害一点点。出来以后发现我看问题一直是一维的:只从技术这一个维度看问题。此外,还有商业的问题、用户的问题、资本的问题…… 空间一大,就要降维和投影,会发现奇妙的图案。这让我非常兴奋。

智能驾驶时间表

张翠波:基于博世的预测,L3 量产在 2020 年之后,L4 量产在 2020 年到 2023 年。影响整个时间表的会是个底层技术。一个是芯片本身,第二是传感,第三部分是算法。



]]> 原文: http://ift.tt/2h7DCYn
RSS Feed

机器知心

IFTTT

把乌龟识别成枪,MIT CSAIL提出用3D模型生成对抗样本的新方法

CSAIL 研究人员在一篇新论文中首次展示,生成真实世界 3D 对象,可以持续地「误导」神经网络。


神经网络越来越广泛地应用于自动驾驶等技术,帮助看见和识别目标。此类系统甚至可以帮助完成机场安检识别爆炸物的任务。


但是从很多方面来讲,这是个黑箱,开发它们的研究者不知道其工作方式或为何会被误导。


想象一下,如果一个恐怖分子在炸弹的设计上进行了一些微小的调整,它就可以逃脱 TSA 设备的检测。


尽管我们已经很多年没有见过这样恐怖的场景了,但是本周 CSAIL 研究人员证明这样的风险有多高:他们在一篇新论文中首次展示了一种方法,生成真实世界 3D 对象,这些 3D 对象可以持续地误导神经网络。


该团队证明他们不仅能够使神经网络认为「枪不是枪」,事实上还可以使神经网络将物体识别为他们想要它识别的任何物体。对物体进行少许修改后,该团队的方法可以生成一个被神经网络分类为西红柿的炸弹,甚至有可能使该物体彻底「隐形」。


例如,该团队通过 3D 打印制作了一个玩具乌龟,被神经网络错误分类为枪,篮球被分类为咖啡,无论网络从任何视角识别。


「这项研究清楚地表明我们对神经网络的工作方式的理解出现突破点,而开发了这些系统的研究者还需要花费更多的时间思考如何应对这些对抗样本的干扰。」在读博士生同时也是该论文主要作者的 Anish Athalye 说道,「如果想要使自动驾驶汽车或其它利用神经网络的系统保证安全,需要在这个领域投入更多的研究。」


该项目将投入越来越多的努力到「对抗样本」的研究中。多年以来,研究者不断地发现像素的改变可以误导神经网络,但这样的极端案例通常只被当成满足好奇心的探索,而不是现实中需要担忧的问题。


这很大程度上是因为多数研究者只能用 2D 静态图像误导系统,因为当转动一个 3D 物体时,网络可以找到关键的棱角从而能准确地识别它们。


然而,该 MIT 团队的方法可以在任意选定的转换分布中生成误导网络的对抗样本,无论在分布中如何将物体扭曲或者重新定位。(开发这个方法需要考虑很多复杂因素,从光照到摄像头噪声。)


该论文目前正接受 ICLR 2018 的审核。

]]> 原文: http://ift.tt/2h7RNMH
RSS Feed

机器知心

IFTTT

极限元CTO温正棋谈语音质检方案:从关键词检索到情感识别

本文作者温正棋为极限元智能科技 CTO 、中国科学院自动化研究所副研究员,毕业于中国科学院自动化研究所,先后在日本和歌山大学和美国佐治亚理工学院进行交流学习,在国际会议和期刊上发表论文十余篇,获得多项关于语音及音频领域的专利。其「具有个性化自适应能力的高性能语音处理技术及应用」获得北京科学技术奖。在语音的合成、识别、说话人识别等领域都有着多年深入研究经验,并结合深度学习技术开发了多款语音应用产品。


为了提高客户满意度、完善客户服务,同时对客服人员工作的考评,很多企业会对此采用质检的方式来保证其服务质量。以服务行业为例,呼叫中心是一个促进企业营销、市场开拓并为客户提供良好的交互服务系统,其位置相当重要。传统的质检方法需要质检人员通过人工测听的方式进行抽检;人工抽检方法工作量大且效率低,难以有效评价客服人员的服务质量。


随着人工智能技术的发展,语音和自然语音处理技术不断取得突破,采用智能化的方法对电话语音中的内容进行深层次的分析,可以有效的节约人力成本并提高工作效率。语音质检方案主要涉及语音关键词检索、音频对比、情感识别等核心技术。


1 语音关键词检索


1.1 语音识别声学模型


随着深度学习的兴起,深层神经网络也应用到了语音识别中的声学建模,通过深层神经网络模型替换 GMM-HMM 模型里的 GMM 模型,HMM 模型中的状态转移矩阵部分不变。DNN 通过在输入端进行扩帧,从而能够利用上下文信息,同时这种模型具有较强的非线性建模能力,但 DNN 的扩帧是有限的,所以它能够利用的上下文信息是有限的。针对这一问题提出了基于 RNN 的声学模型,RNN 能够更充分的利用历史信息进行声学模型建模。但是在 RNN 训练过程中会存在梯度消失和梯度膨胀的问题,梯度膨胀可以在训练过程中加一些约束条件解决,当梯度超过一定值以后设定一个固定值;针对梯度消失问题,比较有效的解决方法是将里面的 RNN 单元变成长短时记忆模型 LSTM,这种模型的缺点是会增加计算复杂度,这也是在构建声学模型时需要考虑的问题。CNN 是另一种比较主流的声学模型,这种模型中包含的参数较少,谷歌、微软、IBM 等企业均尝试使用非常深的 CNN 模型,其识别性能超过其它深层神经网络。


CTC 是一个训练准则,在传统的基于深度学习的声学模型输出中,每个 phone 可能包含十几桢甚至更多桢,因为它并不是一个尖峰,但是通过 CTC 训练会把它变成一个尖峰;CTC 可以将每一帧变成一个 blank 帧或者对应的建模单元(音素、音节等),而每个建模单元只需要对应几帧就可以了。在解码的时候可以降低对 black 桢的搜索宽度,这样可以显著的增加解码速度。减少解码帧有两种方法,一种是通过跳帧的方法,另一种在解码过程中动态调整 beam 值,特别是遇到空白桢的时候把并 beam 值减少。


1.2 基于语音识别的关键词检索


基于语音识别的关键词检索是将语音识别的结果构建成一个索引网络,然后把关键词从索引网络中找出来。从图 1 中可以看到,首先将语音数据进行识别处理,从里面提取索引构建索引网络,进行关键词检索的时候,我们会把关键词表在网络中进行搜索,找到概率最高的,输出其关键词匹配结果。

 


图1. 基于语音识别的关键词检索


构建检索网络是语音关键词检索的重要环节。如图 2 所示,在第一个时间段内(w1、w3、w6、w7),这句话被识别成了四个不同的词,语音识别只能给出一条路径,但在语音关键词检索网络中可以从四个结果中进行筛选。

 


图 2 构建检索网络示意图


确定关键词检索网络后,接下来进行的是关键词检索。关键词检索可以基于音节信息,首先将用户设定的关键词文本解析成音节序列,再从检索网络中找出匹配结果,相比直接对文本结果进行检索,这种方法的容错性更强,而且关键词检索中的声学模型可以是基于 CTC 的模型,因此,计算量更小,执行效率更高,更适用于语音质检这种海量数据检索的应用场景。


2 音频对比


音频比对是指从音频信号提取特征,通过特征进行比对的方法进行有害信息检索的方法。该方法的核心在于提取的特征值需要满足一定的要求,比如抗噪性、转换不变性、鲁棒性、快速性等特点,主要是为了满足同一音频能够在不同声道下进行准确检索。传统的 MFCC、FBANK 等声学特征已经不能满足音频比对任务的需求。图 3 是一个基于频谱最大值来建模的音频比对方法。在完成最大值点完成建模后,需要进行特征的构建。而特征构建是通过最大值点之间的距离来建模,例如两个最大值点的距离、位置信息作为一个固定的特征来完成音频特征信息的构建。有了上述音频特征之后,就可以对两个不同音频进行检索,最大相似度的地方就是相似点,这种技术最适用于文本内容无关的录音片段的检索。

 


图 3. 基于频谱最大值建模的音频比对方法


3 情感识别


语音是人类交际的最重要的工具之一。人们在进行自然口语对话时,不仅传递声音,更重要的是传递说话人的情感状态、态度、意图等。一般的情感语音识别系统框图如图 4 所示。根据情感模型的不同,情感语音识别主要分为离散情感识别和连续情感语音识别。

 


图 4. 语音情感识别典型系统框图


离散情感识别是一个典型的模式分类问题,各种传统的分类器均被广泛应用于语音情感识别系统。例如隐马尔科夫模型、高斯混合模型、支持向量机,人工神经网络等。维度情感识别一般被建模为回归预测问题。在机器学习算法层面,根据是否考虑序列上下文信息可将现有方法分为静态机器学习算法和动态机器学习算法。在静态机器学习算法中,AdaBoost、高斯混合模型、人工神经网络、支持向量回归等广泛应用于维度情感识别中序列单元的回归问题。鉴于维度情感的序列标注情况,序列上下文信息有助于提高情感识别性能,因而更多的工作集中于动态机器学习算法。随着深度学习技术的发展,基于 LSTM-RNN 的系统便被更加广泛的应用于维度情感识别领域。


情感识别解决方案通过分析不同情感状态和语音声学参数的关联关系,抽取出鲁棒声学特征参数,综合考虑不同人对同一段语音的情感感知结果,建立语音情感识别模型。为了提高语音情感识别的鲁棒性,采用非线性建模方法建立情感语音分析模型,有效的解决了噪声环境下情感语音分析问题。针对情感识别中的时序建模问题,采用一种基于特征层建模和决策层建模相结合的多尺度时序建模方法。在特征层实现短粒度的时序建模。在决策层实现更长粒度的时序建模,并与特征层的时序建模实现相互补充。通过上述改进,有效的提高了语音情感识别的准确率,可以对通话者的情感状态进行动态的捕获和跟踪。


极限元智能科技在智能语音、计算机视觉、自然语言处理、大数据分析等技术领域有多年技术积累,推出了一些系列云端和终端的跨平台 AI 技术解决方案,产品和服务广泛应用在教育、安全、交通、泛娱乐等多个行业。其中,成熟的音频检测技术落地场景更是涉及到反电信诈骗、公安技侦、互联网音视频有害信息检测、呼叫中心录音质检等多个方面。 


]]> 原文: http://ift.tt/2A1RBT5
RSS Feed

机器知心

IFTTT

无监督神经机器翻译:仅需使用单语语料库

神经机器翻译近期取得很大成功,但缺乏双语数据的语言对很难基于现有方式训练出好的机翻系统。近日,有研究者提出一种无监督新方法,无需使用平行语料库,使用去噪和回译的步骤构建 NMT 系统。该系统在 WMT 2014 法语-英语和德语-英语翻译中分别取得了 15.56 和 10.21 的 BLEU 得分。


论文:Unsupervised Neural Machine Translation




论文链接:http://ift.tt/2xGeDOE


摘要:近期神经机器翻译(NMT)在标准基准上取得了很大成功,但是缺乏大型平行语料库对很多语言对是非常大的问题。有几个建议可以缓解该问题,比如三角剖分(triangulation)和半监督学习技术,但它们仍然需要强大的跨语言信号(cross-lingual signal)。本论文中,我们完全未使用平行数据,提出了用完全无监督的方式训练 NMT 系统的新方法,该方法只需使用单语语料库。我们的模型在近期关于无监督嵌入映射的研究基础上构建,包含经过少许修改的注意力编码器-解码器模型(attentional encoder-decoder model),该模型使用去噪和回译(backtranslation)结合的方式在单语语料库上进行训练。尽管该方法很简单,但我们的系统在 WMT 2014 法语-英语和德语-英语翻译中分别取得了 15.56 和 10.21 的 BLEU 得分。该模型还可以使用小型平行语料库,使用 10 万平行句对时,该模型分别取得了 21.81 和 15.24 的 BLEU 得分。我们的方法在无监督 NMT 方面是一个突破,为未来的研究带来了新的机会。



图 1:系统架构。


对语言 L1 中的每个句子,该系统都通过两个步骤进行训练:去噪——利用共享编码器优化对句子带噪声版本进行编码和使用 L1 解码器重构句子的概率;回译——在推断模式(inference mode)下翻译该句子(使用共享编码器编码该句子,使用 L2 解码器进行解码),然后利用共享编码器优化对译文句子进行编码和使用 L1 解码器恢复源句子的概率。交替执行这两个步骤对 L1 和 L2 进行训练,对 L2 的训练步骤和 L1 类似。


3.1 系统架构


如图 1 所示,我们提出的系统使用比较标准的带有注意力机制的编码器-解码器架构(Bahdanau et al., 2014)。具体来说,我们在编码器中使用一个双层双向 RNN,在解码器中使用另一个双层 RNN。所有 RNN 使用带有 600 个隐藏单元的 GRU 单元(Cho et al., 2014),嵌入的维度设置为 300。关于注意力机制,我们使用 Luong et al. (2015b) 提出的全局注意力方法,该方法具备常规对齐功能。但是,我们的系统与标准 NMT 在三个方面存在差异,而正是这些差异使得我们的系统能够用无监督的方式进行训练:


1. 二元结构(Dual structure)。NMT 系统通常为特定的翻译方向搭建(如法语到英语或英语到法语),而我们利用机器翻译的二元本质(He et al., 2016; Firat et al., 2016a),同时进行双向翻译(如法语 ↔ 英语)。


2. 共享编码器。我们的系统仅使用一个编码器,该编码器由两种语言共享。例如,法语和英语使用同一个编码器。这一通用编码器旨在产生输入文本的语言独立表征,然后每个解码器将其转换成对应的语言。


3. 编码器中的固定嵌入。大多数 NMT 系统对嵌入进行随机初始化,然后在训练过程中对其进行更新,而我们在编码器中使用预训练的跨语言嵌入,这些嵌入在训练过程中保持不变。通过这种方式,编码器获得语言独立的词级表征(word-level representation),编码器只需学习如何合成词级表征来构建较大的词组表征。如 Section 2.1 中所述,存在多种无监督方法利用平行语料库来训练跨语言嵌入,这在我们的场景中也是可行的。注意:即使嵌入是跨语言的,我们仍然需要使用每种语言各自的词汇。这样,同时存在于英语和法语中的单词 chair(法语意思是「肌肉」)在每种语言中都会获得一个不同的向量,尽管两个向量存在于共同的空间中。


3.2 无监督训练


NMT 系统通常用平行语料库进行训练,由于我们只有单语语料库,因此此类监督式训练方法在我们的场景中行不通。但是,有了上文提到的架构,我们能够使用以下两种策略用无监督的方式训练整个系统:


1. 去噪


我们使用共享编码器,利用机器翻译的二元结构,因此本文提出的系统可以直接训练来重构输入。具体来说,整个系统可以进行优化,以使用共享编码器对给定语言的输入句子进行编码,然后使用该语言的解码器重构源句子。鉴于我们在共享编码器中使用了预训练的跨语言嵌入,该编码器学习将两种语言的嵌入合称为语言独立的表征,每个解码器应该学习将这类表征分解成对应的语言。在推断阶段,我们仅用目标语言的解码器替代源语言的解码器,这样系统就可以利用编码器生成的语言独立表征生成输入文本的译文。


但是,相应的训练过程本质上是一个琐碎的复制任务,这使得上述完美行为大打折扣。该任务的最佳解决方案不需要捕捉语言的内部结构,尽管会有很多退化解只会盲目地复制输入序列的所有元素。如果确实如此的话,该系统的最好情况也不过是在推断阶段进行逐词替换。


为了避免出现此类退化解,使编码器真正学会将输入词语合成为语言独立的表征,我们提出在输入句子中引入随机噪声。这个想法旨在利用去噪自编码器(denoising autoencoder)同样的基本原则(Vincent et al., 2010),即系统被训练用于重构带噪声输入句子的原始版本(Hill et al., 2017)。为此,我们通过随机互换相邻词语来改变输入句子的词序。具体而言,对于包含 N 个元素的序列,我们进行 N/2 次此类随机互换操作。这样,该系统需要学习该语言的内部结构以恢复正确的词序。同时,我们不鼓励系统过度依赖输入句子的词序,这样我们可以更好地证明跨语言的实际词序离散。


2. 回译


尽管存在去噪策略,上述训练步骤仍然是一个复制任务,其中包含一些合成的改动,最重要的是,每次改动都只涉及一种语言,而非同时考虑翻译的两种语言。为了在真正的翻译环境中训练新系统,而不违反仅使用单语语料库的限制,研究人员提出引入 Sennrich 等人 2016 年提出的回译方法。具体说来,这种方法是针对给定语言的一个输入句,系统使用贪心解码在推断模式下将其翻译成另一种语言(即利用共享编码器和另一种语言的解码器)。利用这种方法,研究人员得到了一个伪平行语料库,然后训练该系统根据译文来预测原文。



表 1:几种系统在 newstest2014 上的 BLEU 得分。无监督系统利用 News Crawl 单语语料库进行训练,半监督系统利用 News Crawl 单语语料库和来自 News Commentary 平行语料库的 10 万句对进行训练,监督学习系统(作为对比)使用来自 WMT 2014 的平行语料库进行训练。其中,Wu et al. 2016 年提出的 GNMT 取得了单模型的最佳 BLEU 得分。



表 2:本文提出的系统使用 BPE 对 newstest2014 中的部分句子进行法语到英语的翻译。


6 结论


在本论文中,研究人员提出用无监督方法训练神经机器翻译系统的新方法。它建立在无监督跨语言嵌入的现有工作上(Artetxe 等人,2017;Zhang 等人,2017),并将它们纳入修改后的注意力编码器-解码器模型中。通过使用带有固定跨语言嵌入的共享编码器,结合去噪和回译,我们实现了仅利用单语语料库训练 NMT 系统。


实验显示了新方法的有效性,在标准 WMT 2014 法语-英语和德语-英语基准测试中,新方法的 BLEU 得分显著超过执行逐词替换的基线系统。我们也手动分析并确定了新系统的表现,结果表明它可以建模复杂的跨语言关系并生成高质量的译文。此外,实验还表明新方法结合一个小型平行语料库可以进一步提升系统性能,这对于训练数据不足的情况非常有用。


新的工作也为未来研究带来了新的机会,尽管该研究在无监督 NMT 方面是一个突破,但仍有很大改进空间。其中,在研究中用于比较的监督 NMT 系统不是业内最佳,这意味着新方法带来的修正同样也限制了其性能。因此,研究人员接下来将检查这一线性的原因并尝试缓解。直接解决它们不太可行,我们希望探索两个步骤,时序 i 安按照当前方式训练系统,然后恢复主要的架构变更,再进行精确调整。另外,研究人员还将探索将字符级信息纳入模型,这可能会有助于解决训练过程中出现的一些充分性问题。同时,如果解决了罕见词,特别是命名实体的问题,该系统的表现将进一步提升。

]]> 原文: http://ift.tt/2iqm46e
RSS Feed

机器知心

IFTTT

第七课:物体检测

时间:北京时间 11月4号星期六早11点到中午12点地点:将门斗鱼直播:http://ift.tt/2gwbSMo

【注意】年底了小伙伴们也要开始冲刺年底考核了,所以将课程从两个小时改到一个小时。但是大家不用担心,一定会将深度学习各个方向逐一介绍完

本周我们将开始讲计算机视觉里的一个重要课题,物体检测。我们将从使用卷积神经网络的开山做R-CNN讲起,一直到最近的算法。

具体link稍后在http://ift.tt/2xSxfLB里更新。



via gluon - 知乎专栏 http://ift.tt/2AdDVoQ
RSS Feed

RSS8

IFTTT

追一科技完成2060万美元B轮融资,AI公司靠垂直服务赚钱的好时候到了吗?

撰文 | 吴欣


11 月 2 日,机器之心独家获悉,专注深度服务企业的 AI 公司追一科技已经完成 2060 万美元规模 B 轮融资。本轮投资由创新工场领投,GGV 纪源资本及追一科技原始股东晨兴资本、高榕资本跟投。在此之前,2016 年 1 月,追一科技获得晨兴资本百万美金天使投资,2016 年 9 月,再获得高榕资本、晨兴资本数百万美金 A 轮投资。


作为 B 轮投资领投方,创新工场看重追一科技对深度学习与 NLP 的结合,以及产品研发迭代、客户开发能力,另一方面,李开复认为,「(追一科技)技术优势够清晰,赛道可拓展机会也足够大。」


追一科技是一家用深度学习和自然语言处理技术帮助企业搭建智能交互解决方案的创业公司。在滴滴、携程、招商银行信用卡、OFO、小米、万达集团、长江证券、阳光保险等公司的背后,都有追一科技的 YiBot 智能服务系统,用来响应人机协同、大数据分析、个性化服务等多个领域的 AI 应用需求。


在追一科技创始人兼 CEO 吴悦看来,B 轮融资标志着,追一科技会进入一个更有竞争力的发展阶段,公司会在技术研发、产品迭代和人才招募方面增加投入。


在创办追一科技之前,吴悦是腾讯基础架构的几个创始员工之一,他不仅和同事搭建了腾讯存储的基础架构体系,并于2012 年负责 Soso 网页搜索的架构体系,Soso 业务卖掉之后,吴悦留任腾讯 TEG 事业群搜索部门负责人,业务涵盖微信、QQ、应用宝、腾讯视频、腾讯音乐等应用的搜索,并主持开发了天天快报的核心算法推荐引擎。


吴悦在算法方面的深厚积累,以及高管团队在腾讯近 10 年的技术与产品经验,兼具算法、工程、商业基因,同样是晨兴资本合伙人程宇、GGV 纪源资本管理合伙人符绩勋看好追一科技的重要原因。「将 NLP 与人工智能技术应用于客服场景时,追一科技在算法表现之外格外注重产品的体验和对场景的适应。同时,在销售市场側并非只专注互联网公司,更是在金融领域深耕,这些都是我们看好追一的理由。」符绩勋说。


从投资人的关注点也不难看出,人工智能公司融资水涨船高,主要竞争焦点就是谁能真正深入垂直产业并创造足够的收益、抢占足够大的市场。除了充分的资金、前沿技术敏锐度,更需要的是公司拥有技术产品化的能力,深度理解不同行业需求把技术落到应用场景中。


在这次融资发布之前,追一科技向机器之心独家回应了关于行业发展、公司变化的问题。


在追一科技所在的智能客服领域里,目前处于怎样的发展阶段?


现在智能客服基本框架已经有了,可以解决一些基本、简单、重复性的问题,减轻一部分人工工作量,但离真正的深场景结合、人机协同、高价值发挥,以及更有价值的人企交互入口,还有一段距离,而且还面临着企业内部互联互通、技术与场景如何结合等一系列挑战。


智能客服的发展,必然是向智能化的人企交互入口衍变。其形态和能够提供服务,都会有质的变化,将为用户解决更为专业、复杂化的问题,机器和人的效率都会得到提升,并为企业提供从产品、服务、商业创新等一系列延伸价值。


到什么条件下,能够明确行业进入下一个阶段?有哪些具体判断指标吗?


这取决于多方面因素。


技术本身的迭代创新,能够支撑一些商业创想,而且最重要的是技术必须能够结合场景用户需求,落地产品化,这都需要时间推进。目前,场景依然是大家都在积极努力的方向。


同时,作为 AI 服务商,我们的能力还必须与企业需求密切集合,企业自身的发展状况、需求和内部互联互通等一系列因素,也会影响行业发展。我们一直与企业保持密切协作,相互促进,希望能够尽快推动企业智能化入口实现,为企业创造更大价值。


我们看到人工智能领域融资额越来越高,是不是意味着创业的门槛也在提高?在追一这个领域里,未来会逐渐形成怎样的格局?


融资活跃,说明了资本市场对人工智能前景特别是商业化落地看好。


人工智能创业,因为资本涌入和产业化突破,也在发生变化,尤其是技术和产品化壁垒有所提升,但整体壁垒依然取决于技术、产品与行业结合程度,对企业应用场景的触达深度。目前,整个行业依然处于布局探索阶段。


而未来,在人工智能的服务世界里,智能化的人企交互将是一个重要方向,对现有企业服务形态、内容、价值进行重塑。追一科技从创业起步,就非常注重 NLP、深度学习等AI技术与企业场景结合,我们在场景化应用上,已经取得了突破,积累了很多典型用户。


在之前的采访里,你也提到技术产品化的重要性,你认为,想做到足够好需要具备的条件是什么?


技术产品化,最重要条件是技术能够落地场景,解决用户痛点。


要做好产品化,首先要先去了解市场痛点,通过企业、行业、专家等多种渠道。然后,针对企业的需求和痛点,比如解决成本问题、提升效率或是体验问题,把技术落地到行业场景,形成通用化、标准化产品。


在落地过程中,一定要做好业务系统对接,将业务逻辑落地成通过可执行的操作,从而实现用户需求。然后,再沉淀成一整套解决方案。


具体到对话机器人,以你对产品的要求,好用的机器人具备哪些要素?


好的机器人需要有高智商、高情商,主动学习的能力,对业务知识有专业的理解,并且能在各个业务场景下都游刃有余。


高智商体现在能准确理解用户的意图,主动学习的能力指的是知道自己哪些问题能回答哪些没有把握回答,并将没有把握的问题主动请教业务专家。也就是说,机器人还需要进一步深入到各个垂直行业中去学习人机交互场景,行业中的专业知识。


除此之外,在追一的发展过程中,你最看重的东西是什么?


综合性的服务能力。特别是在 AI 这种新兴产业中,企业更需要综合性素质,单点优势都不足以击击穿市场。技术需要与企业场景非常深度结合,以技术创新性与企业需求结合,解决用户痛点并实现业务服务创新。期间,如何更好地理解用户需求,还需要专业化的人才,尤其是兼具技术、产品和行业理解的复合型人才。


接下来,公司会着重在哪些方面发力?


AI 与企业场景结合、提供更深入的价值上,还有很长的路要走,我们会不断加大技术研发创新的力度,并密切地关注企业需求和市场变化,更深入地耕耘企业市场,把 AI 技术与企业场景更密切地集合;同时,随着 AI 与行业结合日趋深入,复合型人才需求越来越多,我们也会继续发力人才队伍建设。


]]> 原文: http://ift.tt/2xNAIec
RSS Feed

机器知心

IFTTT

AlphaGo Zero:笔记与伪代码

近日,Google DeepMind 在 Nature 上发表了一篇论文,介绍了这家世界顶级人工智能机构在计算机围棋方面的最新研究成果 AlphaGo Zero(参阅机器之心文章《无需人类知识,DeepMind 新一代围棋程序 AlphaGo Zero 再次登上 Nature》)。这个在学习过程中没有使用任何人类知识的人工智能程序可以轻松地以 100 比 0 的成绩击败去年 3 月战胜了李世乭的 AlphaGo 版本。AlphaGo Zero 论文发布之后,阿尔伯塔大学 Yuxi Li 博士对该程序的工作原理进行了分析,并使用伪代码的方式对其训练过程进行了描述。原文链接请参见http://ift.tt/2gVjDIs

 

1 引言

 

2016 年 3 月,AlphaGo(Silver et al., 2016)击败了带有 18 个国际冠军头衔的人类顶级围棋手,造就了人工智能领域的一大里程碑。AlphaGo Zero(Silver et al., 2017)则实现了更进一步的提升,在不使用人类知识的情况下学习到了一个超人水平的计算机围棋程序。


AlphaGo(Silver et al., 2016; 2017)立足于深度学习、强化学习(RL)和蒙特卡洛树搜索(MCTS)。这一波深度强化学习浪潮起始于深度 Q 学习(Mnih et al., 2015);全面概述请参阅 Li (2017) http://ift.tt/2imXfrM

 

Sutton 和 Barto (2017) 对 AlphaGo 进行了详细且直观的描述。关于 AlphaGo 和 AlphaGo Zero 的介绍参阅 DeepMind 的官方博客:http://ift.tt/2ciFq8V 和 http://ift.tt/2ip5x2f Littman (2015)。

 

2 伪代码

 

我们提供了一个用于训练 AlphaGo Zero 的简要的概念性的伪代码,有助于你更轻松地理解 AlphaGo Zero 的原理;参见后文算法 1。详细情况请参阅原论文(Silver et al., 2017)。

 

AlphaGo Zero 可以被理解成是一种近似策略迭代(approximation policy iteration),并在其训练循环中集成了 MCTS 以改进策略和评估策略。MCTS 可以被看作是一种策略改进算子(policy improvement operator),可以输出比神经网络的原始概率更强的走子概率。使用搜索的自我对弈可以被看作是一种策略评估算子(policy evaluation operator)。它使用了 MCTS 来选择走子,并将对弈赢家看作是价值函数的样本。然后这个策略迭代过程会更新神经网络的权重,从而将走子的概率和价值与提升后的搜索概率和自我对弈赢家更紧密地匹配起来,然后再在下一次迭代中使用更新后的神经网络权重执行自我对弈,以使其搜索更加强大。

 

与 AlphaGo 相比,AlphaGo Zero 的特性有:

 

1. 它是从随机对弈学习的,使用了自我对弈强化学习,没有使用人类数据或监督;

2. 它使用了棋盘上的黑白子作为输入,而没有使用任何人类参与的特征工程;

3. 它使用了单个神经网络来同时表征策略和价值,而没使用单独的策略网络和价值网络;

4. 它的局面评估使用了神经网络,MCTS 使用了走子采样,而没有执行蒙特卡洛 rollout。

 

AlphaGo Zero 使用了神经网络领域近年来的多种成就:残差卷积神经网络(ResNet)、批规范化(batch normalization)和非线性整流函数(rectifier nonlinearities)。

 

AlphaGo Zero 的自我对弈训练流程中有三个主要部门以异步的方式并行执行:

 

1. 根据近期的自我对弈数据持续地优化神经网络的权重;

2. 持续地评估棋手;

3. 使用最强的棋手来生成新的自我对弈数据。

 

当 AlphaGo Zero 与对手下棋时,MCTS 会搜索当前的状态,根据训练后的神经网络权重生成走子概率,然后选择一种走子方式。

 

3 讨论

 

AlphaGo Zero 是一种强化学习算法。AlphaGo Zero 既不是监督学习,也不是无监督学习。对弈分数是奖励信号,而不是监督标签。对损失函数 l 的优化是监督学习。但是,它会在策略迭代的单次迭代中执行策略评估和策略改进。

 

AlphaGo Zero 不仅是一种启发式搜索算法。AlphaGo Zero 更是一种策略迭代过程,其中启发式搜索算法(尤其是 MCTS)发挥了关键性的作用,但这个过程处于强化学习策略迭代的方案之中,如算法 1 中的伪代码所示。MCTS 可以被看作是一种策略改进算子。

 

AlphaGo 达到了超人类的水平。也许可以确定职业棋手已经开发出了一些有效的策略。但是,AlphaGo 并不需要模仿职业棋手的下法。因此它也不需要正确预测他们的走子。

AlphaGo Zero 的输入包括棋盘局面、历史记录和要下的颜色的原始棋盘表示,是以 19×19 的图像形式提供的;游戏规则;一个对弈评分函数;在旋转和翻转时的游戏规则不变性以及颜色转换情况下的不变性(除了贴目情况)。另外的关键输入是坚实的研究和开发经验。

 

AlphaGo Zero 使用了 64 个 GPU 工作站(每一个都有多个 GPU)和 19 个 CPU 参数服务器(每一个都有多个 CPU)进行训练,使用了 4 个 TPU 进行比赛时的执行。

 

AlphaGo 的训练需要巨量数据,所以它仍然是一个大数据问题。但是,因为计算机围棋有一个完美的模型或精确的游戏规则,这些数据就可以通过自我对弈生成。

 

由于计算机围棋存在完美模型或精确游戏规则,所以 AlphaGo 算法有局限性。比如在医疗健康、机器人和自动驾驶等问题上,通常难以收集到大量数据,得到足够接近甚至完美的模型就更难甚至完全不可能了。因此,我们不能直接将 AlphaGo 算法应用到这些应用上。

 

另一方面,AlphaGo 算法,尤其是其底层的技术(即深度学习、强化学习和蒙特卡洛树搜索),则有很多应用。Silver et al. (2016) 和 Silver et al. (2017) 推荐了以下应用:通用的游戏问题(尤其是视频游戏)、经典的规划问题、仅观察到部分信息的规划问题、调度问题、约束满足问题、机器人、工业控制和在线推荐系统。AlphaGo Zero 博客还提到了以下结构化问题:蛋白质折叠、降低能耗和搜寻革命性的新材料。参阅 Li (2017) 了解更多 AlphaGo 算法的应用和底层技术(尤其是深度强化学习)。

 

AlphaGo 已经取得了惊人的进展并为人工智能建立了一个里程碑。但是,我们离实现通用人工智能(AGI)的目标仍然相距甚远。


参考文献

 

Li, Y. (2017). Deep Reinforcement Learning: An Overview. ArXiv e-prints.

Littman, M. L. (2015). Reinforcement learning improves behaviour from evaluative feedback. Nature, 521:445–451.

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., Petersen, S., Beattie, C., Sadik, A., Antonoglou,I., King, H., Kumaran, D., Wierstra, D., Legg, S., and Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540):529–533.

Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016). Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489.

Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A., Chen, Y., Lillicrap, T., Hui, F., Sifre, L., van den Driessche, G., Graepel, T., and Hassabis, D. (2017). Mastering the game of go without human knowledge. Nature, 550:354–359.

Sutton, R. S. and Barto, A. G. (2017). Reinforcement Learning: An Introduction (2nd Edition, in preparation). MIT Press.

 

算法 1:AlphaGo Zero 训练过程的伪代码,基于 Silver et al. (2017)


AlphaGo Zero 伪代码原版:



伪代码中文版:



]]> 原文: http://ift.tt/2inDeBm
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...