2017年10月3日星期二

谷歌无人驾驶部门人事架构大揭秘: 这是「保守派」与「空降兵」间的斗争?

整理 | 宇多田


Google 的无人驾驶事业部,在度过 8 年默默无闻的时光后,伴随着人工智能热潮的兴起与其他巨头的纷纷入局,便开启了自己频频被曝光于大众视野的日子。


经费削减,主帅被换,部门分拆,业务模式变更……在过去的两年时间里,Google 无人驾驶事业部的成员们经历了包括「外界质疑与批评」,「内部换血引发权力斗争」在内的一系列冲击。


因此,有人选择离去,有人选择接受新变化。


对于大众来说,我们大多只了解在部门新主帅 John Krafcik 上任后,前部门首席技术官 Chris Urmson 与若干顶级工程师纷纷离职,同时又有新高管加入等公开的人事变动消息,却鲜少有人清楚,当下已经成为 Alphabet 子公司的 Waymo 究竟由哪些关键成员组成,哪些是这个当下最受瞩目的无人驾驶公司最关键的部门。


因此,Information 等科技媒体借助诸多线人与 Waymo 内部人士的披露,向我们揭开了 Waymo 整个内部组织架构以及「旧部」工程师们与「新主帅」及 Alphabet 创始人们之间的分歧与不和。


现在,在揭秘 Wayomo 当下的内部架构与运作流程前,我们需要先知道这样几个关键信息:

  • 这个子公司拥有不到 1000 名员工。
  • 该项目启动于 2009 年,是当时还未分拆的 Google 众多部门之一。
  • 纵观全球,Google 是迄今为止,为开发出完全无人驾驶汽车而付出各项努力耗时最长的公司。
  • 2015 年中旬,Krafcik 被 Alphabet CEO  拉里·佩奇任命为无人驾驶事业部新的负责人,而赫赫有名的圈内顶级无人驾驶工程师,同时这个部门首席技术官的 Chiris Urson,在 2016 年 8 月选择离职。
  • 2016 年底,Waymo 从 Google 母公司中彻底剥离出来,曾轰动一时。
  • 该项目此前是由 Alphabet 的联合创始人谢尔盖·布林负责监督;而项目被剥离后,现在由 Alphabet CEO 拉里·佩奇负责监督。

而下面这张图,便是隶属于 Waymo(Google 母公司 Alphabet 旗下的无人驾驶子公司)的 14 个部门主管:


其中便包括由 Dmitri Dolgov(该部门的首席技术执行官)带领的,对 Google 这项事业起到关键作用的软件工程团队;由 Robert Ellis 带领的底特律汽车测试团队以及由Dan Chu 带领的产品与用户体验团队(这个部门在 Waymo 正式推出商用叫车服务之前,更多侧重于如何「提升在乘坐无人驾驶汽车时的用户体验」)。


图片来自The Information


工程师与管理者的「天然鸿沟」


据两位对 Waymo 计划比较熟悉的人透露,这个备受全球科技圈瞩目的无人驾驶事业部,正在筹备在今年秋天推出由无人驾驶车队驱动的共享叫车服务,重点就是,这项服务一定具备「无司机」且「更高的安全系数」这两个标签。


然而,就在 Google 终于要化解世人对其商用能力的质疑而迈出这关键一步时,Waymo 内部却需要先想尽办法先解决高管之间的不和与分歧,这确实在某种程度上打击了团队的士气。


此外,据三位曾与 Dmitri Dolgov 交流过的内部人士透露,这名已经为 Google 无人驾驶事业部效力 9 年的老将(目前除了担任 Waymo 的首席技术执行官,也是 Waymo 软件工程部的主管),曾私下批评过现任 Waymo 老大 John Krafcik 的一些管理策略,而后者于 2015 年秋天登上 Waymo 最高管理人的位置。


而 Dolgov 抱怨的原因有很多,包括「Krafcik 缺乏对自动驾驶系统的技术知识」,以及这种「不懂行」将会在很大程度上决定公司如何来开启这项共享商用服务。


「除了上面的原因,Dolgov 也非常不满 Krafcik 总是无条件赞成佩奇与布林对项目的指挥。譬如商用叫车服务的推出日期过于冒进,以及从去年开始,软件部门的招聘计划就陷入了冻结状态。」知情人士还表示。


实际上,Google 最初的自动驾驶项目名叫「Chauffeur」,意为「汽车司机」。后来,这个项目逐渐演变为现在的 Waymo。而 Dolgov,就是 Chauffeur 的「元祖级成员」之一。


从图表(下图)来看,在 Dolgov 直接管辖的团队里有一些与 Dolgov 共事很久的成员,譬如主要为地图细节与数据开发基础设施软件的 Andrew Chatham,以及长期研究无人车「运动规划与动作执行」的 Nathaniel Fairfield。



以上这张图表显示出Dmitri Dolgov 所属部门的主要人员组成


自 Urmson 离开后,Dolgov 在 Waymo 内部发挥了更加积极的作用,扮演着一个典型的公众角色。


从去年开始,他负责的工程板块增加了很多,包括「模拟测试」(在虚拟环境中创建的街道上运行自动驾驶软件)与「汽车感知系统」(主要用来对汽车雷达与其他传感器收集的图像与数据进行处理)的测试与开发工作。此外,他也需要负责与正在创建的系统紧密相连的硬件组件设计与开发。


换句话说,在某种意义上,Dolgov 是整个 Waymo 的「运作中枢」。


据几名匿名内补人士的补充,尽管 2016 年前后 Google 无人驾驶事业部曾流失若干位顶级工程师,但大多数人都留在了公司,专门与 Dolgov 进行研发合作。


「他是那个地方把各个部门粘起来的一管胶水。」这是一位内部员工的原话。


在很大程度上,让这些顶级工程师保持心情愉悦是非常重要的。因为从当下来看,这已经不是 8、9 年前大公司从不把自动驾驶放在心上的日子了。


自动驾驶圈内的人才争夺战已愈演愈烈,越来越多的关键人物离开了一些曾经看起来更为成熟的项目,譬如 Waymo、特斯拉、Uber 和百度,然后陆续开启了属于自己的人生——自主创立自动驾驶技术公司。


他们到底有多重要?眼下若干个打的火热的诉讼(如 Waymo 与 Uber),就是为了确保这些人才不把专利技术带到新的供职单位中去。


当然,目前还没有迹象能表明 Dolgov 对 Krafcik 的不满会迫使前者离开 Google。而且 Dolgov 已经向他的同事明确表态过,他将继续留在这里,完成「Google 为大众提供安全无人叫车服务」这项壮举,该任务的重要性要远远大于高层管理问题。


另一项有意思的信息是,这位出生于俄罗斯的高级工程师,被现任与前任同事描述为「一位异常认真,却又心态平和,且对痛苦有着高容忍度的领导者」。这个形容,意味着他有能力忍受技术阻碍与官僚大山的双重挑战。



图片为 Dmitri Dolgov 本人


从 Krafick 的一方来看,作为一名现代与福特集团的前高管,他最终取代了 Waymo 前最高技术领导人 Chris Urmson ,成为Waymo最高领导人。而后者已经离开并创建了 Aurora,这是一家与 Google 展开竞争的技术创业公司。


公平来说,市面上大多认为 Krafcik 被 Google 雇佣,是为了提高公司加速商用落地的能力,而非成为一名技术领导者。


图为 John Krafcik 本人


然而,尽管 Krafick 被人嘲讽不懂无人驾驶技术,但他还是坚持一边学习观察,一边来管理这个顶尖技术团队。


据一位知情人士表示,为了进一步弄明白这项技术,今年早些时候, Krafcik 将他的办公桌挪到了工程师周围,而不是商用业务与产品负责人的身旁。


不过,Waymo 一名发言人表示,他们不会对这些谣言发表评论,公司所做的一切都是为了「尽快将自动驾驶技术推向市场」。


尽管在 Waymo 内部平静的水面下有暗流涌动,但无可争辩的是,Waymo 在「开发完全自主汽车「的阵营中一直处于领先地位。有人透露,预计 Waymo 的拼车服务最早将于 10 月在凤凰城正式运营。


技术「保守派」与「空降兵」的斗争?


实际上,Waymo 工程师们与 Krafcik 之间的摩擦已经持续了很长一段时间。早在去年夏天,整个团队就召开会议宣布并讨论了前业务最高技术领导人 Urmson 的离职问题。


当时在那场会议上,Krafcik 被迫回答了一个由团队成员匿名提交的问题纸条:为什么是他自己,而不是 Urmson 将担任子公司 Waymo 的最高领导人。


而他的回答很简单:他是被雇来带领团队的,并没有参与 Google 创始人们从外部招聘的决定。


然而,两位知情人士则揭开了 Krafcik 被雇佣的原因:


「Krafcik 被聘用是因为布林和佩奇对 Chauffeur 项目的推进不再抱有希望(异常失望)。当初在决定要招『空降兵』时,他们就曾设立了一个目标——要在 2016 年底推出无人车的商用服务。」


但工程师们对能否实现这一目标表现出很大的怀疑,特别是考虑到他们那时并没有合适的汽车来嵌入 Dolgov 部门开发的软件与他们自制的传感器。


其实也正是那个时候,Google 在与福特针对是否建立大规模合作伙伴关系进行谈判,内容大致与后者「提供必要数量的汽车」有关。当时,包括 Dolgov 在内的工程负责人们是非常支持这一计划的。


但是消息人士称,佩奇在谈判过程中始终担心这次合作会迫使开发成本大幅度提升,而 Krafcik 也同意把这项计划「砍」掉,因为他认为这会浪费 Chauffeur 更多的时间成本。


最终,Google 的无人驾驶汽车团队只与克莱斯勒达成了一项小规模协议——在后者的混合动力面包车里嵌入 Chauffeur 的自动驾驶软件。


除了与传统汽车厂商的合作,Waymo 的工程师们还与Krafcik 存在其他方面的分歧,譬如是否应该与一些现有拼车公司,如 Uber 或 Lyft 展开合作。


布林与佩奇一开始与工程师们想的一样,希望推出完全基于无人驾驶汽车的共享服务网络,也就是说,这里面不会有人类司机的存在。


但最终,Krafcik 等领导人说服了他俩,让他们相信在现有情况下,人类驱动型汽车与无人驾驶汽车组成的「混合车队」是一个必要的存在。这种组合可以解决 Waymo 无人车队无法处理的路况,譬如「长距离驾驶模式」与「私有道路许可」,这些对 Waymo 的乘车网络就有很大的限制。


因此,这就「接」上了我们在今年6月获知的公开消息:Waymo 最后选择将 Lyft 展开合作,以应对 Waymo 车队的「盲区」。


很明显,就像这两个「小插曲」一样,那些 Krafcik 与工程师们之间被形容为「剑拔弩张」的关系,其实都源于这样一个事实:


佩奇才是真正掌握 Waymo 控制权的人,而不是 Krafcik。



左为谢尔盖·布林,右为拉里·佩奇


比起「安全」,Waymo 高层们正在「用户体验」上另辟蹊径


当然,Krafcik 上任后并非没有采取自己的用人策略。


他先后雇佣并任命了一系列顶级工程师,包括今年 6 月从特斯拉挖来的硬件总监 Satish Jeyachandran。这位有着丰富造车经验的顶级专家,正在负责监督并管理此前开发了激光雷达与目标检测传感器的 Chauffeur 硬件团队。


此外,Krafcik 也聘用了一些非技术人才来协助 Waymo 各部门的执行主管们,后者大多曾为 Urmson 效力过。譬如,Krafcik 从旅游短租巨头 Airbnb 核心团队中挖走的高级管理人才,也就是当下 Waymo 业务发展与战略部门主管 Shaun Stewart。


Stewart 领导部门的主要成员


很多人认为这是一个奇怪的选择,因为他们不清楚 Stewart 的酒店服务业背景能帮 Waymo 做些什么。


但一位知情人士透露,这位新晋高管将帮助 Google 的无人驾驶汽车从更多方面,特别是在「用户体验」方面脱颖而出,而不仅仅是「达到安全标准」。


换句话说,他们认为,用户的体验打分对于 Google 无人车的商用拼车服务也非常重要。


目前,Stewart 领导的部门已经帮助 Waymo 找到了更多新型合作伙伴,譬如美国知名的一站式租车网站 Avis,该公司已经同意为 Waymo 位于亚利桑那州的无人车队提供定时维护清洗服务。


当然,在这份最新的 Waymo 管理架构中,还有两位值得关注的关键人物:


一个是 Robert Ellis,他是 Waymo 底特律业务部的负责人。在底特律,工程师们在测试汽车的过程中,正与克莱斯勒与其他潜在合作伙伴建立更加密切的关系。


譬如,一位名叫 Adam Frost 的福特老牌工程师就需要与 Ellis 保持紧密联系,监督并审查 Waymo 与汽车合作伙伴们的技术合作进展。



Ellis 领导部门的主要成员


而另一个是领导「产品与用户体验」部门的 Dan Chu。目前,他领导的这个部门把工作重点放在了「如何提升用户体验」方面,譬如正在研究「消费者将如何与汽车进行互动」,「如何拦下车辆并让他们到达消费者指定的精确位置」等命题。


Chu 领导部门的主要成员


无论如何,在 Krafcik 上任,内部架构进行大调整后,Google 的「一路到底」开发策略正在发生着微妙的变化。在很大程度上,你已经不能称之为与传统汽车厂商们「渐进式路径」大相迥异的模式与风格了。


参考资料来源:The Information,彭博,Recode


]]> 原文: http://ift.tt/2xdCTeR
RSS Feed

机器知心

IFTTT

Facebook在人工智能的道路上走了多远?

来源 | Nasdaq

作者 | Prableen Bajpai

编译 | 不定项


随着人工智能工具的升级迭代,以及对周围动态环境的适应,人机交互将变得更加灵活以及个性化。这意味着对于 Facebook 这样试图用科技重塑人际关系的公司而言,AI 技术的应用至关重要。


如今,Facebook 已经展示了将 AI 和社交服务结合的决心,以期提供更好的用户体验。




全球布局 AI 实验室

 

带着「AI 让世界更近」的憧憬,Facebook 在九月份宣布,在蒙特利尔新建一所人工智能研究室,这也是 Facebook 人工智能研究院(FAIR)的一部分。此前,Facebook 已在加州门洛帕克、纽约和巴黎等地建有三所人工智能研究室,共计拥有 100 多位科学家。


为了「笼络」加拿大的算法人才,Facebook 还宣布在将投资七百万美元用于支持加拿大高级研究所(CIFAR)、蒙特利尔学习算法学院、麦吉尔大学以及蒙特利尔大学的 AI 研究。


不过在全球布局的道路上,Facebook 还面临着其他科技巨头的竞争。例如,微软和谷歌都已经先走一步,提前将 AI 研究分部落地加拿大。


2016 年 11 月,谷歌承诺向蒙特利尔学习算法学院、蒙特利尔大学以及麦吉尔大学提供 450 万美元,用以支持 AI 研究。与此同时,谷歌在蒙特利尔开设了深度学习和人工智能分部,与加州的谷歌大脑团队紧密联系。


当然,微软也不落后,在今年初收购蒙特利尔的 AI 初创公司 Maluuba,用于加大未来两年的 AI 生态布局。这家科技巨头甚至向蒙特利尔大学和麦吉尔大学分别捐赠 600 万美元和 100 万美元,用于其人工智能研究。


IBM 近期也承诺投资 2.4 亿美元,与麻省理工学院共同建设 MIT-IBM Watson 人工智能实验室。


加大合作和收购力度


早在 2016 年 9 月,Facebook 和亚马逊、IBM、微软以及谷歌共同宣布成立一家非营利机构 Partnership on AI,意为「为大众和社会谋福祉的 AI 合作组织」。该机构的目标为,提升公众对人工智能的理解,促进 AI 机构的合作并制定相关的行业标准。随后,苹果、英特尔、Salesforce、SAP、索尼、麦肯锡以及联合国儿童基金会等机构陆续加入。

 

今年九月初,Facebook 与微软联合推出了开放式神经网络交换(ONNX)格式,它是一个表征深度学习模型的标准,可实现模型在不同框架之间的迁移。Facebook 称「这是迈向开放式生态系统的第一步。在未来开发者可以轻易切换工具,并自由搭配最优的组合。」


此外,Facebook 还通过收购初创公司来增加 AI 实力。例如今年 7 月,Facebook 收购提供虚拟助手服务的初创公司 Ozlo,相关技术将用于增加 Messenger 的用户体验。Facebook 收购的公司还包括换脸应用开发商 Masquerade Technologies、计算机视觉公司 Zurich Eye 和 Fayteq AG、面部识别技术公司 FacioMetrics 等。


将人工智能应用到实际的场景中


Facebook 有二十亿用户,占世界人口的 26%,他们每天都在生产海量的非结构化数据。这些数据如果搭配以适当的工具,能够成为丰富多彩的资源,得出许多有逻辑性的结论和解决方案。


  • 去年,Facebook 推出基于深度学习的文字理解引擎 DeepText,它能够理解 20 多种语言,同时在每秒钟理解数千篇的文本,准确率与人类相当。如今,它已经被用在 Messenger 上,用于推荐合适的对话回复。
  • 在人脸识别方面,Facebook 已达到了 97% 的准确率,同时在进行像素级的物体识别研究,相关成果可用于图片分割、分类以及修复等。Facebook 甚至在 Instagram 和 Messenger 上搭建了人工智能相机。
  • Facebook 还利用 AI 解决广告作弊的问题,有些作弊广告避开了 Facebook 的检查流程,违反了社区标准以及广告策略。与之类似的,Facebook 还能够阻止平台上极端主义及恐怖主义内容的传播。

总而言之,基于人工智能的工具可以提升内容和广告的准确性和吸引力,从而创造更好的用户体验。特别是目前,Facebook 的广告业务占其总收入的 97%,AI 的应用无疑会创造更大的经济价值。


前路漫漫,时有挫折


从收入的角度来说,Facebook 仍是一家广告公司。根据其 2017 年第二季度财报,移动广告营收约占广告营收的 87%。

正是在广告业务上,Facebook 引发了一系列的争议。


今年 9 月份,非营利性民间新闻网站 ProPublica 发表文章称,Facebook 发布广告的目标受众的标签中,含有「反犹太者」、「如何焚烧犹太人」、「纳粹党」等词汇。


这些内容的出现,是因为 Facebook 的广告系统在没有人工审核的情况下,自动抓取了用户资料的「兴趣」、「工作」、「研究领域」等文字内容作为受众标签。


Facebook COO Sheryl Sandberg 承认,在此之前并不知道广告受众的标签中有这样的词汇,但在意识到之后立即将这些标签删除。Sandberg 还表示,Facebook 将利用人工审核所有的标签,以确保不会出现类似的错误。


此外,对于 Facebook 而言,俄罗斯政选广告危机、假新闻泛滥等问题依然严重。


但 Facebook 正在努力解决。在 2016 年底,Facebook 开始与事实调查网站 Snopes、ABC 新闻及美联社等新闻机构合作,确保新闻的真实性,同时将争议内容的排序降低。


对于此次政选广告危机,扎克伯格称,Facebook将增加政治广告透明度,同时加强政治类广告审查程序。


在算法层面,Facebook 人工智能研究院也在开发解决问题问题的工具,例如可以帮助 Facebook 给内容贴上来源和分享链的标签。这也有助于了解假新闻的传播特征,并以此筛选出假新闻。



Facebook的未来十年规划


前路漫漫,时有挫折。但相比于马斯克,扎克伯格对 AI 的前景更为乐观。在对 Facebook 未来十年的规划中,人工智能(AI)、虚拟现实(VR)以及增强现实(AR)都成为了关注的重点。


美国网络杂志 Slate 评论说:「Facebook 已经通过两种截然不同的方式实现了自我再造。首先,它不再是纯粹的社交网络,而是成为了一个在线世界的个性化门户。其次,它正在大举下注科技和社交媒体的未来,它已经不能再简单地被定义为一家社交网络——就像 Alphabet 不能再被定义为搜索网站一样。」


]]> 原文: http://ift.tt/2kmqD5O
RSS Feed

机器知心

IFTTT

从零开始:如何使用LSTM预测汇率变化趋势

在这篇文章中,我们将通过 LSTM 讨论时序预测模型,数据科学家 Neelabh Pant 也会为大家描述他利用循环神经网络预测货币兑换汇率的经验。


作为一个在美国生活的印度人,Neelabh 和家乡之间存在恒定的金钱流动。如果在市场中,美元更加强势,则印度卢比相对贬值,因此从印度购买 1 美元需要更多的卢比。如果美元相对弱势,则购买 1 美元需要的卢比会更少。


如果可以预测第二天的美元的价值,那么可以以此为参考做出更好的决策,最小化风险并最大化收益。了解到神经网络的强大,尤其是循环神经网络,Neelabh 想到了预测美元和卢比的兑换汇率的点子。


通常情况下,预测汇率有很多方法,例如:


  • 购买力平价(PPP)
  • 相对经济实力法
  • 计量经济模型
  • 时间序列模型


在这篇文章中,我们将告诉你如何利用时序分析和机器学习时序模型来预测未来的兑换汇率变化。


序列问题


我们从序列问题的讨论开始,最简单的序列机器学习问题是「一对一」问题。



One to One


在这种问题中,向模型输入一个数据或一个向量,模型会对输入生成一个预测结果。无论是回归、分类还是通过卷积网络的图像分类都属于这个类型。通过扩展这种模式,我们可以将其改造成利用过去的输入和输出进行学习的模型。


一对多问题是一对一问题的扩展,因为一对一问题的模型只有一个输入和输出。而现在模型的输出再馈送到模型作为新的输入,这样模型就会生成多个输出,下面我们将了解一对多为什么又称为循环神经网络。



One to Many


由于连接方式构成有向循环,循环神经网络可以处理序列问题。就是说,循环神经网络可以在每一次的迭代中保持网络形态不变的前提下,将输出作为下一步的输入。从编程的角度上说就像是利用确定的输入和一些隐藏变量,在固定不变的程序上保持运行。最简单的循环神经网络,将时间轴展开之后,可以看成一个全连接神经网络。



RNN Unrolled Time




在这个单变量的例子中,只包括了两个权重。权重 u 和当前输入 x_t 相乘,权重 w 和上一步输出 y_t-1 相乘。这个利用过去输出和当前输入的公式很像指数加权移动平均法(exponential weighted moving average,EWMA)。


只要将网络单元一个接一个堆叠起来,就可以轻易建立一个深度循环神经网络。简单的循环神经网络可以很好的处理短期记忆模型,但是在长时依赖项中,模型将会遇到根本的困难。


长短期记忆神经网络(Long Short-Term Neural Network)


之前说过,简单的循环神经网络无法捕捉长期依赖序列中的特征,是一个根本的困难。这个问题很重要,因为我们希望以后我们的 RNN 可以分析文本和回答问题,在这些任务中很自然的需要分析长序列的文字。


90 年代末,Sepp Hochreiter 和 Jurgen Schmidhuber 提出了 LSTM,这种模型对长期依赖性的处理要比 RNN、隐马尔可夫模型和其他序列学习方法要优秀地多。



LSTM架构


LSTM 模型将各种运算集合在一个单元中,LSTM 有一个内部状态变量,并且该状态变量可以从一个单元传递到另一个 LSTM 单元中,同时通过门运算进行修改。


1. 遗忘门




这是一个 Sigmoid 层,以 t-1 时刻的输出和 t 时刻的当前输入为参量串接到一个单张量中,加上线性变换,最后用 sigmoid 函数变换。由于 sigmoid 函数的性质,这个门的值被限定在 0 和 1 之间,该值与内态的值相乘,这也它会被叫做忘记门的原因。如果 ft=0 那么过去的内态将被忽略,如果 ft=1 那么内态将被完整的传递。


2. 输入门




输入门以过去的输出和当前输入为参量并馈送到一个 sigmoid 层。同样,这个门的输出值也是在 0 和 1 之间,输入门的值将和候选层的输出值相乘。




这个层对当前输入和过去输出应用了双曲正切函数作为变换(激活函数),结果将返回一个与内部状态相加的候选向量。


内态通过这个规则不断更新:




过去的状态和遗忘门的值相乘,然后加上输出门所给出新的候选状态。


3. 输出门




这个门控制多大比率的内部状态将被传递到输出,这和其它门的工作方式类似。


以上描述的三个门有互相独立的权重和偏置,因此,网络将分别学会,保持过去输出的概率、保持当前输入的概率以及将内态传递给输出的概率。


在一个循环神经网络中,不仅需要输入数据,还需要输入网络过去的状态。举例来说,如果我喊「嘿!我开车的时候发生了不得了的事!」这时你的大脑的一部分将把这句话分解成,「噢,Neelabh 正在给我讲一个故事,这个故事的主人公是 Neelabh 并且故事发生在路上。」然后,你需要将我刚才告诉你的话记住一部分。在接下来的故事中,你都必须随时保留部分听过的话的印象,才能逐渐明白整个故事。


另一个例子是关于是关于视频加工的,同样需要用到循环神经网络。大多数情况下,一部电影中,当前画面所描述的内容相当依赖于上一个画面的内容。经过一段时间的训练后,循环神经网络将学会保留过去画面的哪些部分和保留的比率,以及保留当前画面的多少信息,丰富的结构使其拥有比简单前馈神经网络强大得多的性能。


时间序列预测


RNN 的强大功能令我印象深刻,因此我决定使用 RNN 预测美元和卢比的兑换汇率。这个计划中使用的数据集是从 1980 年 1 月 2 日到 2017 年 8 月 10 日的兑换汇率的数据。稍后我将给出链接供你们下载和实验。



表1.数据集样本


数据集展示了 1 美元相对卢比的价值,我们一共拥有总数目为 13 730 条从 1980 年 1 月 2 日到 2017 年 8 月 10 日的数据记录。



美元对印度卢比汇率变化曲线


在这段期间,1 美元的卢比价值总体在上升。不难看到,在 2007-2008 年之间,由于经济大衰退,美国经济经历了一次重大的危机,这个图描绘了从 20 世纪末期到 21 世纪早期世界市场经济衰退的轨迹。


这段期间内,全世界的经济发展状况不是很好,特别是北美和欧洲(包括俄罗斯),都陷入了明显的衰退。不过,与此同时,很多新兴的经济体受到的冲击要小得多,特别是中国和印度,在这场灾难中,他们的经济依然得到了大幅增长。


训练集和测试集的分割


现在,为了训练模型,我们需要将数据集分成测试和训练集。在做时间序列时,以明确的日期为界限将数据集分为训练和测试两部分是很重要的。毕竟,你不会希望你的测试数据的时间排在你的训练数据之前。


在我们的实验中将定义一个日期,比如 2010 年 1 月 1 日,作为分界日期。训练数据的日期从 1980 年 1 月 2 日到 2009 年 12 月 31 日,包括大约 11 000 个数据点。


测试数据的日期从 2010 年 1 月 1 日到 2017 年 8 月 10 日,包括大约 2700 个数据点。



训练-测试


接下来要将数据集归一化,即将训练数据转换格式并将测试数据按同样的格式映射到训练数据上,这样可以避免假定知道测试数据的规模带来的影响。归一化或者数据转换意味着新变量的定义域将限定在 0 和 1 之间。


神经网络模型


一个全连接模型即将一个输入变换成一个输出的简单神经网络,它的构建就如同简单的回归模型那样通过前一天的价格预测第二天的价格。


我们以均方差作为损失函数,并使用随机梯度下降优化算法。经过足够多代的训练,将能开始寻找足够好的局部最优解。下方是全连接层性质的总结。



全连接层


经过 200 个 epoch 的训练,或者 eraly_callbacks 的出现(无论哪个先出现),这个模型就开始尝试学习数据的模式和行为。由于我们区分了训练集和测试集,现在我们可以预测测试数据集并和真实值比较。



真值(蓝色)与预测值(橙色)对比


正如你所看到的,模型的表现并不好。基本上它只是重复过去的值,只有轻微的变化。全连接网络无法从单一的过去值预测未来的值。接下来我们尝试循环神经网络,看看它工作的如何。


长短期记忆


我们使用的周期循环模型是一个单层序列模型,层内使用 6 个 LSTM 节点,输入的维度设为(1,1),即网络的单个输入只含一个特征值。



LSTM模型


最后一层是一个密集层,损失函数为均方误差函数,并且采用随机梯度下降作为优化器。我们将模型训练了 200 个 epoch,并采用了中断训练回调。模型的性质总结在上方展示。



LSTM预测


这个模型几乎学会了将这些年的数据完全重现,并且在一个简单的前馈神经网络的辅助下,不出现延迟。不过,它仍然低估了一些确定的观察值,模型仍然有很大的改进空间。


模型的改进


这个模型还可以做很多的改进,通过改进优化器的方法以改变模型结构的方式可以有很多种。还有另一种很重要的改进方法是来自数据流管理系统的滑动时间窗口法。


这种方法源于只有最近的数据才是最重要的观点,即可以从一年时长的数据中尝试预测下一年第一天的值。就从数据集中获取重要模式并高度依赖于过去观察值而言,滑动时间窗口法是非常有用的。


你们也可以按自己的方式尝试去改进模型,看看模型会如何应答这些变化。


数据集


我已经把数据集公布在 github 项目中,请随意下载,尽情使用吧。


GitHub 地址:http://ift.tt/2gKcZEp


有用的学习资源


我个人一直追随着几位我最喜欢的数据科学家,比如 Kirill Eremenko,Jose Portilla,Dan Van Boxel(更知名的是 Dan Does Data 这个名号),还有很多。他们大部分都有自己的博客并在上面讨论今天主题的各方面,如 RNN,CNN,LSTM,甚至还有最近出现的新技术,神经图灵机。


尽可能去跟进各种人工智能大会的新闻。顺便提一下,有兴趣的可以关注,Kirill Eremenko 即将带着他优秀的队伍在 San Diego 作关于机器学习,神经网络和数据科学的报告。


结论


通过学习过去行为的主要特征并区分哪些特征才是对预测未来所需,LSTM 模型确实是很强大的工具。已经有几种应用管法广泛使用了 LSTM,比如语音识别、作曲、手写字识别,甚至还有我最近研究中的对人体移动和交通运输的预测实验。


对于我们而言,LSTM 就是一个拥有自己的记忆并能像天才一样做出精准决策的模型。

]]> 原文: http://ift.tt/2xSuGtz
RSS Feed

机器知心

IFTTT

迁移学习 + BPE,改进低资源语言的神经翻译结果

在本论文中,作者结合迁移学习与 BPE 方法,使用低资源的相关语言的平行数据改进同样低资源语言的神经机器翻译结果。


论文:Transfer Learning across Low-Resource, Related Languages for Neural Machine Translation




链接:http://ift.tt/2g8BDiE


摘要:我们提出了一种简单的方法,对一种低资源的语言对的神经机器翻译结果,使用同样低资源的相关语言的平行数据帮助改进。这种方法主要基于 Zoph 等人提出的迁移方法,但他们的方法忽略了源词汇重复,我们的方法对此进行了开拓。首先,我们使用 BPE(字节对编码)的方式分离单词来增加单词重复。然后,在第一种语言对上训练模型,将其参数(包括源词嵌入)迁移到另一个模型,再在第二种语言对上继续训练。我们的实验证明,虽然 BPE 方法和迁移学习单独用的时候表现不一致,但一起用时能提高 1.8 个 BLEU 值。



表 1:土耳其语与乌兹别克语中拥有同样词根的单词示例



表 2:训练数据中的 token 与句子的数量



图 1:不同设置下的 Tokenized dev BLEU 得分。注意:baseline = 只训练子模型;transfer = 先训练父模型,再训练子模型;+freeze = 在子模型中 freeze 目标词嵌入



表 4:在父模型中出现的源词嵌入占子模型源词嵌入的比例

]]> 原文: http://ift.tt/2g8FGLO
RSS Feed

机器知心

IFTTT

2017年10月2日星期一

大脑海马体藏有学习本质的秘密,这是DeepMind新发现 | 附论文

维金 编译自 DeepMind博客等量子位 出品 | 公众号 QbitAI

DeepMind在神经科学和人工智能结合的探索上又有新进展。

海马体"预测地图"

有没有想过这些问题:你是如何选择的上班路线,你是如何决定搬家去哪里,下棋的时候你是怎么决定走出那一步?

所有这些场景中,其实都存在一个估计:你的决策在未来能获得多大的回报。

这很微妙,你考虑的未来越远,可能出现的情况总数就会更多。理解我们这方面的行为是神经科学研究的一个重要课题,而在人工智能研究中,开发能有效预测未来回报的系统也是个关注重点。

在《自然神经科学》(Nature Neuroscience)上新发布的论文中,DeepMind将神经科学知识应用于机器学习中的数学理论,从而带来关于学习和记忆本质的新见解。

具体来说,DeepMind认为,大脑中的一块区域,即海马体,对这个问题提供了独特的解决方案。海马体运用被DeepMind称作"预测地图"的机制来高度总结未来的事件。

传统观点认为,海马体只反映动物当前的状态,尤其是在迷宫穿梭等空间任务中。这种观点获得了很多支持,因为在啮齿动物的海马体中发现了"位置细胞":当动物处于特定位置时,这些细胞将会被激活。

(量子位注:2014年诺贝尔生理或医学奖,被授予了美英双国籍的神经生物学家John O'Keefe以及挪威的神经生物学家May-Britt Moser和Edvard Moser夫妇,以表彰他们在位置细胞和格点细胞上的神经生理学工作。他们的研究发现了位于大脑海马及内嗅皮层中的一些对空间位置有特异性的特殊神经元,这些神经元构成了一个精巧的定位系统,使人们能够认知自己在空间中所处的位置,并帮助人们进行导航。)

尽管这种理论可以解释许多神经生理学发现,但无法完全解释,为何海马体也参与了其他功能,例如记忆、关系推理和决策。

DeepMind的新理论认为,在计算未来最大回报的过程中,思维导航是种更常见的问题。DeepMind的结论来自于人工智能研究的子学科强化学习。这种学习方法关注不断试错的系统。

DeepMind的关键思路是,为了估计未来回报,人工智能agent(智能体)必须首先估计,在每种状态下预计能获得多少立即回报,随后根据每种状态未来发生的可能性评估这些回报。通过总结所有可能状态下的加权回报,agent可以得出对未来回报的估计。

类似的,DeepMind认为海马体代表了全部状态,即海马体预测到的未来所有状态。

例如,如果你即将下班(即当前状态),那么海马体会做出这样的预测:你很快就会动身,前往学校接孩子,最后回到距离更远的家中。

通过判断每个当前状态与预期后续状态的关系,海马体可以对未来事件做出高度的总结,这种行为的学名是"后续表现"。DeepMind认为,这种特殊形式的预测地图使大脑可以在回报不断变化的环境中迅速适应环境,同时不必对未来展开计算开销极高的模拟。

这种思路结合了两种算法的优势。这两种算法已在强化学习的研究中很知名,同时也被认为存在于人类和啮齿动物的大脑中。"基于模型"的算法能学习环境模型,随后通过模拟得出对未来回报的估计。"无模型"算法则直接从环境经验中得出对未来回报的估计。基于模型的算法很灵活,但有着很大的计算开销。无模型算法计算开销较小,但不太灵活。

DeepMind理论中的算法结合了基于模型算法的灵活性,以及无模型算法的计算效率。由于计算过程是简单的加权求和,因此计算过程非常高效,类似于无模型算法。与此同时,通过区分回报预期和状态预期(即预测地图),算法可以在维持状态预期不变的情况下刷新回报预期,从而快速适应回报的改变。

DeepMind计划在未来工作中进一步检验这种理论。由于预测地图理论可以被转换为多种神经网络架构,因此DeepMind希望探索这种学习策略如何推动灵活快速的规划。

在更普遍的意义上,未来的一项主要任务是研究大脑如何整合不同类型的学习方式。尽管DeepMind用这个模型去替代大脑中基于模型和无模型的学习方式,但更贴近现实的情况是,在学习和规划过程中,大脑同时展开了多种类型的学习。

理解这些学习算法如何配合运转是理解人类和动物大脑的重要一步,也将指导DeepMind设计复杂、多面的人工智能。

只有了解大脑,才能开发出更强的AI

因为创造出AlphaGo而名满天下的DeepMind,一直在思考人工智能如何达到下个高度。

在DeepMind创始人哈萨比斯看来,答案就在于人类中间,或者说人类的身体中。他一直认为,人工智能需要与神经科学重新建立联系。只有更多地了解自然智能,我们才能真正理解(并开发出)人工智能。

下面这段,摘自自哈萨比斯7月的一次访谈。

问:你以往曾讨论过,DeepMind最大的目标之一是开发人工智能,促进更多的科学发现,使其成为提高人类创造力的工具。神经科学如何帮助你达到这个目标?

哈萨比斯:实际上有两种方式。其中之一是将神经科学作为算法和架构理念的灵感来源。关于开发通用智能的可行性,人类大脑是唯一现存的证明。因此我们认为,有必要付诸努力,尝试并理解这些能力是如何形成的。随后我们可以看看,是否有些办法,将其转移至机器学习和人工智能。

这也是我在博士阶段研究神经科学的原因:关注大脑的记忆和想象力,理解大脑中的哪些区域参与其中,存在什么样的机制,随后使用这些知识帮助我们思考,如何在人工智能系统中实现同样的功能。

我们试图理解的另一方面是,智能究竟是什么,这也包括自然智能,人类的智力。因此我认为,可能会出现反向的帮助。利用可以完成有趣任务的人工智能算法,我们可以了解,应该如何看待大脑本身。我们可以使用这些人工智能系统作为模型,了解大脑中正在发生什么。

问:你提到大脑的想象力、预测未来的能力,是改进AI的关键功能。能不能举个例子,说明AI怎么才能拥有这些能力?

哈萨比斯:这些高级的想法目前还在很基础的阶段。先有记忆,然后再有想象。大脑里有不同的存储系统。比方说短期工作记忆,可以用来记住电话号码这种不长的信息。另外还有场景记忆,这是一种长期记忆,甚至你在睡觉的时候都能从中学习经验。

这只是一个想法,不同的记忆存储系统,对AI来说很有价值。传统的神经网络没有太多的记忆,只专注于当时当刻。为了改变这个情况,人类发明了神经图灵机,让神经网络可以连接并使用一个很大的扩展存储器。这是一个神经科学启发的想法。

然后我们来说想象,这是人类和一些动物,对世界的生成模型,这种模型被用来在现实世界行动之前,评估和规划将会发生什么,以及可能产生的后果。

想象力是一个非常强大的规划工具。你需要建立一个世界的模型,然后使用这个模型去预测,还要及时向前推进。所以,当我们开始拆解想象力的构成时,就能获得一些关于构建想象力所需功能的线索。

论文&下载

DeepMind最新发表在《自然神经科学》的这篇论文,去年12月提交,今年8月29日被接受,10月2日正式在线发布。

摘要

海马体的主要功能一直被认为是"认知地图",即位置细胞对空间几何表示进行了编码。然而,位置细胞中的预测编码、奖励敏感性和策略依赖,表明这里不仅仅解决空间问题。

我们从强化学习的角度来看待这个问题:什么样的空间表示能最大化未来的奖励?我们使用预测表示的形式来给出答案。这种表征捕获了落在传统认知地图之外的许多位置细胞反应。更进一步,我们认为内嗅格点细胞为预测表示进行低维基集编码,用于抑制预测中的噪声并提取分层规划的多尺度结构。

《自然神经科学》的订阅用户,可以前往下面这个网址查看论文:

http://ift.tt/2yTSpd9

另外,在量子位微信公众号(QbitAI)对话界面,回复"海马体"三个字。就能下载查看这篇论文。

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2xMYURh
RSS Feed

RSS5

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...