2017年11月4日星期六

应用监控怎么做?- InfoQ每周精要509期

 中文站「每周精要」
感谢您订阅每周精要第 509 期,本期内容截止于2017-11-05。
极客时间   GeekTime
如何用技术快速变现?"左耳朵耗子"陈皓教你享受技术的乐趣!
从小白到大牛?骨灰级程序员陈皓全面剖析主流关键技术,手把手教你职场成长,用技术快速变现!洞悉技术的本质,跟陈皓一起享受科技的乐趣!
人工智能时代,你的360度人工智能信息助理来啦!
毋庸置疑,这是一个属于人工智能的时代。这一份《AI技术内参》精选了10个国际人工智能学术会议深入解读,分专题讲解人工智能核心技术剖析。从这里开启你的人工智能。
纵览大航海时代,了解100家互联网公司的兴衰史。
互联网迅猛发展30年,世界上出现了很多大大小小的IT公司。看周鸿祎创立360,听Cloudera的生意经,品RealNetworks的浮沉往事,了解互联网公司的不宣趣史;互联网的浪潮里,关注互联网历史,才能读懂未来。
技术新闻   TECH NEWS
Kafka迎来1.0.0版本,正式告别四位数版本号
Kafka现在正式迎来了1.0.0版本!
unCaptcha:准确率高达85%的谷歌语音验证码破解工具
近日,美国马里兰大学的四位研究人员开源了一个工具叫unCaptcha,用于破解谷歌的语音验证码系统,准确率高达85%。
对话Confluent CTO :针对Kafka的分布式流数据查询引擎KSQL技术解读
Confluent发布KSQL:针对Apache Kafka的交互式、分布式流数据SQL引擎。KSQL支持对Apache Kafka中的主题进行多种流处理操作,比如聚合、连接、时间窗口以及会话。Confluent是在最近举行的Kafka峰会上宣布开源这个流SQL引擎的。
Java新版本的开发现状
Java 9在9月21日正式发布,Java新版本的开发也已正式进入轨道。就目前公开的消息来看,下一个版本的Java预计会在2018年3月发布,版本号将会是18.3,已经规划加入的特性包括JEP 286和296。
IBM开源的Open Liberty项目简介
近日,IBM开源了Open Liberty,它是WebSphere Liberty的开源实现。Open Liberty支持基于Eclipse MicroProfile和Java EE API构建微服务和云原生应用。来自IBM杰出工程师John Duimovich和该项目的领导者Nottingham在JavaOne会议上披露了该项目的更多情况。
微软、谷歌和Mozilla联手打造Web文档
三大浏览器厂商发布联合声明,同意将他们各自的Web API参考文档汇集到Mozilla MDN上,并成立了一个指导小组处理后续事宜。
InfoQ书店   InfoQ BOOKSTORE
《硅谷革命:成就苹果公司的疯狂往事》
《硅谷革命:成就苹果公司的疯狂往事》(全彩精装)这本书能近乎完美的解答怎样是最好的工程师文化,苹果凭什么从80年代龙争虎斗的硅谷发展到如今市值登顶。这是一本开发者写给你的书,一个亲历者写给团队的书。精品电商"极客官舍"正独家发售中,现在下单,即可获赠精美书签一枚。
《聊聊架构》
我们总是喜欢借鉴别人的架构实践,参考别人的架构图,但体会过的人都知道,由于各家公司的行业背景、发展情况、人力资源都不同,所以真正意义上的架构借鉴难度很大。 《聊聊架构》希望揭开事物的外在"表皮",再现架构深层之理,向读者揭示最本质的架构之道。
架构&设计   ARCHITECTURE & DESIGN
应用监控怎么做?
使用Metrics实现对应用的监控。
用WinRAR没花过一分钱?这是人家的成功心理学
免费还是收费?WinRAR的生意经。
构建Uber端到端技术栈的十条经验
如何快速地做一个稳定的端到端大型应用。
云计算   CLOUD COMPUTING
Docker说了这么多 最全的一篇在这里
本文从 Docker 定义,作用,技术架构,安装和使用等全方位带你看懂 Docker。
有了这4步 搞定持续安全植入容器部署问题
从构建阶段到传输至生产运行阶段,容器在每个阶段都面临着安全风险。为应对这些威胁,保证容器的一致性和安全性,实现持续安全至关重要。
Terraform及多云如何进一步简化?
现在我们给出的方案很酷,因为用户可以从其所能发现的最好云服务商中挑选最好的服务,并插入到自己的架构中……用户可以用上所有云中最好的服务。
运维&DevOps   OPERATIONS & DevOps
精通DevOps必备的50款顶级工具
这里有 50个顶级的 DevOps 落地必备工具,让你距离 DevOps 越来越近。如果你还觉得不够,接下来还会有50个。
智能时代,运维工程师该谈什么?
从最初级运维发展到现在智能化运维,大致经历了四个阶段:脚本时代——工具时代——自动化时代——智能化时代。
VMware张海宁: 如何实现高效安全的镜像运维?
关于如何在 Kubernetes 的实际开发运维中,高效安全地部署镜像仓库并管理容器镜像的方法, VMware 中国研发中心先进技术中心技术总监张海宁老师发表了自己独到的见解。
大前端   THE FRONT END
App Store 9月审核被拒原因排行榜!
作为一名 App 推广人,最苦楚的事情之一莫过于审核被拒、又被拒了……其实除了 App 自身问题之外,与被拒与苹果近期的审核侧重点也有一定的关系,那么如何才能把握住苹果审核的节奏,减少审核被拒的几率呢?
如何控制iPhone X的 Home指示键
iPhone X 给出了一个称为"Home 指示键"的新特性,替代了物理 Home 键。这导致了使用上的差异,并对 App 开发提出了新的挑战。尽管大部分 App 无需担心,苹果会自动调整,但是开发人员还是应该了解相关 API 的特性及考量。
前端每周清单:Bootstrap 4必知、2017 Vue.js报告
前端每周清单专注前端领域内容,以对外文资料的搜集为主,帮助开发者了解一周前端热点;分为新闻热点、开发教程、工程实践、深度阅读、开源项目、巅峰人生等栏目。
大数据 & 人工智能  BIG DATA & ARTIFICIAL INTELLIGENCE
Google Brain工程师演讲实录:TensorFlow与深度学习
来自Google Brain工程师对TensorFlow与深度学习的看法。
微博技术大V老师木的机器学习水平怎么样?
老师木的首次访谈会对大家讲些什么?
盘点金融领域里常用的深度学习模型
在今天我们发布的这篇文章中,作者 Sonam Srivastava 介绍了金融中的三种深度学习用例及这些模型优劣的证据。
技术大会   CONFERENCE
快了,这场上百顶尖架构师的岁末总结 | ArchSummit日程出炉
Microsoft、Google、Facebook、"BAT"等国内外知名互联网企业架构师已应邀出席,12月8-11日,2017年各种架构实践的不同经验和教训,必定能通过这百场交流和培训传达给你,点击迅速获取日程。
微信小程序商业智能技术应用实践
2017年初微信小程序正式上线,经过一年的发展,人们已经逐渐认识到小程序带来的便利。AICon上,张重阳将分享小程序在商业化方向的技术尝试和相关应用案例,包括商业智能、数据决策、用户分析、个性化推荐等,并与大家一起探讨小程序未来的发展方向。
活动推荐   ACTIVITY
《全国IT笔试联考周》程序员找工作得任性!
《全国IT笔试联考周》正式开始,凡报名的学生将通过猿圈专业测评题目进行线上能力考察,成绩优异者可直接获得名企内推名额。
这是一个AI 新时代,也是技术开源的时代。
百度已经开放了 80+项 AI 核心技术。那么,百度语音技术有哪些应用案例?百度UNIT有哪些最新技术进展?PaddlePaddle使用过程中会遇到哪些问题,怎样解决?百度 AI 开发者实战营给你答案。
AWS告诉你如何应对全球化的双11
11月7日下午14:00,AWS架构师姜振勇老师告诉你对于注册用户量超过3000万的小红书这样的电商,是如何借助AWS快速搭建高效的大数据统计、分析系统的。立即注册收看。
InfoQ中文站每周日针对会员发送每周内容精要邮件,
别人转发给你的邮件?现在注册获取您自己的 InfoQ每周精要邮件吧
InfoQ微博:@InfoQ
InfoQ微信:infoqchina

硅谷最干货大会之一AI Frontiers 详解全球投资热区和5大应用趋势

记者 | 彭君韬(Tony)

参与 | Alex Chen


美国时间周五,位于硅谷的圣克拉拉会议中心,人头攒动,来自 17 个国家的 1400 多人参加了硅谷人工智能前沿大会 AI Frontiers。这些人有着共同的兴趣:AI。


这是 AI Frontiers 今年的第二场大会,为期三天。前百度首席人工智能科学家、Coursera 和 deeplearing.ai 的创始人吴恩达,以及来自 Google、Amazon、Facebook、Nvidia、Uber、EA、麦肯锡、阿里巴巴的代表,分享了语音助手、机器人、无人车、视频理解和游戏等领域在今年的最新趋势。


机器之心从大会现场带来核心内容:


吴恩达:发展 AI 就积极创业!


吴恩达的演讲,满是他在斯坦福大学当教授教课的样子:衬衫西裤,黑笔白板,无需演讲稿和 ppt,直接写出要点,开始演讲。




离职的这半年,吴恩达动作频频——创建 Deeplearning.ai;在 Coursera 推出基于深度学习的 5 项课程;加入他的学生 Alison Darcy 所创立的 AI 公司 Woebot 成为董事会主席;他妻子 Carol Reiley 所在的无人车公司 Drive.ai 也在今年完成 1500 万美元的融资,并和 Lyft 达成战略合作。


「AI 就是新的电力」,这句话成为了吴恩达的座右铭,他也以此做题,畅谈了 AI 对工业界带来的影响。


除了在 AI 的三大领域——语音识别、自然语言处理、计算机视觉做点到为止的讲解外,吴恩达提到现在科技公司的工作流程因为 AI 发生了巨大的变化。


「过去,互联网公司的项目经理会给工程师一个用户界面;现在,任何一个工程师拿着一张画着用户界面的草图都做不出一个聊天机器人出来,」吴恩达说。


另一个非常重要的问题是,传统科技公司+神经网络并不等于 AI 公司。要想实现 AI 在公司各层次业务上的普及,必须加入新的工作流程——你需要获取全新的战略性数据,统一化的数据分析,为有 AI 技能的工程师增加新的工作职位,比如说 CAO(Chief AI Officer)。


美国科技媒体 ZD.net 近日发表的一篇文章里谈论了工业界需要一个全新的首席职位,首席 AI 官或许会成为趋势。「是时候雇佣一个首席 AI 官了,」吴恩达在自己的推特中说道。


面对业内如今 AI 人才严重欠缺的情形,吴恩达也自然而然地为 Deeplearning.ai 站台,「学习 AI 基础的第一步是求助于 MOOC(大型开放式网络课程),然后做各种各样的项目,最后找到一份工作。」


就在近日,有消息人士透露,Deeplearning.ai 推出一个为期 30 天的深度学习训练营,招募编程能力强、有一定机器学习基础的人,培养他们成为能够处理深度学习任务的工程师。不过,还不清楚 Deeplearning.ai 如何在这么短的时间内训练出 AI 人才。


演讲的最后,吴恩达呼吁,「我们有足够的论文了!不要再发表了,准备用科技来改变人们的生活吧!」对急于向全社会推广 AI 的吴恩达来说,处于金字塔顶端的论文研究很难将 AI 深入到每个人的生活,人才只有加入工业界或者创业才能带来更多的变化。


投资的热区在哪里


这是麦肯锡的 James Manyika 第二次参加 AI Frontiers。这位美国前总统奥巴马的全球发展委员会委员、麦肯锡全球研究所的联合主管,专注于研究 AI 对工业界的影响。大会第一天,Manyika 从四个角度剖析了如今 AI 对工业界的影响。


投资的热区在哪里?从 2013 年至 2016 年,科技公司对于 AI 企业的投资和收购金额高达 200 亿—300 亿美元;风投在 AI 企业身上投入了 60 亿美元至 90 亿美元的金额,增长率是 285%,仅此于电动车。中美依旧是投资的主力,美国承包了 150—230 亿美元,亚洲地区则达到了 80 亿—120 亿美元。




然而,并非所有公司都会采用 AI 技术。依然有 30% 的企业不清楚在商业案例上使用 AI 的意义;41% 的企业不清楚 AI 的投资回报率;28% 的企业没有组建 AI 技术团队的能力。


什么样的公司热衷 AI?科技公司、通讯公司以及金融公司是拥抱 AI 技术的主力;建筑、旅游、教育以及医疗健康领域行业对 AI 技术的态度则相对保守。


早期使用 AI 的公司有这几个普遍的特点:数字化程度很高;企业规模较大;在关键的商业应用上运用 AI;更注重业务的增长和创新,而不是一味地减少成本;创立和 AI 相关的 C-level 职位。


AI 如何提升企业的表现?AI 对工业界的平均影响比例是 10%,对拥有大量实物工厂和设备资产的行业来说影响更大。


企业如何在应用 AI?Manyika 建议企业发展五个方面:AI 对案例的核心价值;一个数据生态;AI 相关的技术和工具;工作流程的整合;以及开放的组织结构。


下面,就是机器之能通过大会现场讲解总结的5大应用趋势。


2017 年,属于智能音箱


如果说 2016 年,智能音箱市场只有 Amazon 和 Google 两大玩家,那么到了 2017 年,自称是科技公司的都会在智能音箱上比划两下——Amazon 和 Google 分别推出智能音箱的第二代 Echo 2 和 Google Home Mini&Max;


基于 Siri 的 Home Pod 在 9 月的苹果发布会上亮相;微软的 Cortana 被包裹进了最新的智能音箱 Human Kardon Invoke;阿里巴巴则推出了天猫精灵 X1,内置智能语音助手 AliGenie。




Amazon Alexa 的主管 Ruhi Sarikaya 道出了科技公司哄抢智能音箱市场的原因:


谈话中包含的信息肯定比打字来的多,普通人讲话的速度比打字的速度快上 4 倍。这让语音成为了操作平台上新的输入媒介——IOS 有 Siri,Windows10 有 Cortanan,Google 的搜索应用里有 Google Now。


据 Gartner 预计,到了明年,将有 30% 的人机交互都会通过语音实现。


同时,智能音箱也要多亏深度学习在语音识别上的重大突破。如果语音识别的准确率低于 90%,机器是听不懂人话的。据微软的首席语音科学家黄学东介绍说,如今微软已经将错误率降到了 5.1%。


Sarikaya 介绍说,Alexa 的目标是通过机器学习和 AI,为用户提供最合适的应用,将不必要的任务,比如付账单,记事簿都交给机器来自动化,并且按需的服务,比如叫出租车、放音乐、寻找班车列表等等。


未来,Alexa 的回答也将更加智能,除了回答以外,还要主动地为用户提供服务。


自然语言交互的挑战是用户要求的不明确,比如用户问,「我晚饭应该吃什么」,这对 Alexa 不是一个明确的要求,也就需要 Alexa 自己选择调配什么样领域的知识和技能来回应这个问题。


Google 的研究科学家 Dilek Hakkani-Tur 主要分享了 Google 在端到端对话系统上的研究。


作为人机交互过程中的一个重要环节,对话系统需要将用户的要求翻译成带有标签的对话行为(dialogue act),比如用户是疑问句还是陈述句?语句有关什么内容?然后根据对话策略(dialogue policy),对话系统要选择一个答案。这当然需要大量的数据进行训练。




在训练过程中,Google 的研究团队也针对不同问题进行不同的学习模式:


「比如在对话级别的规划上使用了端到端的强化学习;在泛化到其他语言或者含义上,则使用迁移学习;训练谈话语言理解时,Google 采用 E2E MemNN(端到端记忆网络);


在训练对话策略的过程中则采用分阶段训练,先用人家专家的知识训练模型,再用强化学习在模拟用户和奖励机制任务的环境里学习,最后用交互式强化学习将前两者合并。


Hakkani-Tur 还提到了自然语言生成,用户模拟器和机器之间的交互。


「智能助手的挑战还有很多,比如语义不详的语言,定制化,更加自然生动的对话,多领域任务,以及跨越领域的交互,都是我们需要解决的问题,」Hakkani-Tur 说。


苹果 Siri 的高级主管 Alex Acero 介绍了苹果是如何将深度学习应用到 Siri 上,包括唤醒词的识别、大量词汇识别、语音合成、机器翻译和自然语言处理。


Acero 着重介绍了衔接语音合成技术,这是一种通过衔接短声音样本的方式输出文本-合成-声音;以及用深度神经网络识别唤醒词并触发 Siri,以及用大量 GPU 和深度神经网络训练 iWatch 上的唤醒词 Hey Siri。



机器人和计算机视觉


今年的 AI Frontiers 机器人单元迎来了两家初创公司——致力于高等智能机器人的 Vicarious,和致力于打造可爱家用机器人 Mayfield Robotics。


Vicarious 在上周刚刚发表了关于攻破 CAPTCHA(验证码)的论文,也因此频频出现在媒体头条。


机器之心近日与 Vicarious 的 CTO Dileep George 进行了深度专访,发现 Vicarious 并没有采用时下主流的机器学习算法——以卷积神经网络为代表的深度学习算法,而是采用了区别于判别模型的概率生成模型,结合对脑科学的研究。


George 也受到 AI Frontiers 的邀请,讨论了 Vicarious 的最新研究——递归皮质网络(Recursive Cortical Network)是如何攻破 CATPCHA,以及如何应用在机器人的操纵上,包括物体识别能力,以及在物体重叠的情况下也能很好地分辨物体。


Vicarious 已经和众多的机器人厂商、包括 ABB Group 进行合作。在其位于旧金山东湾 Union City 的三个办公地点,Vicarious 都购置了不同种类的机器人进行了实验。据 Vicarious 的商业总结楼兴华透露,该公司的机器人技术将会最早应用到工业领域的柔性制造中。




Mayfield Robotics 介绍了一款叫做 Kuri 的机器人——外表像极了大白(超能陆战队),装载着麦克风、摄像头、手势装置、扬声器、定位装置、驾驶系统(可以到处移动)和核心处理器 GPU。


和 Vicarious 一样,Mayfield Robotics 也在计算机视觉上发力,算法上,Mayfield Robotics 使用了 Google 最新提出的 MobileNets——一种基于卷积神经网络的嵌入式算法,用来进行人脸检测,宠物检测、人脸识别以及地点识别(用于绘图和定位)。


这样的算法对于实现 Kuri 与用户(小孩子)的互动,以及 Kuri 成为家庭录像和娱乐的能力至关重要。




视频理解成为计算机视觉的新大陆


今年,Google、Facebook 等科技巨头都发布了大型视频数据集或数据平台,这也意味着对视频理解的算法研究也在大规模地开放。


谷歌研究视频搜索功能、Youtube 和视频移动 app 的 Google 拥有很多基于图像和视频的应用,比如视频搜索、云视频 API、安卓相机、视频图书馆内容整理、手写识别、光学字符识别、以及 Allo 里个性化表情包、Youtube 的缩略图的预览优化、无声视频的字幕生成等等。


Rahul Sukthankar 是谷歌的高级工程师,他讲解了如何通过深度学习在大规模视频数据库实现多种目标,比如 Youtube 大型视频集注解、Youtube 视频缩略优化。


五年前,在输入和输出中间需要多个步骤,包括手动设计的描述符和码本直方图;如今,有了深度学习后,只要把数据扔进模型里就可以得到视频的字面描述,而且效果更好。




Google 在 2015 年写了一篇用深度神经网络训练 Youtube 的缩略图优化的博客,将网络上的视频缩略图(输入)和点击量(结果)做一个链接。


撇开这些过去的研究,Sukthankar 提到了视频数据集在未来的研究方向——自我监督模仿(self-supervised imitation)。Google 介绍了时间对比网络(time-contrastive networks),让机器能够学习视频里的动作,学会一些基本的操控和控制,比如倒水,或者站立。


Sukthankar 在最后分析了不同视频数据集的特色,比如:Sports-1M 和 Youtube-8M 适用于视频注解;HUMOS,Kinetics 和 Google 刚刚开源不久的 AVA 适用于训练视频里的动作识别;Youtube-BB 和 Open Images 适用于物体识别。




随后出场的 Facebook 计算机视觉主管 Manohar Paluri 介绍了今年新开放的图像数据平台 Lumos。


基于 FBLearner Flow 的 Lumos 是一个面向图像和视频理解的平台。Facebook 工程师不需要接受深度学习或计算机视觉方面的培训,就可以使用 Lumos 培训和部署新模型。


Paluri 也在大会上公布了令人兴奋的消息:明年年初,Facebook 将公布两个新的数据集——SOA(Scenes,Objects & Actions)和 Generic motions dataset。



今年加盟阿里巴巴 iDST 的任小枫也受邀参加 AI Frontiers,分享了阿里巴巴在视频理解中的需求,以及 iDST 正在解决的挑战,例如淘宝上的移动购物、优酷和土豆上的视频搜索和推荐、以及菜鸟物流和智慧城市的实时系统。


任小枫主要介绍了视频理解如何应用到阿里巴巴的具体业务,比如优酷视频中的物品识别可以直接和淘宝网的购物链接相连;以及最近淘宝推出了商品视频介绍,卖家可以拍摄有关商品的视频,淘宝会分析视频的内容,用于优化商品搜索。


自动驾驶「加速度」,两个月让无人车上路


在所有的 AI 初创公司里,自动驾驶公司无疑最惹人瞩目,而且,无人驾驶的研发正在提速。


今年四月才刚刚创立的景驰科技,仅用一个多月的时间就完成了首次封闭场地的无人驾驶测试;两个半月后,景驰科技获得了加州无人驾驶车辆测试许可证;公司成立 81 天后,景驰科技的无人车完成了在开放路面上的无人驾驶测试。



景驰科技的 CTO、前百度无人车首席科学家韩旭参加了此次大会。韩旭开场提到了汽车行业的三个未来趋势:


电动车让传统引擎和排放变得不再重要;汽车的销售会从 B2C 转变为 B2B;汽车未来的核心驱动力是 AI,软件会变得和硬件一样重要。


「谁能最先融合科技、共享经济和 OEM,谁最先赢得市场,」韩旭说。


韩旭对未来自动驾驶的普及有着清楚的预计:2018 年,无人车公司都能上路测试;2020 年,中等城市会赢来第一批无人车;2022 年,无人车在大型城市普及;2025 年,北京、上海、纽约等体量的国际之都将迎来无人车:2025 年之后,个人或许能购买一辆属于自己的无人车。


值得一提的是,在自动驾驶的单元里,韩旭遇到了他的金主——Nividia 自动驾驶的高级主管 Danny Shapiro。今年 9 月,景驰科技宣布了 Pre-A 轮 5200 万美元融资,Nividia 也参与了这一笔投资。所以,韩旭也在演讲之后的座谈会环节向 Shapiro 连连致谢。


Nividia 在自动驾驶的决心也不小,黄仁宇在今年北京的 Nividia GTC 大会上就高调表示,Nividia 要在 2030 年实现 L5 的全自动驾驶。


专注于硬件和芯片的 Nividia 也在今年 5 月推出了有关无人驾驶的硬件解决方案(包括计算平台 Drive PX, 操作系统 Drive OS, 车内交互智能开发工具 Drive IX SDK, 以及 Drive AV)。



另一位演讲嘉宾、Uber 的高级工程经理 Jeff Schneider 则扮演了一回大学教师,将自动驾驶的历史和基本元素——绘图(mapping), 定位(localization), 感知(perception), 预测(prediction), 路径规划(motion planning), 控制(control)解释了一遍。


游戏 AI:强化学习的暖床


大会第一天最后,Facebook AI 研究所田渊栋和 Electronic Arts 的技术总监 Magnus Nordin 讨论了关于 AI 在游戏中的应用。



田渊栋(左),Magnus Nordin(中)


田渊栋曾是 Facebook 围棋机器 DarkForest 的开发者,使用深度学习和蒙特卡洛数搜索将 DarkForest 提升至业余五段的水平。


之后,田渊栋就一直研究强化学习在游戏 AI 中的作用。他去年的一篇论文提出了一个新的框架,通过结合强化学习和课程学习,培训第一人称射击游戏(FPS)的机器人。


田渊栋还带着他的实习生在 2016 年 ViZDoom AI 大赛中成功获得了 Track1 冠军,比第二名高出 35%。


田渊栋也介绍了其他的项目,包括去年提出的 ELF 框架(Extensive, lightweight, and flexible)。任何基于 C++界面的游戏都可以通过这个框架进行训练,同时不需要大量的计算能力和训练时间。


田渊栋另外一篇研究机器人探索 3D 环境的论文也被 ICLR2018 收录。论文基于 SUNCG 的数据集,同时也采用多模态学习。



随后,EA 的 Nordin 介绍了 EA 近日的新动作——Seed(Search for Extraordinary Experiences Division),这是 EA 单独成立的一个研发部门,为了探索游戏中的一些全新体验,包括 AI。


据 Nordin 的介绍,EA 也在使用强化学习训练游戏机器人,基于奖罚机制来提高游戏水平。在一个躲避球的游戏里(吃掉绿色球得一分,碰到红色球扣五分),游戏机器人会通过强化学习不断提高自己的分数。



这样的训练方式还有不着不错的泛化能力,包括躲避球、射击游戏、赛车游戏都取得了不错的效果。


对 EA 而言,AI 不只是用来训练机器人的游戏水平。在 EA 的几款经典游戏系列《模拟人生》《战地》《FIFA》中,游戏场景生成就可以通过 AI 加速生成,即使是用户在平板上画上几笔,AI 也能学习如何生成例如山脉这样复杂的自然环境。


「未来五年里,游戏的变化会比之前 45 年的变化都要多,」Nordin 说。


另一方面,从 AI Frontiers 大会所讨论的内容不难看出,快速推进的产业应用得益于——深度学习的研究进展推进了语音识别、图像分类、自然语言处理等技术的惊人变化。然而,泛化能力的不足也一直备受行业诟病。


Google 高级科学家 Lukasz Kaiser 在会上介绍了 Depthwise Separable Convolutions,这个模型能够在多个领域进行训练,包括 ImageNet、翻译、图像字幕、语音识别语料库,以及英语的语法分析。同时,它还能够提高生成文字和图像的能力。

DSC 起源于 Google 大牛、Keras 的开发者 François Chollet 的论文《Xception: Deep Learning with Depthwise Separable Convolutions》。从结果上看,Xception 在各个领域都取得了很好的效果。


另外,值得注意的是,Kaiser 在今年 6 月发表了一篇论文,将 DSC 应用到了神经机器翻译上。


大会更多重要内容,机器之心会继续跟踪。


]]> 原文: http://ift.tt/2hEAKPF
RSS Feed

机器知心

IFTTT

「建立它,再超越它」, 谷歌AI大神Hinton找到重塑AI的新方法—胶囊网络

编译 | 林川

来源 | Wired

编辑 | 宇多田


如果你想指责某人在人工智能方面的大肆宣传,69 岁的谷歌研究员 Geoff Hinton 应该是一个很好的候选人。


2012 年 10 ,一个古怪的多伦多大学教授将这一领域的发展推向了新的轨道。Hinton 和他两名研究员展示了一种当下并不流行的技术,这种被叫做人工神经网络的技术已经被他倡导了几十年,该技术使得机器理解图像的能力有了巨大的飞跃。


在6个月的时间里,这三个调查员已经进入了谷歌的招聘名单,今天神经网络已经可以对我们的演讲进行转编,识别我们的家畜,对抗恶意刷屏。


但是 Hinton 现在开始轻视这个他一手带到世界的技术。


「我认为我们做计算机视觉的方式是错误的。」他说「现在,它做的比其他任何一切都好,但是这并不能表示他是对的」

在一个恰当的时候,Hinton 又发布了另一个「老」想法,这个想法可能会改变电脑识别的方式并重塑 AI。其重要性在于计算机视觉对于计算机的思考至关重要,比如:自动驾驶与帮病人看病的软件。


上周晚些时候,Hinton 放出了两篇研究论文,在论文里他说他用了近 40 年的时间来证明自己的想法。「在很长一段时间里,这对我来说是一种类似直觉的东西,只是效果不是很好,」Hinton 还说「最终我们有了一些不错的工作」。


Hinton 的新方法,被称为「胶囊网络」,是一种神经网络的扭曲,目的是让机器更好地通过图像或视频来了解世界。


在上周发布的一篇论文中,Hinton 的胶囊网络与一项拥有当前最精确技术的标准测试的准确性相匹配。这是一种标准的测试,软件可以更好的学会如何识别手写的数字。


在第2种情况下,胶囊网络几乎将之前最好的错误率降低了一半,这一测试挑战了软件从不同角度识别卡车和汽车等玩具的难度。Hinton 一直在与谷歌多伦多办公室的两名同事一起研究他的新技术。


胶囊网络旨在弥补当今机器学习系统的缺陷,这些系统缺陷限制了它们的有效性。现今,谷歌和其他公司使用的图像识别软件需要大量的示例照片来学习如何在各种情况下可靠地识别对象。


这是因为该软件并不擅长将其对新场景的知识进行泛化,例如,当从一个新的视角看到一个对象是相同的时,就会明白这一点。


举例来说,教电脑从多个角度识别一只猫,可能需要成千上万张不同角度的照片。而人类的孩子是不需要如此明确和广泛的训练来学会识别一个家养宠物的。


Hinton 的想法是缩小最好的人工智能系统和普通的幼儿之间的鸿沟,这是为了在计算机视觉软件中建立更多的世关于世界的知识。被包裹的一小群粗糙的虚拟神经元被设计用来追踪物体的不同部分,比如猫的鼻子和耳朵,以及它们在空间中的相对位置。


一个由许多胶囊组成的网络可以利用这一意识来理解,特别是当一个新的场景实际上是一个不同的视角的物体的时候。


在 1979 年,Hinton 形成了他的直觉,认为视觉系统需要这样一种内在的几何意义,当时他正在试图弄清楚人类是如何使用心理意象的。2011年,他首次提出了胶囊网络的初步设计。


而上周公布的更全面的照片是该领域的研究人员长期以来所期待的。「每个人都在等待它,并期待着 Geoff 的下一个伟大的飞跃。」Kyunghyun Cho 说,他是纽约大学的教授,致力于图像识别。


他知道,现在说 Hinton 的「大跃进」还为时过早。AI 资深人士静静地庆祝自己的直觉有了证据的支持。他解释说,胶囊网络仍然需要在大型图像集合上被证明,目前取得的成绩与现有图像识别软件相比依旧比较缓慢。


但Hinton 很乐观得表示,他可以解决这些缺点。而该领域的其他人也对他长期成熟的想法抱有希望。


Roland Memisevic是图像识别初创公司 Twenty Billion Neurons 的创始人之一,同时也是蒙特利尔大学的教授。


他说,Hinton 的基本设计应该能够从现有的数据中提取出更多的信息。如果在规模上证明了这一点,那将会对医疗保健等领域有所帮助。在这些领域,用于培训人工智能系统的图像数据比互联网上大量的自拍照要少很多。


在某些方面,胶囊网络与人工智能研究最近的趋势有所不同。


最近对神经网络的成功有一种解释是,人类应该把尽可能少的知识编码到人工智能软件中,然后让他们自己从头开始计算。

而去年曾将自己人工智能初创公司卖给Uber的纽约大学心理学教授 Gary Marcus 认为,Hinton 的最新作品代表了一种新的气象。


Marcus 表示,人工智能研究人员应该做更多的事情来模拟大脑的内在机制,去学习像视觉和语言这样的关键技能。


「现在告诉这个特定的结构将要走多远还为时过早,但是很高兴看到 Hinton 突破了这个领域已经确定了的局限。」Marcus 说。


]]> 原文: http://ift.tt/2iuWrkx
RSS Feed

机器知心

IFTTT

2017年11月3日星期五

谁是真凶?《CSI:犯罪现场调查》正帮助AI提高断案能力

问耕 编译整理量子位 出品 | 公众号 QbitAI

曾经的王牌美剧《CSI:犯罪现场调查》,现在成了AI用来提高断案推理能力的试验场。

据介绍,这部剧集已成为美国警方的必备学习教材,连英国苏格兰场、日本警卫厅以及法国警局都视之为反恐教材。

爱丁堡大学的一个研究团队,把《CSI:犯罪现场调查》剧集脚本变成自然语言的训练数据集,输入一个LSTM模型。他们的目标是帮助机器更好的进行自然语言理解,以及训练与之相关的复杂推理能力。

之所以选定这部剧集,原因很简单。《CSI:犯罪现场调查》有着严格的公式化剧本,完全可以被预测。

"每一集都提出了同样的基本问题(即谁是凶手),而罪犯被抓住时自然就给出了答案",这在研究人员看来,剧集中的调查人员,会对犯罪现场进行研究,找到无可辩驳的证据,抽丝剥茧的把真凶揭露出来。

所以,"谁是真凶"就变成了一个简单的序列标签问题。

研究人员假设这个AI模型和人类一样,从剧集中获得一系列的信息输入,包括文本、视频或者音频,并据此推测凶手。而且这个过程是增量发展的。

结果表现

《CSI:犯罪现场调查》数据集上的实验表明,多模态表示对于自然语言理解非常重要。另外,增量推理策略是准确找到真凶的关键。

研究人员希望模型的预测能力,最终可以超越人类。

上图是目前这套系统的评估表现。人类的平均预测精度接近85%,而AI的准确率超过60%。这是一个让研究人员欢欣鼓舞的成绩。

不过作为对比的人类样本还很小(只有三个)。另外与LSTM模型相比,人类的预测精度更高,但通常更为谨慎。AI看剧本会在大约第190句话时猜测真凶,而人类通常在第300句话时才第一次作出判断。

目前还有一些情景,会让AI有点摸不清头脑。例如在数据集中包括一些自杀案件,对这类情况AI还不能很好的处理。与之相比,在三分之二的情况下,人类最终能够意识到案件其实没有其他凶手参与。

研究人员会继续研究如何改善这方面的情况。

不知道以后会不会有人用"狄仁杰"系列训练AI呢?"元芳……"

模型架构

推理任务的顺序特性,适用于循环网络建模。研究人员采用的架构,是把单向的LSTM网络与一个softmax输出层相结合。

模型被喂给一系列(可能是多模态)的输入,每个输入对应于脚本中的一个句子,并且指定一个标签l,直来表示句子中提到了罪犯(l=1)或者没有(l=0)。这是个增量模型,每个标签的决策仅与之前的输入信息有关。

上图概述了罪犯预测任务。图像、音频和文本等输入模型中,每个模态都映射成一个特征表示,融合之后传递给LSTM。然后LSTM来判断其中是否提及罪犯,并给l赋予1或者0的数值。

这张图显示的就是两个时间步长的LSTM模型输入/输出结构。

这个模型的核心,是一个单项LSTM网络。LSTM对于一系列多模态输入的计算,采用了如下的方式:

另外,多模态融合采用了如下的方式:

研究人员还比较了几种不同的模型架构。

相关下载

论文

摘要:《CSI:犯罪现场调查》是近似真实世界自然年语言理解和与之相关复杂推理的理想试验台。我们把犯罪剧集作为一个新的推理任务,利用每个事件提出相同的基本问题(即凶手)这一事实,最后找到真凶时自然就能获得答案。我们基于《CSI:犯罪现场调查》开发了一个新的数据集,将寻找真凶变成一个序列标签问题,并开发了一个从多模态数据中学习的LSTM模型。实验结果表明,增量推理策略是进行准确猜测以及从文本、视觉和声音输入融合表示中学习的关键。

论文地址:

http://ift.tt/2j3eTFa

素材

研究人员把部分研究素材也在网上公开了。

GitHub地址:

http://ift.tt/2hwslh1

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AfQ9gN
RSS Feed

RSS5

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...