2017年11月4日星期六

硅谷最干货大会之一AI Frontiers 详解全球投资热区和5大应用趋势

记者 | 彭君韬(Tony)

参与 | Alex Chen


美国时间周五,位于硅谷的圣克拉拉会议中心,人头攒动,来自 17 个国家的 1400 多人参加了硅谷人工智能前沿大会 AI Frontiers。这些人有着共同的兴趣:AI。


这是 AI Frontiers 今年的第二场大会,为期三天。前百度首席人工智能科学家、Coursera 和 deeplearing.ai 的创始人吴恩达,以及来自 Google、Amazon、Facebook、Nvidia、Uber、EA、麦肯锡、阿里巴巴的代表,分享了语音助手、机器人、无人车、视频理解和游戏等领域在今年的最新趋势。


机器之心从大会现场带来核心内容:


吴恩达:发展 AI 就积极创业!


吴恩达的演讲,满是他在斯坦福大学当教授教课的样子:衬衫西裤,黑笔白板,无需演讲稿和 ppt,直接写出要点,开始演讲。




离职的这半年,吴恩达动作频频——创建 Deeplearning.ai;在 Coursera 推出基于深度学习的 5 项课程;加入他的学生 Alison Darcy 所创立的 AI 公司 Woebot 成为董事会主席;他妻子 Carol Reiley 所在的无人车公司 Drive.ai 也在今年完成 1500 万美元的融资,并和 Lyft 达成战略合作。


「AI 就是新的电力」,这句话成为了吴恩达的座右铭,他也以此做题,畅谈了 AI 对工业界带来的影响。


除了在 AI 的三大领域——语音识别、自然语言处理、计算机视觉做点到为止的讲解外,吴恩达提到现在科技公司的工作流程因为 AI 发生了巨大的变化。


「过去,互联网公司的项目经理会给工程师一个用户界面;现在,任何一个工程师拿着一张画着用户界面的草图都做不出一个聊天机器人出来,」吴恩达说。


另一个非常重要的问题是,传统科技公司+神经网络并不等于 AI 公司。要想实现 AI 在公司各层次业务上的普及,必须加入新的工作流程——你需要获取全新的战略性数据,统一化的数据分析,为有 AI 技能的工程师增加新的工作职位,比如说 CAO(Chief AI Officer)。


美国科技媒体 ZD.net 近日发表的一篇文章里谈论了工业界需要一个全新的首席职位,首席 AI 官或许会成为趋势。「是时候雇佣一个首席 AI 官了,」吴恩达在自己的推特中说道。


面对业内如今 AI 人才严重欠缺的情形,吴恩达也自然而然地为 Deeplearning.ai 站台,「学习 AI 基础的第一步是求助于 MOOC(大型开放式网络课程),然后做各种各样的项目,最后找到一份工作。」


就在近日,有消息人士透露,Deeplearning.ai 推出一个为期 30 天的深度学习训练营,招募编程能力强、有一定机器学习基础的人,培养他们成为能够处理深度学习任务的工程师。不过,还不清楚 Deeplearning.ai 如何在这么短的时间内训练出 AI 人才。


演讲的最后,吴恩达呼吁,「我们有足够的论文了!不要再发表了,准备用科技来改变人们的生活吧!」对急于向全社会推广 AI 的吴恩达来说,处于金字塔顶端的论文研究很难将 AI 深入到每个人的生活,人才只有加入工业界或者创业才能带来更多的变化。


投资的热区在哪里


这是麦肯锡的 James Manyika 第二次参加 AI Frontiers。这位美国前总统奥巴马的全球发展委员会委员、麦肯锡全球研究所的联合主管,专注于研究 AI 对工业界的影响。大会第一天,Manyika 从四个角度剖析了如今 AI 对工业界的影响。


投资的热区在哪里?从 2013 年至 2016 年,科技公司对于 AI 企业的投资和收购金额高达 200 亿—300 亿美元;风投在 AI 企业身上投入了 60 亿美元至 90 亿美元的金额,增长率是 285%,仅此于电动车。中美依旧是投资的主力,美国承包了 150—230 亿美元,亚洲地区则达到了 80 亿—120 亿美元。




然而,并非所有公司都会采用 AI 技术。依然有 30% 的企业不清楚在商业案例上使用 AI 的意义;41% 的企业不清楚 AI 的投资回报率;28% 的企业没有组建 AI 技术团队的能力。


什么样的公司热衷 AI?科技公司、通讯公司以及金融公司是拥抱 AI 技术的主力;建筑、旅游、教育以及医疗健康领域行业对 AI 技术的态度则相对保守。


早期使用 AI 的公司有这几个普遍的特点:数字化程度很高;企业规模较大;在关键的商业应用上运用 AI;更注重业务的增长和创新,而不是一味地减少成本;创立和 AI 相关的 C-level 职位。


AI 如何提升企业的表现?AI 对工业界的平均影响比例是 10%,对拥有大量实物工厂和设备资产的行业来说影响更大。


企业如何在应用 AI?Manyika 建议企业发展五个方面:AI 对案例的核心价值;一个数据生态;AI 相关的技术和工具;工作流程的整合;以及开放的组织结构。


下面,就是机器之能通过大会现场讲解总结的5大应用趋势。


2017 年,属于智能音箱


如果说 2016 年,智能音箱市场只有 Amazon 和 Google 两大玩家,那么到了 2017 年,自称是科技公司的都会在智能音箱上比划两下——Amazon 和 Google 分别推出智能音箱的第二代 Echo 2 和 Google Home Mini&Max;


基于 Siri 的 Home Pod 在 9 月的苹果发布会上亮相;微软的 Cortana 被包裹进了最新的智能音箱 Human Kardon Invoke;阿里巴巴则推出了天猫精灵 X1,内置智能语音助手 AliGenie。




Amazon Alexa 的主管 Ruhi Sarikaya 道出了科技公司哄抢智能音箱市场的原因:


谈话中包含的信息肯定比打字来的多,普通人讲话的速度比打字的速度快上 4 倍。这让语音成为了操作平台上新的输入媒介——IOS 有 Siri,Windows10 有 Cortanan,Google 的搜索应用里有 Google Now。


据 Gartner 预计,到了明年,将有 30% 的人机交互都会通过语音实现。


同时,智能音箱也要多亏深度学习在语音识别上的重大突破。如果语音识别的准确率低于 90%,机器是听不懂人话的。据微软的首席语音科学家黄学东介绍说,如今微软已经将错误率降到了 5.1%。


Sarikaya 介绍说,Alexa 的目标是通过机器学习和 AI,为用户提供最合适的应用,将不必要的任务,比如付账单,记事簿都交给机器来自动化,并且按需的服务,比如叫出租车、放音乐、寻找班车列表等等。


未来,Alexa 的回答也将更加智能,除了回答以外,还要主动地为用户提供服务。


自然语言交互的挑战是用户要求的不明确,比如用户问,「我晚饭应该吃什么」,这对 Alexa 不是一个明确的要求,也就需要 Alexa 自己选择调配什么样领域的知识和技能来回应这个问题。


Google 的研究科学家 Dilek Hakkani-Tur 主要分享了 Google 在端到端对话系统上的研究。


作为人机交互过程中的一个重要环节,对话系统需要将用户的要求翻译成带有标签的对话行为(dialogue act),比如用户是疑问句还是陈述句?语句有关什么内容?然后根据对话策略(dialogue policy),对话系统要选择一个答案。这当然需要大量的数据进行训练。




在训练过程中,Google 的研究团队也针对不同问题进行不同的学习模式:


「比如在对话级别的规划上使用了端到端的强化学习;在泛化到其他语言或者含义上,则使用迁移学习;训练谈话语言理解时,Google 采用 E2E MemNN(端到端记忆网络);


在训练对话策略的过程中则采用分阶段训练,先用人家专家的知识训练模型,再用强化学习在模拟用户和奖励机制任务的环境里学习,最后用交互式强化学习将前两者合并。


Hakkani-Tur 还提到了自然语言生成,用户模拟器和机器之间的交互。


「智能助手的挑战还有很多,比如语义不详的语言,定制化,更加自然生动的对话,多领域任务,以及跨越领域的交互,都是我们需要解决的问题,」Hakkani-Tur 说。


苹果 Siri 的高级主管 Alex Acero 介绍了苹果是如何将深度学习应用到 Siri 上,包括唤醒词的识别、大量词汇识别、语音合成、机器翻译和自然语言处理。


Acero 着重介绍了衔接语音合成技术,这是一种通过衔接短声音样本的方式输出文本-合成-声音;以及用深度神经网络识别唤醒词并触发 Siri,以及用大量 GPU 和深度神经网络训练 iWatch 上的唤醒词 Hey Siri。



机器人和计算机视觉


今年的 AI Frontiers 机器人单元迎来了两家初创公司——致力于高等智能机器人的 Vicarious,和致力于打造可爱家用机器人 Mayfield Robotics。


Vicarious 在上周刚刚发表了关于攻破 CAPTCHA(验证码)的论文,也因此频频出现在媒体头条。


机器之心近日与 Vicarious 的 CTO Dileep George 进行了深度专访,发现 Vicarious 并没有采用时下主流的机器学习算法——以卷积神经网络为代表的深度学习算法,而是采用了区别于判别模型的概率生成模型,结合对脑科学的研究。


George 也受到 AI Frontiers 的邀请,讨论了 Vicarious 的最新研究——递归皮质网络(Recursive Cortical Network)是如何攻破 CATPCHA,以及如何应用在机器人的操纵上,包括物体识别能力,以及在物体重叠的情况下也能很好地分辨物体。


Vicarious 已经和众多的机器人厂商、包括 ABB Group 进行合作。在其位于旧金山东湾 Union City 的三个办公地点,Vicarious 都购置了不同种类的机器人进行了实验。据 Vicarious 的商业总结楼兴华透露,该公司的机器人技术将会最早应用到工业领域的柔性制造中。




Mayfield Robotics 介绍了一款叫做 Kuri 的机器人——外表像极了大白(超能陆战队),装载着麦克风、摄像头、手势装置、扬声器、定位装置、驾驶系统(可以到处移动)和核心处理器 GPU。


和 Vicarious 一样,Mayfield Robotics 也在计算机视觉上发力,算法上,Mayfield Robotics 使用了 Google 最新提出的 MobileNets——一种基于卷积神经网络的嵌入式算法,用来进行人脸检测,宠物检测、人脸识别以及地点识别(用于绘图和定位)。


这样的算法对于实现 Kuri 与用户(小孩子)的互动,以及 Kuri 成为家庭录像和娱乐的能力至关重要。




视频理解成为计算机视觉的新大陆


今年,Google、Facebook 等科技巨头都发布了大型视频数据集或数据平台,这也意味着对视频理解的算法研究也在大规模地开放。


谷歌研究视频搜索功能、Youtube 和视频移动 app 的 Google 拥有很多基于图像和视频的应用,比如视频搜索、云视频 API、安卓相机、视频图书馆内容整理、手写识别、光学字符识别、以及 Allo 里个性化表情包、Youtube 的缩略图的预览优化、无声视频的字幕生成等等。


Rahul Sukthankar 是谷歌的高级工程师,他讲解了如何通过深度学习在大规模视频数据库实现多种目标,比如 Youtube 大型视频集注解、Youtube 视频缩略优化。


五年前,在输入和输出中间需要多个步骤,包括手动设计的描述符和码本直方图;如今,有了深度学习后,只要把数据扔进模型里就可以得到视频的字面描述,而且效果更好。




Google 在 2015 年写了一篇用深度神经网络训练 Youtube 的缩略图优化的博客,将网络上的视频缩略图(输入)和点击量(结果)做一个链接。


撇开这些过去的研究,Sukthankar 提到了视频数据集在未来的研究方向——自我监督模仿(self-supervised imitation)。Google 介绍了时间对比网络(time-contrastive networks),让机器能够学习视频里的动作,学会一些基本的操控和控制,比如倒水,或者站立。


Sukthankar 在最后分析了不同视频数据集的特色,比如:Sports-1M 和 Youtube-8M 适用于视频注解;HUMOS,Kinetics 和 Google 刚刚开源不久的 AVA 适用于训练视频里的动作识别;Youtube-BB 和 Open Images 适用于物体识别。




随后出场的 Facebook 计算机视觉主管 Manohar Paluri 介绍了今年新开放的图像数据平台 Lumos。


基于 FBLearner Flow 的 Lumos 是一个面向图像和视频理解的平台。Facebook 工程师不需要接受深度学习或计算机视觉方面的培训,就可以使用 Lumos 培训和部署新模型。


Paluri 也在大会上公布了令人兴奋的消息:明年年初,Facebook 将公布两个新的数据集——SOA(Scenes,Objects & Actions)和 Generic motions dataset。



今年加盟阿里巴巴 iDST 的任小枫也受邀参加 AI Frontiers,分享了阿里巴巴在视频理解中的需求,以及 iDST 正在解决的挑战,例如淘宝上的移动购物、优酷和土豆上的视频搜索和推荐、以及菜鸟物流和智慧城市的实时系统。


任小枫主要介绍了视频理解如何应用到阿里巴巴的具体业务,比如优酷视频中的物品识别可以直接和淘宝网的购物链接相连;以及最近淘宝推出了商品视频介绍,卖家可以拍摄有关商品的视频,淘宝会分析视频的内容,用于优化商品搜索。


自动驾驶「加速度」,两个月让无人车上路


在所有的 AI 初创公司里,自动驾驶公司无疑最惹人瞩目,而且,无人驾驶的研发正在提速。


今年四月才刚刚创立的景驰科技,仅用一个多月的时间就完成了首次封闭场地的无人驾驶测试;两个半月后,景驰科技获得了加州无人驾驶车辆测试许可证;公司成立 81 天后,景驰科技的无人车完成了在开放路面上的无人驾驶测试。



景驰科技的 CTO、前百度无人车首席科学家韩旭参加了此次大会。韩旭开场提到了汽车行业的三个未来趋势:


电动车让传统引擎和排放变得不再重要;汽车的销售会从 B2C 转变为 B2B;汽车未来的核心驱动力是 AI,软件会变得和硬件一样重要。


「谁能最先融合科技、共享经济和 OEM,谁最先赢得市场,」韩旭说。


韩旭对未来自动驾驶的普及有着清楚的预计:2018 年,无人车公司都能上路测试;2020 年,中等城市会赢来第一批无人车;2022 年,无人车在大型城市普及;2025 年,北京、上海、纽约等体量的国际之都将迎来无人车:2025 年之后,个人或许能购买一辆属于自己的无人车。


值得一提的是,在自动驾驶的单元里,韩旭遇到了他的金主——Nividia 自动驾驶的高级主管 Danny Shapiro。今年 9 月,景驰科技宣布了 Pre-A 轮 5200 万美元融资,Nividia 也参与了这一笔投资。所以,韩旭也在演讲之后的座谈会环节向 Shapiro 连连致谢。


Nividia 在自动驾驶的决心也不小,黄仁宇在今年北京的 Nividia GTC 大会上就高调表示,Nividia 要在 2030 年实现 L5 的全自动驾驶。


专注于硬件和芯片的 Nividia 也在今年 5 月推出了有关无人驾驶的硬件解决方案(包括计算平台 Drive PX, 操作系统 Drive OS, 车内交互智能开发工具 Drive IX SDK, 以及 Drive AV)。



另一位演讲嘉宾、Uber 的高级工程经理 Jeff Schneider 则扮演了一回大学教师,将自动驾驶的历史和基本元素——绘图(mapping), 定位(localization), 感知(perception), 预测(prediction), 路径规划(motion planning), 控制(control)解释了一遍。


游戏 AI:强化学习的暖床


大会第一天最后,Facebook AI 研究所田渊栋和 Electronic Arts 的技术总监 Magnus Nordin 讨论了关于 AI 在游戏中的应用。



田渊栋(左),Magnus Nordin(中)


田渊栋曾是 Facebook 围棋机器 DarkForest 的开发者,使用深度学习和蒙特卡洛数搜索将 DarkForest 提升至业余五段的水平。


之后,田渊栋就一直研究强化学习在游戏 AI 中的作用。他去年的一篇论文提出了一个新的框架,通过结合强化学习和课程学习,培训第一人称射击游戏(FPS)的机器人。


田渊栋还带着他的实习生在 2016 年 ViZDoom AI 大赛中成功获得了 Track1 冠军,比第二名高出 35%。


田渊栋也介绍了其他的项目,包括去年提出的 ELF 框架(Extensive, lightweight, and flexible)。任何基于 C++界面的游戏都可以通过这个框架进行训练,同时不需要大量的计算能力和训练时间。


田渊栋另外一篇研究机器人探索 3D 环境的论文也被 ICLR2018 收录。论文基于 SUNCG 的数据集,同时也采用多模态学习。



随后,EA 的 Nordin 介绍了 EA 近日的新动作——Seed(Search for Extraordinary Experiences Division),这是 EA 单独成立的一个研发部门,为了探索游戏中的一些全新体验,包括 AI。


据 Nordin 的介绍,EA 也在使用强化学习训练游戏机器人,基于奖罚机制来提高游戏水平。在一个躲避球的游戏里(吃掉绿色球得一分,碰到红色球扣五分),游戏机器人会通过强化学习不断提高自己的分数。



这样的训练方式还有不着不错的泛化能力,包括躲避球、射击游戏、赛车游戏都取得了不错的效果。


对 EA 而言,AI 不只是用来训练机器人的游戏水平。在 EA 的几款经典游戏系列《模拟人生》《战地》《FIFA》中,游戏场景生成就可以通过 AI 加速生成,即使是用户在平板上画上几笔,AI 也能学习如何生成例如山脉这样复杂的自然环境。


「未来五年里,游戏的变化会比之前 45 年的变化都要多,」Nordin 说。


另一方面,从 AI Frontiers 大会所讨论的内容不难看出,快速推进的产业应用得益于——深度学习的研究进展推进了语音识别、图像分类、自然语言处理等技术的惊人变化。然而,泛化能力的不足也一直备受行业诟病。


Google 高级科学家 Lukasz Kaiser 在会上介绍了 Depthwise Separable Convolutions,这个模型能够在多个领域进行训练,包括 ImageNet、翻译、图像字幕、语音识别语料库,以及英语的语法分析。同时,它还能够提高生成文字和图像的能力。

DSC 起源于 Google 大牛、Keras 的开发者 François Chollet 的论文《Xception: Deep Learning with Depthwise Separable Convolutions》。从结果上看,Xception 在各个领域都取得了很好的效果。


另外,值得注意的是,Kaiser 在今年 6 月发表了一篇论文,将 DSC 应用到了神经机器翻译上。


大会更多重要内容,机器之心会继续跟踪。


]]> 原文: http://ift.tt/2hEAKPF
RSS Feed

机器知心

IFTTT

「建立它,再超越它」, 谷歌AI大神Hinton找到重塑AI的新方法—胶囊网络

编译 | 林川

来源 | Wired

编辑 | 宇多田


如果你想指责某人在人工智能方面的大肆宣传,69 岁的谷歌研究员 Geoff Hinton 应该是一个很好的候选人。


2012 年 10 ,一个古怪的多伦多大学教授将这一领域的发展推向了新的轨道。Hinton 和他两名研究员展示了一种当下并不流行的技术,这种被叫做人工神经网络的技术已经被他倡导了几十年,该技术使得机器理解图像的能力有了巨大的飞跃。


在6个月的时间里,这三个调查员已经进入了谷歌的招聘名单,今天神经网络已经可以对我们的演讲进行转编,识别我们的家畜,对抗恶意刷屏。


但是 Hinton 现在开始轻视这个他一手带到世界的技术。


「我认为我们做计算机视觉的方式是错误的。」他说「现在,它做的比其他任何一切都好,但是这并不能表示他是对的」

在一个恰当的时候,Hinton 又发布了另一个「老」想法,这个想法可能会改变电脑识别的方式并重塑 AI。其重要性在于计算机视觉对于计算机的思考至关重要,比如:自动驾驶与帮病人看病的软件。


上周晚些时候,Hinton 放出了两篇研究论文,在论文里他说他用了近 40 年的时间来证明自己的想法。「在很长一段时间里,这对我来说是一种类似直觉的东西,只是效果不是很好,」Hinton 还说「最终我们有了一些不错的工作」。


Hinton 的新方法,被称为「胶囊网络」,是一种神经网络的扭曲,目的是让机器更好地通过图像或视频来了解世界。


在上周发布的一篇论文中,Hinton 的胶囊网络与一项拥有当前最精确技术的标准测试的准确性相匹配。这是一种标准的测试,软件可以更好的学会如何识别手写的数字。


在第2种情况下,胶囊网络几乎将之前最好的错误率降低了一半,这一测试挑战了软件从不同角度识别卡车和汽车等玩具的难度。Hinton 一直在与谷歌多伦多办公室的两名同事一起研究他的新技术。


胶囊网络旨在弥补当今机器学习系统的缺陷,这些系统缺陷限制了它们的有效性。现今,谷歌和其他公司使用的图像识别软件需要大量的示例照片来学习如何在各种情况下可靠地识别对象。


这是因为该软件并不擅长将其对新场景的知识进行泛化,例如,当从一个新的视角看到一个对象是相同的时,就会明白这一点。


举例来说,教电脑从多个角度识别一只猫,可能需要成千上万张不同角度的照片。而人类的孩子是不需要如此明确和广泛的训练来学会识别一个家养宠物的。


Hinton 的想法是缩小最好的人工智能系统和普通的幼儿之间的鸿沟,这是为了在计算机视觉软件中建立更多的世关于世界的知识。被包裹的一小群粗糙的虚拟神经元被设计用来追踪物体的不同部分,比如猫的鼻子和耳朵,以及它们在空间中的相对位置。


一个由许多胶囊组成的网络可以利用这一意识来理解,特别是当一个新的场景实际上是一个不同的视角的物体的时候。


在 1979 年,Hinton 形成了他的直觉,认为视觉系统需要这样一种内在的几何意义,当时他正在试图弄清楚人类是如何使用心理意象的。2011年,他首次提出了胶囊网络的初步设计。


而上周公布的更全面的照片是该领域的研究人员长期以来所期待的。「每个人都在等待它,并期待着 Geoff 的下一个伟大的飞跃。」Kyunghyun Cho 说,他是纽约大学的教授,致力于图像识别。


他知道,现在说 Hinton 的「大跃进」还为时过早。AI 资深人士静静地庆祝自己的直觉有了证据的支持。他解释说,胶囊网络仍然需要在大型图像集合上被证明,目前取得的成绩与现有图像识别软件相比依旧比较缓慢。


但Hinton 很乐观得表示,他可以解决这些缺点。而该领域的其他人也对他长期成熟的想法抱有希望。


Roland Memisevic是图像识别初创公司 Twenty Billion Neurons 的创始人之一,同时也是蒙特利尔大学的教授。


他说,Hinton 的基本设计应该能够从现有的数据中提取出更多的信息。如果在规模上证明了这一点,那将会对医疗保健等领域有所帮助。在这些领域,用于培训人工智能系统的图像数据比互联网上大量的自拍照要少很多。


在某些方面,胶囊网络与人工智能研究最近的趋势有所不同。


最近对神经网络的成功有一种解释是,人类应该把尽可能少的知识编码到人工智能软件中,然后让他们自己从头开始计算。

而去年曾将自己人工智能初创公司卖给Uber的纽约大学心理学教授 Gary Marcus 认为,Hinton 的最新作品代表了一种新的气象。


Marcus 表示,人工智能研究人员应该做更多的事情来模拟大脑的内在机制,去学习像视觉和语言这样的关键技能。


「现在告诉这个特定的结构将要走多远还为时过早,但是很高兴看到 Hinton 突破了这个领域已经确定了的局限。」Marcus 说。


]]> 原文: http://ift.tt/2iuWrkx
RSS Feed

机器知心

IFTTT

2017年11月3日星期五

谁是真凶?《CSI:犯罪现场调查》正帮助AI提高断案能力

问耕 编译整理量子位 出品 | 公众号 QbitAI

曾经的王牌美剧《CSI:犯罪现场调查》,现在成了AI用来提高断案推理能力的试验场。

据介绍,这部剧集已成为美国警方的必备学习教材,连英国苏格兰场、日本警卫厅以及法国警局都视之为反恐教材。

爱丁堡大学的一个研究团队,把《CSI:犯罪现场调查》剧集脚本变成自然语言的训练数据集,输入一个LSTM模型。他们的目标是帮助机器更好的进行自然语言理解,以及训练与之相关的复杂推理能力。

之所以选定这部剧集,原因很简单。《CSI:犯罪现场调查》有着严格的公式化剧本,完全可以被预测。

"每一集都提出了同样的基本问题(即谁是凶手),而罪犯被抓住时自然就给出了答案",这在研究人员看来,剧集中的调查人员,会对犯罪现场进行研究,找到无可辩驳的证据,抽丝剥茧的把真凶揭露出来。

所以,"谁是真凶"就变成了一个简单的序列标签问题。

研究人员假设这个AI模型和人类一样,从剧集中获得一系列的信息输入,包括文本、视频或者音频,并据此推测凶手。而且这个过程是增量发展的。

结果表现

《CSI:犯罪现场调查》数据集上的实验表明,多模态表示对于自然语言理解非常重要。另外,增量推理策略是准确找到真凶的关键。

研究人员希望模型的预测能力,最终可以超越人类。

上图是目前这套系统的评估表现。人类的平均预测精度接近85%,而AI的准确率超过60%。这是一个让研究人员欢欣鼓舞的成绩。

不过作为对比的人类样本还很小(只有三个)。另外与LSTM模型相比,人类的预测精度更高,但通常更为谨慎。AI看剧本会在大约第190句话时猜测真凶,而人类通常在第300句话时才第一次作出判断。

目前还有一些情景,会让AI有点摸不清头脑。例如在数据集中包括一些自杀案件,对这类情况AI还不能很好的处理。与之相比,在三分之二的情况下,人类最终能够意识到案件其实没有其他凶手参与。

研究人员会继续研究如何改善这方面的情况。

不知道以后会不会有人用"狄仁杰"系列训练AI呢?"元芳……"

模型架构

推理任务的顺序特性,适用于循环网络建模。研究人员采用的架构,是把单向的LSTM网络与一个softmax输出层相结合。

模型被喂给一系列(可能是多模态)的输入,每个输入对应于脚本中的一个句子,并且指定一个标签l,直来表示句子中提到了罪犯(l=1)或者没有(l=0)。这是个增量模型,每个标签的决策仅与之前的输入信息有关。

上图概述了罪犯预测任务。图像、音频和文本等输入模型中,每个模态都映射成一个特征表示,融合之后传递给LSTM。然后LSTM来判断其中是否提及罪犯,并给l赋予1或者0的数值。

这张图显示的就是两个时间步长的LSTM模型输入/输出结构。

这个模型的核心,是一个单项LSTM网络。LSTM对于一系列多模态输入的计算,采用了如下的方式:

另外,多模态融合采用了如下的方式:

研究人员还比较了几种不同的模型架构。

相关下载

论文

摘要:《CSI:犯罪现场调查》是近似真实世界自然年语言理解和与之相关复杂推理的理想试验台。我们把犯罪剧集作为一个新的推理任务,利用每个事件提出相同的基本问题(即凶手)这一事实,最后找到真凶时自然就能获得答案。我们基于《CSI:犯罪现场调查》开发了一个新的数据集,将寻找真凶变成一个序列标签问题,并开发了一个从多模态数据中学习的LSTM模型。实验结果表明,增量推理策略是进行准确猜测以及从文本、视觉和声音输入融合表示中学习的关键。

论文地址:

http://ift.tt/2j3eTFa

素材

研究人员把部分研究素材也在网上公开了。

GitHub地址:

http://ift.tt/2hwslh1

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AfQ9gN
RSS Feed

RSS5

IFTTT

谁是真凶?《CSI:犯罪现场调查》正帮助AI提高断案能力

问耕 编译整理量子位 出品 | 公众号 QbitAI

曾经的王牌美剧《CSI:犯罪现场调查》,现在成了AI用来提高断案推理能力的试验场。

据介绍,这部剧集已成为美国警方的必备学习教材,连英国苏格兰场、日本警卫厅以及法国警局都视之为反恐教材。

爱丁堡大学的一个研究团队,把《CSI:犯罪现场调查》剧集脚本变成自然语言的训练数据集,输入一个LSTM模型。他们的目标是帮助机器更好的进行自然语言理解,以及训练与之相关的复杂推理能力。

之所以选定这部剧集,原因很简单。《CSI:犯罪现场调查》有着严格的公式化剧本,完全可以被预测。

"每一集都提出了同样的基本问题(即谁是凶手),而罪犯被抓住时自然就给出了答案",这在研究人员看来,剧集中的调查人员,会对犯罪现场进行研究,找到无可辩驳的证据,抽丝剥茧的把真凶揭露出来。

所以,"谁是真凶"就变成了一个简单的序列标签问题。

研究人员假设这个AI模型和人类一样,从剧集中获得一系列的信息输入,包括文本、视频或者音频,并据此推测凶手。而且这个过程是增量发展的。

结果表现

《CSI:犯罪现场调查》数据集上的实验表明,多模态表示对于自然语言理解非常重要。另外,增量推理策略是准确找到真凶的关键。

研究人员希望模型的预测能力,最终可以超越人类。

上图是目前这套系统的评估表现。人类的平均预测精度接近85%,而AI的准确率超过60%。这是一个让研究人员欢欣鼓舞的成绩。

不过作为对比的人类样本还很小(只有三个)。另外与LSTM模型相比,人类的预测精度更高,但通常更为谨慎。AI看剧本会在大约第190句话时猜测真凶,而人类通常在第300句话时才第一次作出判断。

目前还有一些情景,会让AI有点摸不清头脑。例如在数据集中包括一些自杀案件,对这类情况AI还不能很好的处理。与之相比,在三分之二的情况下,人类最终能够意识到案件其实没有其他凶手参与。

研究人员会继续研究如何改善这方面的情况。

不知道以后会不会有人用"狄仁杰"系列训练AI呢?"元芳……"

模型架构

推理任务的顺序特性,适用于循环网络建模。研究人员采用的架构,是把单向的LSTM网络与一个softmax输出层相结合。

模型被喂给一系列(可能是多模态)的输入,每个输入对应于脚本中的一个句子,并且指定一个标签l,直来表示句子中提到了罪犯(l=1)或者没有(l=0)。这是个增量模型,每个标签的决策仅与之前的输入信息有关。

上图概述了罪犯预测任务。图像、音频和文本等输入模型中,每个模态都映射成一个特征表示,融合之后传递给LSTM。然后LSTM来判断其中是否提及罪犯,并给l赋予1或者0的数值。

这张图显示的就是两个时间步长的LSTM模型输入/输出结构。

这个模型的核心,是一个单项LSTM网络。LSTM对于一系列多模态输入的计算,采用了如下的方式:

另外,多模态融合采用了如下的方式:

研究人员还比较了几种不同的模型架构。

相关下载

论文

摘要:《CSI:犯罪现场调查》是近似真实世界自然年语言理解和与之相关复杂推理的理想试验台。我们把犯罪剧集作为一个新的推理任务,利用每个事件提出相同的基本问题(即凶手)这一事实,最后找到真凶时自然就能获得答案。我们基于《CSI:犯罪现场调查》开发了一个新的数据集,将寻找真凶变成一个序列标签问题,并开发了一个从多模态数据中学习的LSTM模型。实验结果表明,增量推理策略是进行准确猜测以及从文本、视觉和声音输入融合表示中学习的关键。

论文地址:

http://ift.tt/2j3eTFa

素材

研究人员把部分研究素材也在网上公开了。

GitHub地址:

http://ift.tt/2hwslh1

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AfQ9gN
RSS Feed

RSS5

IFTTT

了解神经网络,你需要知道的名词都在这里

近日,Mate Labs 联合创始人兼 CTO 在 Medium 上撰文《Everything you need to know about Neural Networks》,从神经元到 Epoch,扼要介绍了神经网络的主要核心术语。


理解什么是人工智能,以及机器学习和深度学习如何影响它,是一种不同凡响的体验。在 Mate Labs 我们有一群自学有成的工程师,希望本文能够分享一些学习的经验和捷径,帮助机器学习入门者理解一些核心术语的意义。


神经元(节点)—神经网络的基本单元,它包括特定数量的输入和一个偏置值。当一个信号(值)输入,它乘以一个权重值。如果一个神经元有 4 个输入,则有 4 个可在训练中调节的权重值。



神经网络中一个神经元的运算



连接—它负责连接同层或两层之间的神经元,一个连接总是带有一个权重值。训练的目标是更新这一权重值以降低损失(误差)。


偏置(Offset)—它是神经元的额外输入,值总是 1,并有自己的连接权重。这确保即使当所有输入为 0 时,神经元中也存在一个激活函数。


激活函数(迁移函数)—激活函数负责为神经网络引入非线性特征。它把值压缩到一个更小范围,即一个 Sigmoid 激活函数的值区间为 [0,1]。深度学习中有很多激活函数,ReLU、SeLU 、TanH 较 Sigmoid 更为常用。更多激活函数,请参见《一文概览深度学习中的激活函数》


各种激活函数



基本的神经网络设计


输入层—神经网络的第一层。它接收输入信号(值)并将其传递至下一层,但不对输入信号(值)执行任何运算。它没有自己的权重值和偏置值。我们的网络中有 4 个输入信号 x1、x2、x3、x4。


隐藏层—隐藏层的神经元(节点)通过不同方式转换输入数据。一个隐藏层是一个垂直堆栈的神经元集。下面的图像有 5 个隐藏层,第 1 个隐藏层有 4 个神经元(节点),第 2 个 5 个神经元,第 3 个 6 个神经元,第 4 个 4 个神经元,第 5 个 3 个神经元。最后一个隐藏层把值传递给输出层。隐藏层中所有的神经元彼此连接,下一层的每个神经元也是同样情况,从而我们得到一个全连接的隐藏层。


输出层—它是神经网络的最后一层,接收来自最后一个隐藏层的输入。通过它我们可以得到合理范围内的理想数值。该神经网络的输出层有 3 个神经元,分别输出 y1、y2、y3。


输入形状—它是我们传递到输入层的输入矩阵的形状。我们的神经网络的输入层有 4 个神经元,它预计 1 个样本中的 4 个值。该网络的理想输入形状是 (1, 4, 1),如果我们一次馈送它一个样本。如果我们馈送 100 个样本,输入形状将是 (100, 4, 1)。不同的库预计有不同格式的形状。


权重(参数)—权重表征不同单元之间连接的强度。如果从节点 1 到节点 2 的权重有较大量级,即意味着神将元 1 对神经元 2 有较大的影响力。一个权重降低了输入值的重要性。权重近于 0 意味着改变这一输入将不会改变输出。负权重意味着增加这一输入将会降低输出。权重决定着输入对输出的影响力。


前向传播


前向传播—它是把输入值馈送至神经网络的过程,并获得一个我们称之为预测值的输出。有时我们也把前向传播称为推断。当我们馈送输入值到神经网络的第一层时,它不执行任何运算。第二层接收第一层的值,接着执行乘法、加法和激活运算,然后传递至下一层。后续的层重复相同过程,最后我们从最后一层获得输出值。



反向传播


反向传播—前向传播之后我们得到一个输出值,即预测值。为了计算误差我们对比了带有真实输出值的预测值。我们使用一个损失函数(下文提及)计算误差值。接着我们计算每个误差值的导数和神经网络的每个权重。反向传播运用微分学中的链式法则,在其中我们首先计算最后一层中每个误差值的导数。我们调用这些导数、梯度,并使用这些梯度值计算倒数第二层的梯度,并重复这一过程直到获得梯度以及每个权重。接着我们从权重值中减去这一梯度值以降低误差。通过这种方式我们不断接近局部最小值(即最小损失)。



学习率—训练神经网络的时候通常会使用梯度下降优化权重。在每一次迭代中使用反向传播计算损失函数对每一个权重的导数,并从当前权重减去导数和学习率的乘积。学习率决定了更新权重(参数)值的快慢。学习率应该尽可能高而不会花费太多时间达到收敛,也应该尽可能低从而能找到局部最优。


精度和召回率


准确率—测量值对标准(或已知)值的接近程度。


精度—两个测量值之间的接近程度,表示测量的可重复性或可再现性。


召回率(敏感度)—全部相关实例中被恢复的相关实例的比率。



Tp 指真正,Tn 指真负,Fp 指假正,Fn 指假负。


混淆矩阵—维基百科的解释是:


机器学习领域和统计分类问题中,混淆矩阵(也称为误差矩阵/error matrix)是一个算法性能的可视化表格,通常在监督学习中使用(无监督学习中混淆矩阵通常称为匹配矩阵,/matching matrix)。矩阵的每一行表示一个预测类,每一列表示一个真实类(或相反)。使用真实的名词使其易于解读,能简单地看出系统对两个类别的混淆程度(即将一个类别的物体标记为另一个)。



混淆矩阵


收敛—随着迭代次数增加,输出越来越接近具体的值。


正则化—用于克服过拟合问题。正则化过程中通过添加一个 L1(LASSO)或 L2(Ridge)规范到权重向量 w(通过给定算法学习到的参数)上以「惩罚」损失项:


L(损失函数)+λN(w)—这里的λ是正则项,N(w)是 L1 或 L2 规范。


归一化—数据归一化是将一个或多个属性缩放至 0 到 1 的范围的过程。当不知道数据分布或分布不是高斯分布(钟形曲线)()的时候,归一化是很有用的,可加速学习过程。


全连接层—一个层所有的节点的激活函数值作为下一层的每个节点的输入,若这对所有的层都成立,则称这些层为全连接层。



全连接层


损失函数/代价函数—损失函数计算单个训练样本的误差,代价函数是整个训练集的损失函数的平均。

  • 「mse」—平均方差
  • 「binary_crossentropy」—二分类对数损失(logloss)
  • 「categorical_crossentropy」—多分类对数损失(logloss)


模型优化器—优化器是一种搜索技术,用于更新模型的权重。


  • SGD—随机梯度下降,支持动量算法。
  • RMSprop—适应性学习率优化方法,由 Geoff Hinton 提出。
  • Adam—适应性矩估计(Adam)并同样使用了适应性学习率。


性能指标—用于测量神经网络性能的指标,例如,准确率、损失、验证准确率、验证损失、平均绝对误差、精度、召回率和 f1 分数等等。


批大小—一次前向/反向传播中适用的样本数,批大小越大,占用的内存量越大。


训练 epochs—模型在训练数据集上重复训练的总次数。


一个 epoch = 全部训练实例的一次前向和一次反向传播。

]]> 原文: http://ift.tt/2zvjEOB
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...