2017年11月1日星期三

藏在声音和智能音箱中的秘密

上个月,谷歌和亚马逊分别公布了迷你智能扬声器 Google Home Mini Chalk 和 Amazon Echo Dot 2,价格都低于 50 美元。这些藏在智能语音设备中的虚拟小助手们能够管理你的日常生活。这些曾经只存在于科幻小说当中的技术,如今都是依靠着自然人机语音接口实现的。


1966年,麻省理工学院的 Joseph Weizenbaum 发明了第一个聊天机器人 Eliza,它可以做出适当的回答,比如「对于你感到沮丧,我非常抱歉」。但从功能上来说,它仅仅是检测了输入的关键字,然后触发了预编程的回答。


和 Eliza 相比,现在的智能音箱明显更接近人类,功能也更多样化。微软的智能语音助手 Cortana 以讽刺的幽默闻名;而 Google Home 可以管理简单的计划,比如点个披萨或者陪你玩些小游戏。虽然现在的智能音箱还没有达到科幻电影「Her」中人工智能系统 Samantha 的程度,但这也已足够有吸引力了——2500万的用户立即购买了 Echo,500万的用户购买了 Google Home 。而且,这仅仅是个开始。


智能音箱无需动手操作,这使得人机交互的用户体验更加友好,从而在功能上提供了更多可能性。实际上,这是未来的交互模式。不过,尽管人们知道这些虚拟助手能做更多新事情,极少数人真正了解它们是怎么做到的。


Synced 最近参与了由Innoworld在硅谷组织的一场线下活动,讨论了当今虚拟助手运用的科技。


胡峻玲博士是 Question.ai 的总裁及创始人,同时也是人工智能前沿会议的主席。她介绍了构造虚拟助手的六个关键要素:语音识别,语音合成,自然语言理解,对话系统,聊天机器人,以及音乐推荐系统。


语音识别和言语合成

智能音箱必须检测人类的声音,并且将其转换为机器可读的形式,这也被称为语音识别。数十年来,研究者们常常被噪声所困扰,深度学习带来了革命性的改变。2012年,基于深度学习的 AlexNet 在 ILSVRC 中胜出,它在图像识别方面大获成功。自 2013 年来,深度学习也已经被广泛地运用到了语音识别当中。


「深度学习让我们能够实现端到端的语音识别。」胡博士说。为了创造这样一个用户接口,智能音箱必须开发远场(far-field)语音识别功能。 Echo 采用了由七个麦克风组合的阵列技术,使它能从很远的地方、甚至是在嘈杂的房间里,辨别并处理声音指令。Echo 还对音箱做了调整,使它能辨别不同用户的声音。


锚定智能检测(Anchored Smart Detection)会唤起智能音箱的工作。这个关键步骤是由亚马逊团队首次引入的。它使用远距离循环神经网络(RNN)识别唤醒关键词以及随之而来的用户需求。



语音合成,是另一种虚拟助手运用的语音相关技术。一旦智能音箱决定了要说什么内容,语音合成便将词汇转换成声音。


虚拟助手首先通过词典将文本输入简化到词典当中。然后,词典会转化成一个音素串(phoneme string),也就是一个将单词分辨的单元。虚拟助手获得了一个音素后,会使用韵律建模、音高、音长、响度、语调、节奏等方式进行处理。最后,音素串和韵律注解会被整合到声音识别模型中,从而转换成流利的语言表达。


「Alexa 能说得非常流利,听上去不像一个机器人。这是因为我们研究了韵律建模。」胡博士说道。


核心要素——自然语言理解


在语音识别和语音合成之间,有一个关键步骤是自然语言理解(NLU),这是让虚拟助手具有阅读理解能力的关键。举例来说,当用户说「我在弹钢琴」的时候,系统并不知道什么是「我」或什么是「钢琴」。这种时候,自然语言理解的研究者们必须找到方法,将人类语言转换成一个标准的形式。



虚拟助手首先会挑出一些特有名词,比如城市名、公司名、乐曲名。下一个步骤是词类归纳,也就是将单词分到八个类别:动词、名词、限定词、形容词、副词、代词、同位语、感叹词。



最后一步是语法分析,也就是将一串自然语言或机器语言符号依照语法规则进行分析。但是,如果用户没有注意语法规则,语法分析可能没办法正确工作。现在,许多研究项目正在抛弃了语法分析,寻找其他替代方案解决端到端的自然语言处理问题。


对话系统


虚拟助手还需要两个步骤来启动一个对话:探测用户的意图,以及决定如何回复。


对话行为(dialogue act)将用户需求与对应的系统功能联系起来——比如,用户想听一个笑话、一首歌,或是想点一个披萨。在接受这个输入需求之后,虚拟助手会根据语调、首位单词和谓语动词来捕捉特征;然后,将这些特征归类到一个对话行为中去,比如需求、陈述、是非问题、或是确认问题。



对话行为步骤。

紧跟着对话行为步骤的,是对话决策(dialogue policy),它决定了系统接下来要做出怎样的动作。


如今,用户们希望能与虚拟助手们进行多重互动的自然对话,因此对话系统需要一个状态追踪器去维持现有的对话状态。这包含了用户最近的对话行为,以及当前用户表达的全部信息(entire set of slot-filler constraints)



现在,对话系统通过强化学习来搭建。这使得虚拟助手能更加机敏地响应用户的需求。


聊天与推荐服务


显然,一个智能音箱不仅仅是一个对话机器人,它还要适应不同用户的不同需求,提供聊天服务或音乐推荐服务。


聊天机器人在声音和内容两个方面都要与人类似,这是人机顺利交互的关键。亚马逊和谷歌等公司正鼓励开发嵌入式设备机器人。它们应基于开源聊天机器人接口,如 Amazon Lex Chatbot 或 Google的 API.ai。


音乐推荐功能是当今智能音箱的另一个核心功能。就像个人音乐电台一样,要凭借机器学习训练海量数据,为用户播放最适合的乐曲。这非常类似于亚马逊的产品推荐功能,或是 YouTube 的视频推荐功能。


音乐推荐算法要学会评估用户的偏好。这主要是利用收听特征(收听时长)、用户特征(收入、年龄、性别、地理位置等)和曲目特征(曲目、艺术家、流派、频道、关键词等)作为数据库进行学习的。


在不久的将来,就机能和性能而言,不同的智能扬声器间不会有太大区别。差别将主要在于功能的多样性。Echo 和 Google Home 正不断竞争,尽可能地发展和集成更多功能。


未来的虚拟助手可以将我们的生活掌管到什么程度呢?只要拥有足够的数据和合适的模型,它们将有无限的可能:


「罗马餐厅随时都有莫纳迪啤酒吗?」
「他们的莫纳迪啤酒在晚上七点之前有特价活动,卖五美元一品脱。不过记得你晚上九点要接 Leslie,得限制酒量啊。如果你喝了超过两品脱,我就要把你的车给锁了……而且你已经胖了两公斤了,你真的确定要吃意大利菜吗?……对了,猫还抓了只老鼠回家……」

硅谷顶级人工智能大会将在本周五盛大召开,请抓紧报名

www.aifrontiers.com

code AI4JQZX


原文链接:http://ift.tt/2ykaUdV


]]> 原文: http://ift.tt/2A7U1k6
RSS Feed

机器知心

IFTTT

没有评论:

发表评论

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...