AI 人工智能新闻资讯: 藏在声音和智能音箱中的秘密

2017年11月1日星期三

藏在声音和智能音箱中的秘密

上个月，谷歌和亚马逊分别公布了迷你智能扬声器 Google Home Mini Chalk 和 Amazon Echo Dot 2，价格都低于 50 美元。这些藏在智能语音设备中的虚拟小助手们能够管理你的日常生活。这些曾经只存在于科幻小说当中的技术，如今都是依靠着自然人机语音接口实现的。

1966年，麻省理工学院的 Joseph Weizenbaum 发明了第一个聊天机器人 Eliza，它可以做出适当的回答，比如「对于你感到沮丧，我非常抱歉」。但从功能上来说，它仅仅是检测了输入的关键字，然后触发了预编程的回答。

和 Eliza 相比，现在的智能音箱明显更接近人类，功能也更多样化。微软的智能语音助手 Cortana 以讽刺的幽默闻名；而 Google Home 可以管理简单的计划，比如点个披萨或者陪你玩些小游戏。虽然现在的智能音箱还没有达到科幻电影「Her」中人工智能系统 Samantha 的程度，但这也已足够有吸引力了——2500万的用户立即购买了 Echo，500万的用户购买了 Google Home 。而且，这仅仅是个开始。

智能音箱无需动手操作，这使得人机交互的用户体验更加友好，从而在功能上提供了更多可能性。实际上，这是未来的交互模式。不过，尽管人们知道这些虚拟助手能做更多新事情，极少数人真正了解它们是怎么做到的。

Synced 最近参与了由Innoworld在硅谷组织的一场线下活动，讨论了当今虚拟助手运用的科技。

胡峻玲博士是 Question.ai 的总裁及创始人，同时也是人工智能前沿会议的主席。她介绍了构造虚拟助手的六个关键要素：语音识别，语音合成，自然语言理解，对话系统，聊天机器人，以及音乐推荐系统。

语音识别和言语合成

智能音箱必须检测人类的声音，并且将其转换为机器可读的形式，这也被称为语音识别。数十年来，研究者们常常被噪声所困扰，深度学习带来了革命性的改变。2012年，基于深度学习的 AlexNet 在 ILSVRC 中胜出，它在图像识别方面大获成功。自 2013 年来，深度学习也已经被广泛地运用到了语音识别当中。

「深度学习让我们能够实现端到端的语音识别。」胡博士说。为了创造这样一个用户接口，智能音箱必须开发远场（far-field）语音识别功能。 Echo 采用了由七个麦克风组合的阵列技术，使它能从很远的地方、甚至是在嘈杂的房间里，辨别并处理声音指令。Echo 还对音箱做了调整，使它能辨别不同用户的声音。

锚定智能检测（Anchored Smart Detection）会唤起智能音箱的工作。这个关键步骤是由亚马逊团队首次引入的。它使用远距离循环神经网络（RNN）识别唤醒关键词以及随之而来的用户需求。

语音合成，是另一种虚拟助手运用的语音相关技术。一旦智能音箱决定了要说什么内容，语音合成便将词汇转换成声音。

虚拟助手首先通过词典将文本输入简化到词典当中。然后，词典会转化成一个音素串（phoneme string），也就是一个将单词分辨的单元。虚拟助手获得了一个音素后，会使用韵律建模、音高、音长、响度、语调、节奏等方式进行处理。最后，音素串和韵律注解会被整合到声音识别模型中，从而转换成流利的语言表达。

「Alexa 能说得非常流利，听上去不像一个机器人。这是因为我们研究了韵律建模。」胡博士说道。

核心要素——自然语言理解

在语音识别和语音合成之间，有一个关键步骤是自然语言理解（NLU），这是让虚拟助手具有阅读理解能力的关键。举例来说，当用户说「我在弹钢琴」的时候，系统并不知道什么是「我」或什么是「钢琴」。这种时候，自然语言理解的研究者们必须找到方法，将人类语言转换成一个标准的形式。

虚拟助手首先会挑出一些特有名词，比如城市名、公司名、乐曲名。下一个步骤是词类归纳，也就是将单词分到八个类别：动词、名词、限定词、形容词、副词、代词、同位语、感叹词。

最后一步是语法分析，也就是将一串自然语言或机器语言符号依照语法规则进行分析。但是，如果用户没有注意语法规则，语法分析可能没办法正确工作。现在，许多研究项目正在抛弃了语法分析，寻找其他替代方案解决端到端的自然语言处理问题。

对话系统

虚拟助手还需要两个步骤来启动一个对话：探测用户的意图，以及决定如何回复。

对话行为（dialogue act）将用户需求与对应的系统功能联系起来——比如，用户想听一个笑话、一首歌，或是想点一个披萨。在接受这个输入需求之后，虚拟助手会根据语调、首位单词和谓语动词来捕捉特征；然后，将这些特征归类到一个对话行为中去，比如需求、陈述、是非问题、或是确认问题。

对话行为步骤。

紧跟着对话行为步骤的，是对话决策（dialogue policy），它决定了系统接下来要做出怎样的动作。

如今，用户们希望能与虚拟助手们进行多重互动的自然对话，因此对话系统需要一个状态追踪器去维持现有的对话状态。这包含了用户最近的对话行为，以及当前用户表达的全部信息（entire set of slot-filler constraints）

。

现在，对话系统通过强化学习来搭建。这使得虚拟助手能更加机敏地响应用户的需求。

聊天与推荐服务

显然，一个智能音箱不仅仅是一个对话机器人，它还要适应不同用户的不同需求，提供聊天服务或音乐推荐服务。

聊天机器人在声音和内容两个方面都要与人类似，这是人机顺利交互的关键。亚马逊和谷歌等公司正鼓励开发嵌入式设备机器人。它们应基于开源聊天机器人接口，如 Amazon Lex Chatbot 或 Google的 API.ai。

音乐推荐功能是当今智能音箱的另一个核心功能。就像个人音乐电台一样，要凭借机器学习训练海量数据，为用户播放最适合的乐曲。这非常类似于亚马逊的产品推荐功能，或是 YouTube 的视频推荐功能。

音乐推荐算法要学会评估用户的偏好。这主要是利用收听特征（收听时长）、用户特征（收入、年龄、性别、地理位置等）和曲目特征（曲目、艺术家、流派、频道、关键词等）作为数据库进行学习的。

在不久的将来，就机能和性能而言，不同的智能扬声器间不会有太大区别。差别将主要在于功能的多样性。Echo 和 Google Home 正不断竞争，尽可能地发展和集成更多功能。

未来的虚拟助手可以将我们的生活掌管到什么程度呢？只要拥有足够的数据和合适的模型，它们将有无限的可能：

「罗马餐厅随时都有莫纳迪啤酒吗？」
「他们的莫纳迪啤酒在晚上七点之前有特价活动，卖五美元一品脱。不过记得你晚上九点要接 Leslie，得限制酒量啊。如果你喝了超过两品脱，我就要把你的车给锁了……而且你已经胖了两公斤了，你真的确定要吃意大利菜吗？……对了，猫还抓了只老鼠回家……」

硅谷顶级人工智能大会将在本周五盛大召开，请抓紧报名

www.aifrontiers.com

code AI4JQZX

原文链接：http://ift.tt/2ykaUdV

]]> 原文： http://ift.tt/2A7U1k6

机器知心

AI 人工智能新闻资讯

2017年11月1日星期三

藏在声音和智能音箱中的秘密

机器知心

没有评论:

发表评论

InfoQ 给全体读者的新年礼物：AI 快讯・全新上线 -InfoQ每周精要No.913

标签

标签