前几天,亚马逊推出了三个针对 Alexa 的改进方案,而且要在 5 月底之前实现这些功能。 其中重要的一个功能叫做「context carryover」(上下文转携):当语音请求从一个转向另外一个时,Alexa 可以「回忆」起之前的信息。 也就是说,当用户连续问几个问题时,不需要在第二次发问时重复同一个信息点。比如,问「Alexa,西雅图的天气怎么样?」之后接着问「这个周末呢?」,它可以理解到用户要的还是西雅图在周末的天气情况。 利用深度学习模式在口头语言理解流程中的优势,它可以更自然地理解用户的后续问题并作出恰当回应。 另外,Alexa 还将拥有一项新的记忆功能,可以帮助 Alexa 保存用户指示它记住的信息,并加以提醒。 例如,通过发出类似「Alexa,请记住肖恩的生日是 6 月 20 日」这样的指令,Alexa 就会回答:「好的,我会记得肖恩的生日是 6 月 20 日」。Alexa 也可以在当天向用户自动发出提醒。 最后,亚马逊还提高了 Alexa 的搜索和执行新「技能」的能力,这种新的「技能」与智能手机应用程序相当。 例如,询问 Alexa 如何去除衬衫上的油污,就会激活「汰渍剂」技能,通过去污过程与用户交谈。 还有些技能帮 Alexa 用户检查信用卡余额、获得开盘的股票价格,或者只用几句话就能把酒和饭菜搭配起来。 最近,《科学美国人》采访了亚马逊语音助手研发业务负责人 Ruhi Sarikaya。 他曾于周四在法国里昂举行的 AI 会议上发表主题演讲。Sarikaya 讨论了语音识别和自然语言处理的进步如何帮助简化 Alexa,使技术能够更好地解释用户想要什么。《科学美国人》也就相关问题与他聊了聊。 语音会是我们与设备交流的主要方式,你是根据什么做出这样的判断? 想想 1976 年吧。 苹果 (Apple) 联合创始人史蒂夫•沃兹尼亚克 (Steve Wozniak) 创建了第一台带有显示器和键盘的个人电脑。直到今天,人们仍然使用显示器和键盘来与他们的大部分设备进行交互。 即使使用智能手机,你要么打字,要么触摸屏幕来获取输出。这是一个问题,因为它实际上让我们患了「葛优瘫」。即使你可以四处走动,但注意力仍然集中在屏幕上。 这种情况会随着语音技术变化而有所改变。原因有三个: 小型设备的计算能力增强; 收集和分析大量数据的能力; 以及机器学习的进步,特别是深度学习。这些类型的人工智能算法使语音识别和自然语言理解更加准确。 想在消费产品中很好地使用语音界面,最大的挑战是什么? 主要集中在两个层面:组件层面(component-level)和用户体验层面。 当环境相对安静时,语音识别准确率非常好。如果有背景噪音或很多人在说话,那么我们仍然需要应对这个挑战。多个人同时说话时,你需要能跟踪不同的声音。 至于理解自然语言,上下文语境是关键挑战。 如果数字个人助理的任务仅限于少数领域或功能,例如,播放音乐,就很容易理解用户的意图。除此之外,如果还需要对电影、视频和有声读物的数据进行筛选,如果接到一个突然的命令,「播放 X」这个指令的意思就会变得模棱两可,因为它可以指这些任务中的任何一种。 与智能设备设备交互,上下文语境为什么那么重要? 如果你和我正在聊天,我可能会把上次我们谈话时的信息代入。我们不需要重复我们之前讨论过的一切,以实现无缝对话。 这对人们来说是很自然的。但是,当你和机器交谈的时候却不是这样。现在,你必须使用精确的措辞才能被理解。 你可能认为如果一台机器足够聪明,它将能够从早期的对话中获取信息。 比如,如果问「Alexa,西雅图的天气怎么样?」之后接着问「这个周末怎么样?」,我希望听到这个周末西雅图天气情况,但不会在第二个问题中明确说出来。 如果我问「Alexa,今天的日程安排是什么?」系统利用存储在日历上的信息会立刻作出反应。如果我接着问,「这个周末怎么样?」我希望这个周末能得到日历信息,而不是天气信息。 对于第二个问题,在没有背景的情况下,可能会有许多种答案。这被称为「会话上下文」,它允许机器根据当前的会话正确地回答问题。 机器如何学习理解上下文? 从接收语音命令的设备开始。 你不能在亚马逊 Echo 上播放视频,所以当用户要求设备播放一个特定标题时,这就缩小了设备的选择范围。 您还可以使用该设备查看用户的个人偏好,包括先前的请求和随着时间推移给设备发出的其他命令。这就是机器学习发挥作用的地方。 背景噪音很大,如何提高 Alexa 的识别能力? 这是一个开放的问题,我们正在取得进展。过去致力于发展语音技术之后,我认为有几种不同的方法: 一是先清理或移除背景噪声,然后对剩下的数据进行语音识别。当你这样做的时候,一个副作用就是你可能删除一些与语音本身相关的数据。 另一种技术是尽可能多的收集特定环境中的声音,并配备系统地图,或识别不同的声音ーー无论是背景噪音还是语音。但挑战在于,因为有这么多不同的声音,以至于很难确定它们的来源,尤其是电视机开着的时候。 亚马逊如何使用 Alexa 用户的信息? 我只能谈 Alexa 的机器学习部分。 机器学习依赖于从 Alexa 用户收集的数据。我们不会使用所有这些数据ーー我们为某些类型做了标注,以便教 Alexa 识别不同的声音线索、音调 (男性和女性) 和口音。我们的客户是多样化的,我们希望 Alexa 能够识别不同的用户。我们不能建立一种只适用于一类声音的技术。 亚马逊如何解决人们对 Alexa 隐私问题的关注? Alexa 在云端存储用户信息,而不是设备本身比如 Echo 或者智能手机。 消费者有能力删除他们想要 Alexa 忘记的任何内容:应用程序和"管理你的内容和设备"网页中使用到的任何信息。 例如,你可以通过在 Alexa 应用程序中访问「Settings」中的「History」来检查与 Alexa 的语音交互,并删除与你的账户相关的特定声音记录。 文章来源:https://ift.tt/2vYXymM ]]> 原文: https://ift.tt/2I1ijTL |
没有评论:
发表评论