机器之心:端到端模型之前,语音识别模型的发展历程是什么样的?
俞栋:以前的语音识别系统基于高斯混合模型(Gaussian Mixture Model, GMM)和隐马尔可夫模型(Hidden Markov Model),合在一起,叫 GMM-HMM 模型。
在 90 年代初期,伯克利大学的研究人员就开始用多层感知机加上隐马尔可夫模型进行语音识别,由于模型由一个传统的生成模型 HMM 和一个比较时髦的判别式模型神经网络组成,他们称其为混合模型(Hybrid Model)。2010 年,我们用深层神经网络替换掉了浅层神经网络,用上下文相关音素(Phoneme)替换单音素作为建模单元,仍然沿用混合模型的基本架构但增加了建模单元的数量,取得了识别效果上的突破。
最近的端到端模型则完全不再需要隐马尔可夫模型,从头到尾都是一整个神经网络。有时候需要结合外部语言模型,如果数据比较多,连外部语言模型都不需要了。
机器之心:端到端识别模型有哪些进展呢?
俞栋:在即将召开的 ICASSP 上,谷歌会发表一些相关文章,部分预印版已经放在 arXiv 上了,文章里提到当使用大量训练数据时可以在语音搜索任务的某一个测试集上做到和混合模型一样的效果。但是在真实场景下当出现没见过的尾端(tail)搜索词的情况下,效果还有差距,这表明这些模型记忆能力很强但是举一反三的能力还比较欠缺。
但无论如何,这仍然是十分可观的进展了,因为之前的端到端系统和混合模型之间的差距还很大,现在这个差距在缩小,甚至在某一场景下端到端模型可以做到超越,这都是比较大的进展。
腾讯 AI Lab 最近几个月也做了一些类似的工作,在数据量比较少,也就是端到端系统的优势更不能得到体现的情况下,用一些新的算法和技巧大幅提高了性能。
应该看到,在端到端系统上面,大家的投入是比较多的,也确实有一些比较有意思的进展。但是端到端系统是否能替代混合模型,仍然是未知数。
只有当新模型比旧模型好很多的时候,替换才会发生。当然,这里的好是多方面的,不单单是识别率好,也可能是在其他指标不变的情况下你的运算量小了,或者是解码速度提升了。
机器之心:端到端模型在产品中有实际应用吗?
俞栋:目前的端到端系统基本上基于两个框架,一个是 CTC(Connectionist Temporal Classification)框架,一个是基于注意力机制的 seq2seq 框架。
刚才提到的谷歌的论文用的是基于注意力的框架,投入使用相对较少。CTC 模型用得相对较多。腾讯的产品上既有 CTC 模型,也有混合模型,性能没有太大区别。
CTC 的好处是可以采用更大的建模单元,坏处是存在一个随机延迟的问题,即结果出来的时间不是预先可知的。随机延迟的后果是断句困难,这会给用户造成一种「你怎么比别人慢」的感觉。
因此,做交互的系统,比如语音助手类,大部分仍然在使用混合系统。而对实时性没有要求的产品,比如 YouTube 的字幕生成器,因为可以离线,所以有延时也没有关系。
机器之心:鸡尾酒会问题的现状如何?
俞栋:大家都很重视鸡尾酒会问题,因为这是远场里必须解决的重要问题,因此也有蛮多进展。
一个当然就是我们之前提出的置换不变性训练(Permutation Invariant Training)的方法,我们在很多场景下都做了不同的尝试,也有其他的学校以及公司,在我们的工作上做了一些拓展。
此外还有其他重要的方法被提出来,比如 MERL 的深度聚类(deep clustering)方法和哥伦比亚大学的深度吸引子网络(deep attractor network)。另外 NTT 还提出了一种跟我们不同的设定,我们的设定是两人同时说话时,要将两人分开,同时识别两个人的语音。他们的设定是在两个人同时说话时,只跟踪其中一个人的声音。在这个设定下我们也有一些有趣的进展。
不过这些都还属于研究性工作,还没有放在产品中。
机器之心:持续预测与适应的模型情况如何?
俞栋:这类模型的研究已经在我们的实验室列项了,应该是一个很有「做头」的问题,但是目前还没有很多进展。值得一提的可能是预测双向 RNN 的反向状态使单向 RNN 的性能提升的工作。
机器之心:声学前后端从独立优化到联合优化的进展如何?
俞栋:相比于独立优化,现在业界的情况是前后端联合优化已经占了大多数。
前后端联合优化把前端和后端紧紧绑在了一起,好处是如果前后端系统都是自己开发的,那么效果会很好,坏处是一旦换一个前端/后端之后,会出现整体效果变差的情况。
因此,我们要针对场景进行不同的设计。在某些场景下,我们还是要分割开做优化。例如在声学前端,降低噪声和减小变形(distortion)就是一对要同时考虑的矛盾的目标,需要针对场景做特殊优化。
没有评论:
发表评论