在本研究中我们开发了一个基于神经网络的预测模型,即为 NMT 设计的价值网络。该价值网络将源语句与任何部分序列作为输入,并输出预测值以估计 NMT 模型生成这一部分序列的期望总回报(例如 BLEU 分值)。在所有解码的步骤中,我们不仅基于该部分序列的条件概率选择最优的候选译文,同时还基于价值网络估计翻译效果的长期回报。
该项工作的主要贡献如下。首先我们开发了一个考虑长期回报的解码方案,它会为机器翻译逐一生成译文,这在 NMT 中是比较新的方案。在每个步骤中,新的解码方案不仅考虑源语句的条件概率,同时还依赖于未来的预测回报。我们相信考虑这两个部分将导致更好的翻译效果。
其次,我们设计了一种新颖的价值网络。在 NMT 编码器-解码器层的顶部,我们为价值网络开发了另外两个模块,即一个语义匹配模块和一个上下文覆盖(context-coverage)模块。语义匹配模块旨在估计源语句与目标语句之间的相似度,该模块直接有助于翻译质量的提升。不过我们经常观察到,随着注意力机制使用更多的上下文信息,模型能生成更好的翻译 [14, 15]。因此我们构建了一个上下文覆盖模块来度量编码器-解码器层中的上下文覆盖范围。通过这两个模块的输出,模型最终的预测将由全连接层完成。
图 1:价值网络的架构
算法 1:价值网络训练
算法 2:NMT 中用价值网络的束搜索
图 2:在三种任务的测试集上的翻译结果
表 1 :整体表现
对价值网络的分析
我们进一步观察了学习到的价值网络,并做了一些分析从而有更好的理解。
首先,因为我们在解码过程中使用一种附加组件,它会影响到翻译过程的效率。也因为设计的价值网络架构类似于基础的 NMT 模型,所以其计算复杂性也类似于 NMT 模型,且两个流程可并行运行。
其次,可以看到 NMT 的准确率在特定任务上有时对束搜索的大小极为敏感。我们在英语到德语的翻译上观察到了这一现象。Zhaopeng Tu 等人的论文《Neural Machine Translation with Reconstruction》认为,这是因为 NMT 的训练喜欢短小但不合适的翻译候选内容。然而,我们证明,通过使用价值网络,我们可以极大地避免这一缺陷。我们用不同的束大小测试了该算法的准确率,如图 3 所示。可以看到,NMT-VNN 要比没有价值网络的原始 NMT 更稳定:在不同大小的束搜索下,它的准确率只有略微不同,但 NMT-BS 在束大小变大的情况下准确率下降了超过 0.5 个点。
图 3:(a)英语到德语翻译任务关于不同束搜索的 BLEU 分值。(b)英语到德语翻译任务关于不同超参数 α 的 BLEU 分值。
第三,在英语到德语的解码过程中,我们测试了不同超参数α下的 NMT-VNN 的性能。从该图我们可以看出当α处于 0.7 到 0.95 时,性能是比较稳定的,而采用更小的α性能会有一些降低。这表明我们的算法对于超参数来说是鲁棒的。
论文:Decoding with Value Networks for Neural Machine Translation
论文链接:http://ift.tt/2zqPlZG
摘要:神经机器翻译(NMT)近几年正变得流行起来。在解码的时候,束搜索(beam search)能使得搜索空间缩小和计算复杂度降低,因而被广泛采用。然而,由于其在解码时只向前计算一步,所以只能在每个时间步搜索局部最优,而通常不能输出全局最优的目标语句。受到 AlphaGo 的成功和方法论的启发,在这篇论文中,我们提出了一种新方法,利用预测网络提升束搜索准确率,即在第 t 步选取源语句 x、当前可用的解码输出 y_1,...,y_{t-1} 和一个候选词 w 作为输入,并预测部分目标语句(假如它由 NMT 模型完成)的长期价值(例如,BLEU 分值)。根据强化学习的实践经验,我们将这个预测网络称为价值网络。具体来说,我们提出了价值网络的循环结构,并使用双语数据训练其参数。在测试过程中,当需要解码词 w 的时候,需要同时考虑由 NMT 模型给定的条件概率和由价值网络预测的长期价值。实验证明,这种方法可以显著提高多种翻译任务的准确率。
]]> 原文: http://ift.tt/2zqPnkg
没有评论:
发表评论