文章亮点
模型介绍
1. 问答系统工作流程

请点击此处输入图片描述
如图所示,用户提出 Query Question,进行预处理后,从 QA Pair 数据库中使用 Lucene 工具检索出 k 个最相关的 QA 对,然后对相关问题进行排序,返回最相关问题的回答。 使用到的技术有语义识别(Paraphrase Identification)和自然语言推理(Natural Language Inference)。
2. 传统迁移学习的不足

请点击此处输入图片描述
图中显示了两种现行的迁移学习框架。左图为全共享模型,作者认为它忽略了域内的特征信息;右图为 specifc-shared 模型,尽管考虑了域内以及域间的信息,但没有考虑它们之间的权重关系,即 Ws 与 Wsc 之间、Wt 与 Wtc 之间应该有关联。由此,引入了协方差矩阵 Ω 对这种关系进行建模。
3. 问题定义
给定两个句子:

请点击此处输入图片描述
4. 模型图

请点击此处输入图片描述
由中间部分即为 specific-shared 框架,在 sourceNN、sharedNN 以及 targetNN 中换成右边方框内所示的混合 CNN 模型(基于句子编码的、基于句子交互的)。
中间为了提高 sharedNN 层的抗噪能力,增加了一个分类器,由此引入对抗损失函数。
左上角部分即为权重以及半正定协方差矩阵的关系
请点击此处输入图片描述
。
请点击此处输入图片描述
定义为 Wi 和 Wj 的关系,Wi、Wj 即为上面提到的 Ws、Wsc、Wt 与 Wtc。 文章的损失函数看起来很长,但其实就是两个交叉熵的和,加上其他所有参数的正则项。训练时作者使用了一个数学上的 trick:固定 Ω 后的损失函数是平滑函数,可以很方便地对所有参数求偏导。然后再固定其他参数更新 Ω。
实验结果
1. 基础模型比较

请点击此处输入图片描述
表格第二栏表示 CNN-based 模型,第三栏表示 LSTM-based 模型。 可见文中所采用的 hCNN 模型表现次好,但响应时间比第一好的 ESIM 快很多,所以综合表现最好。
2. 迁移学习框架比较
在 PI 任务上: 使用 Quora 数据集作为 source 数据集,爬取阿里线上的对话作为 target 数据集。数据统计如下表:

请点击此处输入图片描述
实验结果:(DRSS为本文采用的框架)

请点击此处输入图片描述
NLI 任务上: 使用 SNLI 数据集作为 source 数据集,其他五个数据集作为 target 数据集。

请点击此处输入图片描述
实验结果如下:(只用 ACC 进行评估)

请点击此处输入图片描述
对协方差矩阵每个值取平方,作热图如下:

请点击此处输入图片描述
可以看到,Wsc 和 Wtc 正相关;Ws 和 Wsc 之间、Wt 和 Wtc 之间相关度很小。使用
请点击此处输入图片描述
能较好地对域间小相关度进行缓解。
数字化:

请点击此处输入图片描述
3. 在线评测

请点击此处输入图片描述
GBDT 为 AliExpress 现用的方法,文中模型精度相对 GBDT 提高较多,虽然损耗了一些时间,但每个问题响应 80 毫秒对于工业用 chatbot 来说,还是在可接受范围内。
文章评价
本人以前没有接触过迁移学习,但这篇文章对迁移学习的介绍很清晰,能给我个迁移学习大体的框架和思路。另外,引入协方差矩阵这个想法很有创意,实验证明也很有用,对域内域间信息有了直观的解释。并且本文的模型也基本达到了工业界对精度和速度之间平衡的要求。难得的一篇对学术和对工业都有贡献的文章。
没有评论:
发表评论