解读ACL2019论文:《Generating Summaries with Topic Templates and Structured Convolutional Decoders》

发布于 2021-04-26 15:30:31

ACL2019录入论文《Generating Summaries with Topic Templates and Structured Convolutional Decoders》由University of Edinburgh团队发表,该团队主要针对多文档摘要领域进行研究,也发表了其他高质量的论文。

这次这篇论文的主要创新点在于:
1.单独设计了一个LDA预测句子的主题,并设计了辅助训练任务。
2.解码端结构:篇章级解码和基于多层卷积的句子级解码

首先我们解释实验用的数据集。作者将维基百科中的对某一个事物介绍部分的第一段作为生成目标,将对其进行搜索时,出现的前十个网页(去除维基百科)中的内容作为输入。具体例子如下:
{{图片1.png(uploading...)}}
(提示上传错误)

实验中针对公司、电影、动物三个数据集进行实验,在数据处理部分,输入句最多15句,每句最多40词,大于此长度会切分。target句长度小于200词,若大于该长度,该条数据作废。数据集详细如下,SentNb代表句子数量,SentLen为平均句子长度:
{{图片2.png(uploading...)}}

模型结构如下:
{{图片3.png(uploading...)}}
从下往上分别是CNN编码器、篇章级解码器、句子级解码器,三部分是递进关系。

CNN编码器
将输入文本进行编码,之所以用CNN是因为有利于并行计算,针对多输入可以提高效率

篇章级编码器
基于LSTM和注意力机制,针对输入的每个句子,每次输出一个句向量St,该向量将传到下一层的句子级解码器用于指导句子生成。>
{{图片4.png(uploading...)}}

Topic Guidance
引入独立的LDA主题预测模型,对每一句话预测一个主题,LDA模型在设计时,通过调参让它的预测结果偏向于更少出现的主题,而不是集中中少数几个常见的主题上。
对数据集中所有句子预测完主题后,在输入片段的角度上,人为地筛选出常用的主题集。每个片段由多个句子组成,而每个句子对应一个主题,则每个篇章可以看成由多个主题按顺序组成的序列。主题集则是常用的主题序列合集,具体如下图所示:

针对每个输入片段,将其映射到最相关的主题集中。该模型的主要创新在于,额外针对篇章级解码器设计了一个训练任务:预测该句子所属的主题,由此提高模型对句子的理解能力。

句子级解码器
句子级解码器由CNN构成,并在词编码上额外加入的句中位置编码和句子相对位置编码。
每一层卷积成的输入为上一层的输出,在每一层卷积中卷积向量由卷积结果Ot和篇章级解码器输出St以及上下文向量Ct相加构成。

其中Ct由St和Ot经过转换矩阵后加上上一个输出词的词向量g得到

模型最后的输出来自于句子级解码器的输出,通过简单的softmax后得到。输出来自于词表上的分布,因此也是一个生成的方法。

实验对比了2018年基于transformer的TF-S2S模型、2017年基于卷积的CV-S2S模型以及本论文中不加入主题预测的方法CV-S2D、加入主题预测的方法CV-S2D+T。评价指标中,A表示模型的抽象生成能力,C表示模型从输入中复制生成的能力,都是通过计算F1值得到。

从结果中可以看出基础模型比上述两个模型性能更优越,加入主题预测之后效果也明显提高。但是在动物数据上没用达到transformer模型的效果,具体原因论文里并没有详细解释。

0 条评论

发布
问题