ACL2019 文本生成文档摘要

解读ACL2019论文：《Generating Summaries with Topic Templates and Structured Convolutional Decoders》

发布于 2021-04-26 15:30:31

ACL2019录入论文《Generating Summaries with Topic Templates and Structured Convolutional Decoders》由University of Edinburgh团队发表，该团队主要针对多文档摘要领域进行研究，也发表了其他高质量的论文。

这次这篇论文的主要创新点在于：
1.单独设计了一个LDA预测句子的主题，并设计了辅助训练任务。
2.解码端结构：篇章级解码和基于多层卷积的句子级解码

首先我们解释实验用的数据集。作者将维基百科中的对某一个事物介绍部分的第一段作为生成目标，将对其进行搜索时，出现的前十个网页（去除维基百科）中的内容作为输入。具体例子如下：
{{图片1.png(uploading...)}}
（提示上传错误）

实验中针对公司、电影、动物三个数据集进行实验，在数据处理部分，输入句最多15句，每句最多40词，大于此长度会切分。target句长度小于200词，若大于该长度，该条数据作废。数据集详细如下，SentNb代表句子数量，SentLen为平均句子长度：
{{图片2.png(uploading...)}}

模型结构如下：
{{图片3.png(uploading...)}}
从下往上分别是CNN编码器、篇章级解码器、句子级解码器，三部分是递进关系。

CNN编码器
将输入文本进行编码，之所以用CNN是因为有利于并行计算，针对多输入可以提高效率

篇章级编码器
基于LSTM和注意力机制，针对输入的每个句子，每次输出一个句向量St，该向量将传到下一层的句子级解码器用于指导句子生成。>
{{图片4.png(uploading...)}}

Topic Guidance
引入独立的LDA主题预测模型，对每一句话预测一个主题，LDA模型在设计时，通过调参让它的预测结果偏向于更少出现的主题，而不是集中中少数几个常见的主题上。
对数据集中所有句子预测完主题后，在输入片段的角度上，人为地筛选出常用的主题集。每个片段由多个句子组成，而每个句子对应一个主题，则每个篇章可以看成由多个主题按顺序组成的序列。主题集则是常用的主题序列合集，具体如下图所示：

针对每个输入片段，将其映射到最相关的主题集中。该模型的主要创新在于，额外针对篇章级解码器设计了一个训练任务：预测该句子所属的主题，由此提高模型对句子的理解能力。

句子级解码器
句子级解码器由CNN构成，并在词编码上额外加入的句中位置编码和句子相对位置编码。
每一层卷积成的输入为上一层的输出，在每一层卷积中卷积向量由卷积结果Ot和篇章级解码器输出St以及上下文向量Ct相加构成。

其中Ct由St和Ot经过转换矩阵后加上上一个输出词的词向量g得到

模型最后的输出来自于句子级解码器的输出，通过简单的softmax后得到。输出来自于词表上的分布，因此也是一个生成的方法。

实验对比了2018年基于transformer的TF-S2S模型、2017年基于卷积的CV-S2S模型以及本论文中不加入主题预测的方法CV-S2D、加入主题预测的方法CV-S2D+T。评价指标中，A表示模型的抽象生成能力，C表示模型从输入中复制生成的能力，都是通过计算F1值得到。

从结果中可以看出基础模型比上述两个模型性能更优越，加入主题预测之后效果也明显提高。但是在动物数据上没用达到transformer模型的效果，具体原因论文里并没有详细解释。