AAAI-2018 Generative Adversarial Network for Abstractive Text Summarization

2022-02-07 PaperNote CL 0 0 Comments Word Count: 365(words) Read Count: 1(minutes)

论文地址：Generative Adversarial Network for Abstractive Text Summarization

针对文本总结生成的GAN

1. 总结

提出三个挑战：
- seq2seq 模型倾向于生成琐碎而通用的总结，常常会包含高频词
- 生成的总结可读性和语法欠缺
- 目前的标准 seq2seq 模型多是采用极大似然估计预测下一个单词，这样有两个缺点：① 损失函数与评价标准有差异；② 在训练时解码器每个时间步的输入多来自真实的总结，但在测试阶段每个时间步的输入是解码器的上一步生成，这种 exposure bias 会造成测试时误差积累。
作者指出通过 GAN 绕过了 exposure bias 和任务指标不同问题

2. 模型架构

先分别预训练生成器和判别器，随后再联合训练。

2.1 Generative Model

双向 LSTM 编码生成$h_t$ 后，每一时间步由基于注意力的 LSTM 解码器计算隐状态 $s_t$ 和上下文向量 $c_t$ ， $s_t$ 和 $c_t$ concat 起来送进 fc 和 softmax 层得到每步的预测。

$$
P_{vocab}(\hat{y_t})=softmax(V’(V[s_t, c_t]+b)+b’)
$$

2.2 Discriminative Model

二分类器，旨在判断输入序列是人类还是机器合成的。输入一个 CNN （因为它在文本分类效果表现好）。

2.3 Updating model parameters

更新判别器

$$
\min_{\phi}-E_{Y\sim P_{data}}[\log D_{\phi}(Y)]-E_{Y\sim G_{\theta}}[\log (1-D_{\theta}(Y))]
$$

本文链接： https://tyang816.github.io/2022/02/07/Generative Adversarial Network for Abstractive Text Summarization/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang Tan

Master Student @ECUST