2020年4月7日更新
感谢大家来咨询我相关问题,但很遗憾我目前已经不再从事自然语言处理领域,所以恐怕不能提供太多的帮助。当时这个项目只是我实习期间的一个实验,之所以选取Textsum,是考虑到它是一个很经典的模型。然而这个经典的模型年代过于古老,很难复现,而且复现的最终结果也很差。我使用的是英文的CNN数据集替代了论文中的Gigaword,和Surmenok一样,最终结果中会出现很多<UNK>,几乎不成语句。如果使用中文数据集,估计结果会更差,因为中文的分词特征会丢失一部分信息吧。所以不建议大家再纠结于这个模型。
由于这几个月在做网站的升级维护,所以之前的那个Textsum运行录的系列文章搬运到CSDN上了,如下:自然语言处理大纲 - CSDN博客
另外我当时实习的搭档复现了Pointer-Generator的模型,使用的是中文的新闻数据集(可能是搜狗公开的数据集,我记不太清了,是从短新闻中提取一句话标题)。博客可以参考:论文复现,代码是这个:Pointer-Generator。复现过程中也遇到了一些环境问题,但相对难度较低,复现结果效果不错,ROUGE值较高。更多的信息我也不清楚,他当时也没有进行实验记录。
那个开源项目的版本兼容性问题比较大,我最近正在跑这个模型,你可以参考我的博客:Textsum 运行录,另外我主要参考的也是这篇博客How to Run Text Summarization with TensorFlow。作者Surmenok是我在网上见到的少数的跑通这个代码的人,但是他所提供的数据处理还是稍有问题,目前我正在处理CNN的数据。
希望能帮到你。我也是文本摘要领域的小白,如有不合理的地方,请在评论区斧正,谢谢