百科问答小站 logo
百科问答小站 font logo



有那位大神使用过tensorflow-textsum来做文本摘要么?求指教? 第1页

  

user avatar   liu-ji-27-94 网友的相关建议: 
      

2020年4月7日更新

感谢大家来咨询我相关问题,但很遗憾我目前已经不再从事自然语言处理领域,所以恐怕不能提供太多的帮助。当时这个项目只是我实习期间的一个实验,之所以选取Textsum,是考虑到它是一个很经典的模型。然而这个经典的模型年代过于古老,很难复现,而且复现的最终结果也很差。我使用的是英文的CNN数据集替代了论文中的Gigaword,和Surmenok一样,最终结果中会出现很多<UNK>,几乎不成语句。如果使用中文数据集,估计结果会更差,因为中文的分词特征会丢失一部分信息吧。所以不建议大家再纠结于这个模型。

由于这几个月在做网站的升级维护,所以之前的那个Textsum运行录的系列文章搬运到CSDN上了,如下:自然语言处理大纲 - CSDN博客

另外我当时实习的搭档复现了Pointer-Generator的模型,使用的是中文的新闻数据集(可能是搜狗公开的数据集,我记不太清了,是从短新闻中提取一句话标题)。博客可以参考:论文复现,代码是这个:Pointer-Generator。复现过程中也遇到了一些环境问题,但相对难度较低,复现结果效果不错,ROUGE值较高。更多的信息我也不清楚,他当时也没有进行实验记录。


那个开源项目的版本兼容性问题比较大,我最近正在跑这个模型,你可以参考我的博客:Textsum 运行录,另外我主要参考的也是这篇博客How to Run Text Summarization with TensorFlow。作者Surmenok是我在网上见到的少数的跑通这个代码的人,但是他所提供的数据处理还是稍有问题,目前我正在处理CNN的数据。

希望能帮到你。我也是文本摘要领域的小白,如有不合理的地方,请在评论区斧正,谢谢




  

相关话题

  Python函数中*和**的内涵究竟是什么呢? 
  你写过哪些真正生产可用的 Python 装饰器? 
  使用Python函数递归实现斐波那契数列时为什么运行速度很慢? 
  Python函数中*和**的内涵究竟是什么呢? 
  站在 2020 年回看,如何评价 Python 2 到 3 的升级? 
  Python 在大部分领域都能胜任,为什么很多企业转向了 Golang? 
  Python 在大部分领域都能胜任,为什么很多企业转向了 Golang? 
  Python 打包成 exe,太大了该怎么解决? 
  python中[[3,5],[2,3]]怎么转化为[['3','5'],['2','3']]? 
  Python3.10的新特性match关键字为什么不会和当前作用域的变量名称match冲突? 

前一个讨论
如果用一句诗来公布恋情,你会用哪句?
下一个讨论
和女朋友难以沟通,怎么办?





© 2025-01-07 - tinynew.org. All Rights Reserved.
© 2025-01-07 - tinynew.org. 保留所有权利