百科问答小站 logo
百科问答小站 font logo



有哪些看了让你醍醐灌顶的书籍、论文、期刊,使你对如何做数据挖掘、特征工程、统计挖掘有了眉目? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

知乎上各位大佬比较偏科研,我比较偏工程,给大家一个全面点的视角。

本答案会持续更新,欢迎点赞收藏并追更。

首先是总体工程实践方面

我最推荐大家读一篇论文《Hidden Technical Debt in Machine Learning Systems》。这篇论文能帮助搞科研能理解要把一个机器学习算法用到工程上,有多少隐藏的”坑“要踩。

在我之前的回答里多次引用过,其中这张图最经典。

上面这个图很直观地解释了机器学习项目里每个部分要多少投入资源(精力或者人力)。中间那个黑色的,小到字都看不清了的,就是你开发算法投入的精力。如果你还是学生,那么读下这个论文可能你会对未来工作会面对的挑战有所了解。


具体到每个技术细节

我最喜欢的莫过于各种cheat sheet,也就是一张小抄,列举了整个知识框架。例如

特征工程

说实话,依我个人经验,特征工程的”醍醐灌顶“其实更依赖于domain knowledge。例如我做风控项目,我是不可能随便拿两个变量变化一下就用的。(如果你对风控也感兴趣,我毛遂自荐我自己写的这个系列)

但是拥有完整的特征工程理论知识,是应用domain knowledge的基础。特征工程方面,推荐O'Reilly动物世界系列的这本书。


模型可解释性

我相信大家都看过很多解释性的方法论文,这里推荐一本在线的书,免费开源的,总结了模型解释的多种方法,讲得非常详细,对我的工作很有借鉴意义。

其中第五章模型不可知方法最有实际作用。

大数据处理

我用的是spark来处理大数据,spark的话,推荐这本书,依然是O'Reilly动物世界系列。虽然我并没有看完,但我遇到难题时翻一翻,总能能给我一些启发。

当你无聊时或者遇到难题时可以逛逛的网站

说时候,我建议关注英文网站。即使是中国人的科研成果,多数都是英文发表的。这里推荐几个网站,如果你在知乎搜索这个几个网站名字,你会发现,很多中文文章都是翻译他们的。




  

相关话题

  人工智能(AI)时代,让孩子学编程还是学艺术? 
  三维重建怎么入门? 
  如何看待中科院回应《冰川冻土》发文不当:与期刊学术定位不符?反映了哪些问题? 
  如何评价沐神他们写的《动手学深度学习》这本书? 
  使用pytorch时,训练集数据太多达到上千万张,Dataloader加载很慢怎么办? 
  在你所在的专业,有哪些核心期刊? 
  目前工业界常用的推荐系统模型有哪些? 
  如何把文章写的所有人都看不懂? 
  2019 年人工智能行业又进入冬天了吗? 
  2019年NeurIPS有哪些糟糕的论文? 

前一个讨论
基因编辑具体怎么操作的呢?
下一个讨论
科研论文如何想到不错的 idea?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利