百科问答小站 logo
百科问答小站 font logo



有哪些看了让你醍醐灌顶的书籍、论文、期刊,使你对如何做数据挖掘、特征工程、统计挖掘有了眉目? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

知乎上各位大佬比较偏科研,我比较偏工程,给大家一个全面点的视角。

本答案会持续更新,欢迎点赞收藏并追更。

首先是总体工程实践方面

我最推荐大家读一篇论文《Hidden Technical Debt in Machine Learning Systems》。这篇论文能帮助搞科研能理解要把一个机器学习算法用到工程上,有多少隐藏的”坑“要踩。

在我之前的回答里多次引用过,其中这张图最经典。

上面这个图很直观地解释了机器学习项目里每个部分要多少投入资源(精力或者人力)。中间那个黑色的,小到字都看不清了的,就是你开发算法投入的精力。如果你还是学生,那么读下这个论文可能你会对未来工作会面对的挑战有所了解。


具体到每个技术细节

我最喜欢的莫过于各种cheat sheet,也就是一张小抄,列举了整个知识框架。例如

特征工程

说实话,依我个人经验,特征工程的”醍醐灌顶“其实更依赖于domain knowledge。例如我做风控项目,我是不可能随便拿两个变量变化一下就用的。(如果你对风控也感兴趣,我毛遂自荐我自己写的这个系列)

但是拥有完整的特征工程理论知识,是应用domain knowledge的基础。特征工程方面,推荐O'Reilly动物世界系列的这本书。


模型可解释性

我相信大家都看过很多解释性的方法论文,这里推荐一本在线的书,免费开源的,总结了模型解释的多种方法,讲得非常详细,对我的工作很有借鉴意义。

其中第五章模型不可知方法最有实际作用。

大数据处理

我用的是spark来处理大数据,spark的话,推荐这本书,依然是O'Reilly动物世界系列。虽然我并没有看完,但我遇到难题时翻一翻,总能能给我一些启发。

当你无聊时或者遇到难题时可以逛逛的网站

说时候,我建议关注英文网站。即使是中国人的科研成果,多数都是英文发表的。这里推荐几个网站,如果你在知乎搜索这个几个网站名字,你会发现,很多中文文章都是翻译他们的。




  

相关话题

  为什么中科院这么受保研学生的欢迎? 
  如何看待朱松纯受聘北大人工智能研究院院长? 
  什么是蒙特卡罗 Dropout(Monte-Carlo Dropout)? 
  对于企业来说,其科研人员能否发论文? 
  数据分析方法论、流程和框架? 
  如何评价 7 月 31 日一流科技开源的深度学习框架 OneFlow? 
  国内是什么人在推崇 Nature、Science? 
  写了一篇很水的硕士毕业论文,如何在答辩的时候让专家们觉得很牛逼? 
  为什么美国和苏联在科研领域尤其是在尖端科研领域学术氛围相对浓厚,并能吸引和留住大量的人才? 
  学术论文被抢发了应该怎么处理? 

前一个讨论
基因编辑具体怎么操作的呢?
下一个讨论
科研论文如何想到不错的 idea?





© 2024-06-18 - tinynew.org. All Rights Reserved.
© 2024-06-18 - tinynew.org. 保留所有权利