百科问答小站 logo
百科问答小站 font logo



有哪些看了让你醍醐灌顶的书籍、论文、期刊,使你对如何做数据挖掘、特征工程、统计挖掘有了眉目? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

知乎上各位大佬比较偏科研,我比较偏工程,给大家一个全面点的视角。

本答案会持续更新,欢迎点赞收藏并追更。

首先是总体工程实践方面

我最推荐大家读一篇论文《Hidden Technical Debt in Machine Learning Systems》。这篇论文能帮助搞科研能理解要把一个机器学习算法用到工程上,有多少隐藏的”坑“要踩。

在我之前的回答里多次引用过,其中这张图最经典。

上面这个图很直观地解释了机器学习项目里每个部分要多少投入资源(精力或者人力)。中间那个黑色的,小到字都看不清了的,就是你开发算法投入的精力。如果你还是学生,那么读下这个论文可能你会对未来工作会面对的挑战有所了解。


具体到每个技术细节

我最喜欢的莫过于各种cheat sheet,也就是一张小抄,列举了整个知识框架。例如

特征工程

说实话,依我个人经验,特征工程的”醍醐灌顶“其实更依赖于domain knowledge。例如我做风控项目,我是不可能随便拿两个变量变化一下就用的。(如果你对风控也感兴趣,我毛遂自荐我自己写的这个系列)

但是拥有完整的特征工程理论知识,是应用domain knowledge的基础。特征工程方面,推荐O'Reilly动物世界系列的这本书。


模型可解释性

我相信大家都看过很多解释性的方法论文,这里推荐一本在线的书,免费开源的,总结了模型解释的多种方法,讲得非常详细,对我的工作很有借鉴意义。

其中第五章模型不可知方法最有实际作用。

大数据处理

我用的是spark来处理大数据,spark的话,推荐这本书,依然是O'Reilly动物世界系列。虽然我并没有看完,但我遇到难题时翻一翻,总能能给我一些启发。

当你无聊时或者遇到难题时可以逛逛的网站

说时候,我建议关注英文网站。即使是中国人的科研成果,多数都是英文发表的。这里推荐几个网站,如果你在知乎搜索这个几个网站名字,你会发现,很多中文文章都是翻译他们的。




  

相关话题

  如何看待清华大学博士生建议同名者改名? 
  从零开始学数据分析,什么程度可以找工作,如何计划学习方案? 
  人工智能是集成电路的新机会吗? 
  为什么日本公司总是押错技术方向(人工智能,互联网,电动汽车)? 
  机器学习如何才能避免「只是调参数」? 
  发表人生中第一篇论文是什么体验? 
  机器学习中如何识别图片中的手是手背还是手心? 
  战锤40k人工智能为什么一定会叛变? 
  科研过程中同辈过于优秀,应该怎么舒缓压力、给自己及时强化? 
  有哪些解决完之后让你拍案叫绝的算法问题? 

前一个讨论
基因编辑具体怎么操作的呢?
下一个讨论
科研论文如何想到不错的 idea?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利