首页

数据挖掘、机器学习、自然语言处理这三者是什么关系？这几个怎么入门啊？第1页

1

whitepillow 网友的相关建议:

题主的问题太多了，每个展开都可以讲很多~

作为自然语言处理（NLP）方向的研究生，我来回答一下题主关于自然语言处理如何入门的问题吧，最后再YY一下自然语言处理的前途~

有点话我想说在前头：

不管学什么东西，都要跟大牛去学，真正的大牛可以把一件事解释的清清楚楚。

If you can't explain it simply, you don't understand it well enough.

跟大牛学东西，你不会觉得难，一切都觉得很自然，顺利成章的就掌握了整套的知识。

不过很遗憾，大牛毕竟是少数，愿意教别人的大牛更少，所以如果遇到，就不要强求语言了吧~

开始进入正题，我将介绍如何从零基础入门到基本达到NLP前沿：

----------NLP零基础入门----------

首推资料以及唯一的资料：

Columbia University, Micheal Collins教授的自然语言课程

链接>>

Michael Collins

Michael Collins，绝对的大牛，我心目中的偶像，这门课是我见过讲NLP最最最清楚的！尤其是他的讲义！

Collins的讲义，没有跳步，每一步逻辑都无比自然，所有的缩写在第一次出现时都有全拼，公式角标是我见过的最顺眼的（不像有的论文公式角标反人类啊），而且公式角标完全正确（太多论文的公式角标有这样那样的错标，这种时候真是坑死人了，读个论文跟破译密码似的），而且几乎不涉及矩阵表示……（初学者可能不习惯矩阵表示吧）。

最关键的是，Collins的语言措辞真是超级顺畅，没有长难句，没有装逼句，没有语法错误以及偏难怪的表示（学术圈大都是死理工科宅，语文能这么好真实太难得了）。《数学之美》的作者吴军博士在书中评价Collins的博士论文语言如小说般流畅，其写作功底可见一般。

举两个例子，如果有时间，不妨亲自体验下，静下心来读一读，我相信即使是零基础的人也是能感受到大师的魅力的。

1.语言模型（Language Model）

http://www. cs.columbia.edu/~mcolli ns/lm-spring2013.pdf

2.隐马尔可夫模型与序列标注问题(Tagging Problems and Hidden Markov Models)

http://www. cs.columbia.edu/~mcolli ns/hmms-spring2013.pdf

现在Michael Collins在coursera上也开了公开课，视频免费看

链接>>

比看讲义更清晰，虽然没有字幕，但是不妨一试，因为讲的真的好清楚。

其在句法分析与机器翻译部分的讲解是绝对的经典。

如果能把Collins的课跟下来，讲义看下来，那么你已经掌握了NLP的主要技术与现状了。

应该可以看懂部分论文了，你已经入门了。

----------NLP进阶----------

Collins的NLP课程虽然讲的清晰，不过有些比较重要的前沿的内容没有涉及（应该是为了突出重点做了取舍），比如语言模型的KN平滑算法等。

此外，Collins的课程更注重于NLP所依赖的基础算法，而对于这些算法的某些重要应用并没涉及，比如虽然讲了序列标注的算法隐马尔可夫模型，条件随机场模型，最大熵模型，但是并没有讲如何用这些算法来做命名实体识别、语义标注等。

Stanford NLP组在coursera的这个课程很好的对Collins的课进行了补充。

链接>>

Coursera

本课程偏算法的应用，算法的实现过的很快，不过上完Collins的课后再上感觉刚刚好~

（这两门课是Coursera上仅有的两门NLP课，不得不佩服Coursera上的课都是精品啊！）

----------进阶前沿----------

上完以上两个课后，NLP的主要技术与实现细节就应该都清楚了，离前沿已经很近了，读论文已经没问题了。

想要继续进阶前沿，就要读论文了。

NLP比起其它领域的一个最大的好处，此时就显现出来了，NLP领域的所有国际会议期刊论文都是可以免费下载的！而且有专人整理维护，每篇论文的bibtex也是相当清晰详细。

链接>>

关于NLP都有哪些研究方向，哪些比较热门，可以参考：

当前国内外在自然语言处理领域的研究热点&难点？ - White Pillow 的回答

NLP是会议主导，最前沿的工作都会优先发表在会议上。关于哪个会议档次比较高，可以参考谷歌给出的会议排名：

Top conference页面

也可以参考各个会议的录稿率（一般来说越低表示会议档次越高）：

Conference acceptance rates

基本上大家公认的NLP最顶级的会议为ACL，可以优先看ACL的论文。

-------------------------

最后简单谈一下这三者哪个更有发展潜力……作为一个NLP领域的研究生，当然要说NLP领域有潜力啦！

这里YY几个未来可能会热门的NLP的应用：

语法纠错

目前文档编辑器（比如Word）只能做单词拼写错误识别，语法级别的错误还无能为力。现在学术领域最好的语法纠错系统的正确率已经可以接近50%了，部分细分错误可以做到80%以上，转化成产品的话很有吸引力吧~无论是增强文档编辑器的功能还是作为教学软件更正英语学习者的写作错误。

结构化信息抽取

输入一篇文章，输出的是产品名、售价，或者活动名、时间、地点等结构化的信息。NLP相关的研究很多，不过产品目前看并不多，我也不是研究这个的，不知瓶颈在哪儿。不过想象未来互联网信息大量的结构化、语义化，那时的搜索效率绝对比现在翻番啊~

语义理解

这个目前做的并不好，但已经有siri等一票语音助手了，也有watson这种逆天的专家系统了。继续研究下去，虽然离人工智能还相去甚远，但是离真正好用的智能助手估计也不远了。那时生活方式会再次改变。即使做不到这么玄乎，大大改进搜索体验是肯定能做到的~搜索引擎公司在这方面的投入肯定会是巨大的。

机器翻译

这个不多说了，目前一直在缓慢进步中~我们已经能从中获益，看越南网页，看阿拉伯网页，猜个大概意思没问题了。此外，口语级别的简单句的翻译目前的效果已经很好了，潜在的商业价值也是巨大的。

不过……在可预见的近几年，对于各大公司发展更有帮助的估计还是机器学习与数据挖掘，以上我YY的那些目前大都还在实验室里……目前能给公司带来实际价值的更多还是推荐系统、顾客喜好分析、股票走势预测等机器学习与数据挖掘应用~

数据挖掘、机器学习、自然语言处理这三者是什么关系？这几个怎么入门啊？的其他答案点击这里

1

相关话题

  人均两千的网红餐厅，整鸡只取一片肉，商家称每天只接待十位预约顾客，你会去尝试吗？如何理解这种经营模式？
  Transformer是如何处理可变长度数据的？
  如何看待美国联邦通信委员会取消「网络中立性」法规？
  如何看待新浪微博推出的社交产品「绿洲」？
  如何看待李佳琦新疆助农专场带货超 4000 万？
  如何看待纽约时报对“川建国”一词的报道？
  如果有第谷的数据，现在的机器学习，深度学习有办法学出开普勒三定律吗？
  关系长期紧张的国家，比如印度和巴基斯坦，网民之间是怎么互动的？
  UCLA 的朱松纯教授是一个什么样的人？
  神经网络能否代替决策树算法？

前一个讨论

国内导师遇到一个水货研究生是一种什么样的体验？

下一个讨论

研究生遇到一水货导师是一种什么样的心情？

相关的话题

  计算机科学在合成生物学中有哪些应用？
  如何看待李开复演讲称早期帮旷视拿了蚂蚁金服大量人脸数据，以及李开复、蚂蚁和旷视的澄清？该如何保护隐私？
  现在知乎上专业性的回答是不是越来越少了，为什么？
  如何评价网易旗下网易BoBo推出手机直播产品？
  一点资讯CEO李亚为什么会「被免除职务」？免职邮件有法律效力吗？
  让你依旧留在知乎的核心吸引力是什么？
  一直很热闹的数据库领域，有哪些事情让你感觉眼前一亮？
  为什么现在有这么多人工智能无用论？
  如何看待淘宝将每个月的 23 日设立为「沙雕日」？为什么电商这么执着于造节？
  过去十年你做了哪些「探索」，让你变得不同？
  视觉算法的工业部署及落地方面的技术知识，怎么学？
  互联网科技公司的员工是为了什么而加班？
  为什么 Dropbox 等大型服务使用 Python 作为主要语言，即使它的效率比其他编译型语言低几个数量级？
  「上海名媛群」文章中低价拼顶级下午茶、酒店、奢侈品的现象真实吗？反映了哪些问题？
  互联网对「靠手艺吃饭」的人有哪些影响？
  top30的投行和一线互联网产品经理，去哪个？
  WPS 在什么方面比 Office 强，在什么方面比 Office 弱？
  历史上有哪些红极一时却最终消失了的产品和品牌？
  如何看待锤子科技招聘区块链工程师？
  什么是超级传播者？
  如何看待字节跳动同意支付9200万美元和解TikTok在美隐私诉讼？
  观察者网是一个怎样的网站？
  该如何反驳「谨防魏则西背后的『高盛』手段！别再傻傻的起哄了」这类文章？
  做一个优秀的程序员到底难在哪里？
  你是如何年入百万的?
  为什么平台被封要怪举报的人？而不是平台本身就有问题？
  如何看待谷歌拟弃用「黑名单」这一说法，助力反种族歧视运动？黑名单是否涉嫌种族歧视？
  微博转发其他作者的文章然后说明出处算侵权吗？
  在知乎，你印象深刻的用户都有谁？为什么？
  2021 十大网络「烂」词公布，你认可吗？还有哪些词你觉得值得入选？

© 2025-06-01 - tinynew.org. All Rights Reserved.
© 2025-06-01 - tinynew.org. 保留所有权利