百科问答小站 logo
百科问答小站 font logo



如何快速成为数据分析师? 第1页

  

user avatar   bei-ming-cheng-hai-sheng 网友的相关建议: 
      

这个问题出来很久了,看了几个高票的答案,作为大数据领域唯一真正老仁波切 @北冥乘海生 ,我觉得有必要出来做一些补充。

实际上,成为一个优秀的数据分析师,并不是靠单打独斗的个人能力可以做到的。这就好比以色列空军在贝卡谷地空战中87:0的战绩,靠的是一个现代化的空中作战体系,而不是浑身是胆的飞行员。因此,您想成为优秀数据分析师的话,就需对下文所说的整个现代数据分析体系有深入的理解,并驱动这一体系在你负责产品中的不断完善,而不是仅仅掌握几个工具了事。为了突出方法论的重要性,我们在本答案中也将淡化具体的工具,只是告诉大家要做什么,应该选取哪一类工具。

想成为一个优秀的数据分析师,关键是建立如下四段式的工作方法论:

一、建立明确的优化目标函数

如果只用一个特征来判断数据分析师的水准,那就是对唯一目标函数的敏感程度。什么,这听起来很简单?不然,我们会发现有如下几个常犯的错误

1. 同时优化多于一个的目标函数。你做一个推荐系统又想优化点击率,又想优化多样性,又想优化新鲜度,最后一定是哪个也优化不好。正确的方法,是确定一个目标,其他的变成约束,篇幅有限就不展开说了。

2. 目标函数的评估并非严格量化,要靠人的判断。如果每次目标都要人判断好不好,那等于没有目标,因为人是严重非理性的,这样优化跟扔鞋的结果差不多。

3. 简单copy一个看起来差不多问题的目标函数。这是个偷懒的办法,有时候效果也还不错。但是真正的高手,需要认真分析自己面对问题的本质,然后决定借鉴什么,改变什么,这需要一个长期的训练过程。

任何一个领域在技术上的突飞猛进,其实都首先依赖于合理明确目标函数的确立。就拿互联网变现的核心问题——计算广告来说,其优化的目标函数非常明确,即单位流量上的利润,而由于成本往往没有单独的优化空间,又可以简化为单位流量上的收入,即eCPM(expected Cost Per Mille,千次展示期望收益),可以说,有了这个合理的目标,问题就解决了一大半:

这一步甚至根本用不到什么工具,仅仅是一些案头工作。不过我要强调,这是成为一个优秀的数据分析师最、最、最重要的能力,而且当面对一个新问题时,它的难度很可能超乎你的想象。

二、建立分布转化漏斗,将目标分解为若干更加聚焦的子目标

仅有量化的目标函数往往还是不够的,因为这个目标的达成可能经过多个环节,而分析师的任务是找出其中哪个环节出了问题并加以解决。

于是,工作的第二步,就是针对上面所说的各个环节,将目标函数分解成若干子目标。仍然拿广告的问题为例,一个广告从展示出来到产生效果,从用户流程上看,可以分解为点击和转化两个环节(如下图所示),相应的两个子目标,即为点击率和点击价值。

在这样分解的基础上,我们才能进行更加有针对性的数据优化:仅仅说eCPM低了,并没有什么卵用,我们还要看到底是点击率低,还是点击价值低。如果是前者,那么有可能是创意不够吸引人;如果是后者,那么有可能是产品本身有问题。如此一来,才能有的放矢地进行优化。

再比如移动用户增长这个任务,我们的目标函数时总用户市场,此目标可以按下图分解,并根绝前后两各环节的数据比例制定一系列子目标:

要完善地记录这样的漏斗数据,我们需要用到网站分析或者应用分析的工具,前者比如GA,后者比如TalkingData,这些工具的功能都比较庞杂,还是那句话,眼中有目标,心中有漏斗,这些比熟练掌握工具中的奇技淫巧,要重要得多。

三、实现多维度数据联合查询,以便在子目标上定位问题

竖着切完了,还要横着切。某一个环节的数据不好,有时候不见得是全局的问题,很可能是部分数据上的策略缺陷,甚至可能是某种特殊条件下程序上的bug。那么怎么把这个“特殊条件”找到呢?这就要靠灵活的多维度数据查询分析。

所谓多维度数据分析,非常类似于给病人做CT:把病体一片片地切出来,看看到底哪个局部出了问题。比如下面的例子:

纵向地看,我们知道是注册率这个环节出了问题,可能具体的问题在哪里呢,可以需要横向分解数据来分析。如下图所示,我们把数据按照浏览器类型切分,可以明显看出Chrome浏览器的数据太低了,很可能是一个bug!当然,有时候我们需要在类似于“浏览器+地域”或“时间段+操作系统”这样的组合维度上找问题,这就要用到多维度的联合查询。

这一步要用到什么工具呢?主要是数据库上的SQL语言,和多维度联合查询的数据魔方(Data Cube)。数据魔方就是类似于下图的一个系统,能任意抽取其中的子立方体获得统计数据,这是不是很像CT?

四、构建灵活的实验框架,主动进行新策略的探索

在已有的数据上刨食儿找问题,其实只是数据分析师一部分的工作,甚至可以说并不是最有挑战性的工作。

我们真正希望数据做到的、是为产品进化插上翅膀。显然,这要求我们主动地去探索一些新的策略和方案。可是,新的策略和老的策略,究竟哪个更好呢?从科学的角度来说,必须要在统计上完全一致的数据集上作比较,才能得到准确的答案。

显然,上面的需求依赖于一个线上系统中的实验框架,能够灵活科学地切分流量。可是,问题的真正困难之处还不在这里。实际上,一个产品演进的速度,取决于同时在单位流量上进行的实验数量。这涉及到有关分层实验框架的设计,由于篇幅有限,我们就不展开了。

有了实验框架的支持,一个好的数据分析师应该尽可能依赖数据而非经验作出判断,比如下面的游戏试玩优化过程,几个问号都应该在合理的实验框架中靠数据来决定,而非简单相信策划的理念和经验。


当然,好的数据分析师,还应该清楚地知道数据作用的边界,诸如感性用户产品的设计、博弈性场景的优化,就不能够完全依赖数据。

相信我,把我上面说到的几点理解透彻了,您对数据分析的理解一定能上一个层次。不过呢,这只能说是快速找到努力的方向,而快速成为优秀的数据分级师,是不太可能的,总要在实践中加深认识和训练技能才行。

如果您觉得本文有帮助,何不点个赞,让更多的朋友看到呢?


[我是@北冥乘海生 ,想吸收更多负能量,请大家关注我的公众号“计算广告”(Comp_Ad)和知乎专栏“计算广告”!也欢迎参与我的系列live:通往数据达人之路


user avatar   liangzi1991 网友的相关建议: 
      

让我来分享一个很不快速(需耗时一年),但包你从零基础学到昏厥的学习教程吧:统计、SQL、R、Python、Tableau、Excel、Forecasting & Machine Learning


1. 统计


统计需要掌握的姿势:

  • Descriptive Statistics
  • Probability Concepts and Probability Distributions
  • Sampling Distributions and the Central Limit Theorem
  • Confidence Intervals
  • Hypothesis Testing
  • Analysis of Variance
  • Chi Square and Nonparametric Tests
  • Simple and Multiple Regression


想躲过统计???


入门课收好,Coursera上阿姆斯特丹大学的Basic Statistics,卡通配图教学,和萌萌哒的你最配!!


喏,还有一本简洁易懂的step by step英文教材,也是我们课上用的教材~

  • Basic Business Statistics by Mark L.Berenson & Others


2. SQL


常用语句来来回回就那么几个,但是要熟,要熟,要熟!

简历上有SQL技能,很重要!!!很重要!!!


常用语句总结:SQL Quick Reference From W3Schools


再送你一门超好,超好,超好的MySQL课!Coursera!杜克大学!我太喜欢教课的那个温柔美丽的大姐姐了~


3. R

R和Python谁才是数据分析一哥,江湖上已经争论很多年了,至今没有定论...... 事实大概是Python的主要功能是编程,除了单纯的数据分析,在很多领域还有广泛利用,所以就业市场上对Python的需求是远大于R。

R主要侧重统计功能,在统计方面显示出了很多的优势,用R做单纯的数据分析还是妥妥的稳稳的。但是往数据科学方向走的话,R就有点顶不住了,轮到Python扬眉吐气了......

这两门语言我都渣,只能说个大概,大家还需要自己去摸索这两门语言的美~

我学R上的课是Coursera上Johns Hopkins University的经典R课程和在Data Application Lab实习的时候上的商业分析师培训课。Coursera的那门课我上得不太走心,默默吐槽一下课程莫名散发着浓浓的时代感,老师有点面无表情,比较打击我的学习激情...... 好吧,我知道我作......

后来实习的时候上公司的培训课,教R的是个讲话干脆利落的小姐姐,才让我重新喜欢上R......


作为一名主观上比较站Python的小粉丝,我目前学过的R就这么多啦!!大体了解了R的语言思维,碰到不会的问题再Google找代码就差不多了~


另外,我在Udemy上找到一门R的课,看课程设置觉得还是挺不错的,想学R的可以试试~ 关于Udemy上课程的价格补充一句,原价是吓人的,常年打折,但是打折力度经常变来变去的,最便宜的时候一般是10-20块的价格可以买到好课...... BTW,下面这门课目前15刀。


4. Python

Python 是一门可以让人浑然忘我的语言......

这辈子学过韩语、日语、英语,和一丢丢R,但Python是我学得最有激情的......

最沉浸的那段时间里,不管几点回家,晚上睡觉前一定要看一点Python爬虫才能安心睡下,晚上做梦也是爬虫代码......

我最开始接触Python的时候上的课是Coursera上University of Michigan的经典系列:Python for Everybody,里面包含五门专项课,除了最后一门Capstone,其他四门都刷过(没写作业)。

这门课非常实在,内容非常赞,上课的是个亲切的老爷爷,学下来有助于你系统了解Python的功能~ 个人感觉 Using Python to Access Web 对于纯小白来说可能有点难度~

提醒一下,如果你搜Python for Everybody,会发现...... 要交钱上啊!!!省钱小tip就是在搜索栏里一门一门搜专项课,进入专项课的页面就可以免费旁听了...... 同理适用于Coursera很多其他的系列课程。


University of Michigan: Python for Everybody | Coursera


密西根大学还出了Python的数据科学进阶课,包含了数据分析、画图和机器学习等内容:


另外,我还追过大神 @秦路运营大湿兄知乎专栏,从“开始Python的新手教程” 到“用Python分析用户消费行为”,一共六篇文章,超快速入门Python数据分析。


Udemy上也有一门很棒的Python数据分析课,我目前在上,觉得好棒棒~

教numpy、pandas、画图、带着练三个数据小项目,至此觉得内容量已经很良心了,老师竟然还教机器学习!!!20个机器学习视频,用SciKit Learn这个包!还有还有!11个统计视频!还没完还没完!还有几个SQL和Web Scraping的小视频!满满的良心学习大礼包~


想必还有很多盆友们对爬虫充满了兴趣......

学爬虫当然要看崔庆才大神的系列教程啊!!!


文字版教程免费,使用的是Python 2.7版本↓


视频教程499软妹币,之前有过折扣,印象中270多~


如果你只是比较随意,不想玩那么高深,或者你真的和我一样穷,可以看看文字版教程,了解urlib库、Requests库、BeautifulSoup库、Selenium库以及正则表达式后,跟着崔大神的三个免费case练一遍~ 我觉得对于小白来说就差不多了~


对于数据分析师来说,会爬虫不属于必备技能,那么学爬虫的意义是什么呢?大神 @董伟明在他接近满分的“爬虫从入门到进阶”的Live简介中说得直戳心坎~


Hello World,醒醒啊!!!你的女神来了!!!


5. Tableau

终于,数据分析界的女神出场了!!!让我们大声喊出她的名字:T! A! B! L! E! A! U!

读作“Tab-low”!!!

我身边很多学Tableau的孩纸们,反应不是酱紫的,

就是酱紫的......

纷纷表示在这个看脸的时代,要好好学习女神软件......

(Source: Best Practices for Designing Efficient Tableau Workbook)


凭借着打娘胎起就异于常人的颜值,Tableau迅速蹿红,逐渐渗透进业界和美国高校。对于在美帝的数据分析师来说,Tableau也是简历上必备的技能之一。

我目前觉得学习Tableau的最好方式,还是去Coursera上上杜克大学的那门课,基本涵盖入门到中高级操作,墙裂打call,墙裂推荐!!!真的好喜欢教课的杜克大姐姐......

另外,Tableau为了推广自家软件,在免费培训方面也是做得很拼......

还有很多很棒的Tableau使用者的case展示~

还有Moveover Monday Project,每周一po一个数据集和数据分析展示~

至于有些人说,下载都这么贵,土豪才学得起吧...... 只要你乖乖去上Coursera杜克大姐姐的课,会有惊喜......


6. Excel

无论你多喜欢Excel或者多不喜欢Excel...... 作为数据分析师,简历上有Excel技能也是必备......

最重要的当然是会Pivot Tables~

我也是通过DAL的商业分析培训课学的Pivot Tables,如果你只想学Pivot Tables,可以去Udemy上这门↓

当然,还有一个免费的学习神器,YouTube啊~ 哈哈,Pivot Tables一搜一大把~

我真的非常热爱YouTube,基本没有YouTube不到的姿势......


7. Forecasting

预测/时间序列也是我们数据分析僧要掌握的技能,不过学得比较浅显,大概了解几个预测模型的原理和会用软件操作就行了。我们用过的教材是Business Forecasting,有中文版,不过我相信你不会想看的......

Udemy上依旧有药!介绍Moving Average, Simple Exponential Smoothing, Double Exponential Smoothing / Holts, Winters / HoltWinters等模型以及在R和Tableau中的操作。


如果你对Tableau女神是真爱!可以去上Udemy新课,目前评价4.7分,感觉还挺不错的样子,反正是安利到我了~


8. Data Mining and Machine Learning

想当年,刚接触数据时,我还是个蠢萌的宝宝,在听说“Machine Learning”这个东东的时候,内心是下面那样的......

何方的妖魔鬼怪,尼玛听名字就不明觉厉......

入坑数据分析一年,但才刚接触机器学习一个月(网课加这学期修的数据挖掘专业课),感觉难度明显拔高了一级,但越学越刺激,越学越稀饭~

目前还是个渣渣,不敢瞎说,就大概罗列一下机器学习入门需要掌握的知识点和网上的学习资源吧:

  • Linear Regression
  • Logistic Regression
  • Decision Trees
  • k-Nearest Neighbors
  • Naive Bayes Classification
  • Discriminant Analysis
  • Neural Nets
  • Support Vector Machines
  • Cluster Analysis
  • Random Forest
  • Natural Language Processing


如果没听说过吴恩达男神的机器学习王牌课程,那你一定是假的数据猿......

说实话,没上男神的Machine Learning前,我还挺不理解为什么这个看上去其貌不扬的大叔,有这么多死忠信众...... 每次大叔的动向更新,都跟地震一样...... 娶的老婆还是跟他智商一样上天高的女神大牛!约翰霍普金斯的CS博士......

如果你和曾经的我一样迷惑,请去Coursera上课...... 顺带必须提一句,男神还是Coursera的联合创始人啊!!!我的前半生没有Coursera,但是后半生必须要跟Coursera紧紧相依......

反正现在的我是痛哭流涕着入吴恩达教了......

之前我在Python部分介绍的Udemy的Python数据分析课中,也涉及一部分机器学习的内容:


内容设置很赞,也很系统的数据科学课程还有:


以上就是我总结的一些数据分析经典姿势~ 其实还有Decision Analysis(主要讲概率)和Optimization,大家就自行去YouTube吧,视频很多~

一年前的今天,我没开始刷网课,不会SQL,不会R,不会Python,不会Tableau,不懂Forecasting,更不知道机器学习是什么鬼...... 就修了两门专业课,统计和Optimization(Excel Modeling),仅此而已......

按照这份教程一点点啃完,其实你也可以在家DIY出半个名校学生(如果不提名校的校友资源和networking机会等的话)~

大家可以再参考一下几个美国出名的数据分析项目的课程设置:


最后再来个励志的故事,我最新关注的一个YouTuber,Harrison Kinsley。小哥毕业于Sam Houston State University(懵逼脸),专业是Philosophy and Criminology(茫然脸),毕业后就开始创业,自学python编程,并在网上po免费python教程,还创立了一个python学习网站,YouTube上目前有27万多粉丝。

如果你好奇小哥怎么赚钱存活?小哥说,他一周就能接好几个offer...... 你们没听过的公司一堆一堆的,全宇宙人民都听过的大公司FacebookApple的offer他都有...... 另外他还做咨询赚钱,生计完全不愁......


既然你都读到这儿了,看来也是数据的真爱,那就一起学到昏厥吧!


感谢大家的厚爱点赞~看了评论区讨论,想补充一些:

1.这个工程量的确蛮大的,因为我目前是学生,除了学习也没啥事干...如果图快的话,先挑重点的学,统计(看个人基础)+MySQL(只需要一周,快的话1-2天都不是没可能)+(熟悉语言思维+熟悉几个常用包+会google/度娘搜代码怎么写,也花不了太长时间,深入的内容以后慢慢补)。Tableau初到中级操作Excel都属于甜点级别的,相对轻松。Python的数据分析这块儿也不难,学过R以后很快也能上手Python分析,国内不清楚,在美国基本R或Python二选一就能找数据分析的入门工作。

机器学习/数据挖掘/Python数据科学方向的操作,就需要有点功底了,会碰到比较基础的线性代数和微积分,我现在也在机器学习阶段跪着,等我顺利通关了再跟大家继续分享...但是我觉得比功底更重要的是,对数据的兴趣!!!我大学学韩语,连微积分和线性代数都没修过,现在也是在一点点补...吴恩达的机器学习网课,我刚上完Week 3,Week1-Week3的内容我刷了三遍,边刷边补微积分,才明白了大半。。。只要有热情,有耐心,不会的东西反复啃,就当用训练机器的方式来训练自己的大脑...这个过程也挺有意思的,哈哈。

2.还有很多人说,这个教程的重点是,英语要好... 这个有那么两丢丢道理...

那就推荐一个国内的培训课,人大经济论坛的CDA数据分析师,课程内容还是比较全面的,统计、R、SQL、Python、SPSS、Hadoop等等都有,大家可以根据大哥划过的数据分析重点合理安排自己的学习。

3.推荐的课里面,Coursera都是可以免费旁听的,Udemy的课10-20刀。

4.欢迎关注我的知乎专栏哟,不定期,看心情写数据干货聂大哥有药。我是一枚大脑洞的数据媛,略略略~


user avatar   simonzhang1 网友的相关建议: 
      

景甜:抱歉,是我选的他。


user avatar   xiao-ceng-ceng-39-31 网友的相关建议: 
      

非常喜欢这一类文章,比他们之前那个看起来优雅无比的ThunderNet不知道高到哪里去了。

篇幅短,没废话。简单的改动,明显的效果。一看就懂,都不需要实验就知道肯定会好用。节省了大量踩坑时间。

Anchor Free,节省了大量闹心的工时,也是趋势,Anchor Free YOLO,这三个词连起来就在发光。

三下两下就接近最优,节省了训练费用:

提供各个大小的预训练模型和各个推断框架的C++代码,又是节省了大量踩坑时间:


总之,这个文章,他不是给我们送知识的,是给我们送钱的,我强烈建议以后此类文章在文末附上支付二维码。否则用起来都不太好意思。


user avatar   zenlucent 网友的相关建议: 
      

MacBook Pro (从定位上来说)本来就是干活用的机器。说实话,用来娱乐,很可能还不如买台 iPad 好使——起码 iOS 上的娱乐应用生态还算是不错。

OS X 和 Windows 的软件不相兼容,这恐怕是购买一台 Mac 前最先要了解的事情。如果不先为此做好心理准备就兴冲冲地去买 Mac, 还是 MacBook Pro, 要么是被无良的店员坑了,要么是作为消费者太不谨慎了。

说回「OS X 有什么好」——对我而言:

  • 字体。我选择使用 Mac 的最主要原因,是 OS X 的字体渲染风格更对我胃口——即便我使用的是低分辨率屏的 2012 版 MacBook Pro。虽然 Windows 能使用 MacType 这样的插件来改变字体渲染风格,但在最近版本的 Windows 中,也已在很多场合下失效。
  • 对于设计而言的一点便利功能。包括而不限于「预览」能够以真实尺寸显示 PDF、更全局的 OpenType 特性支持、便利的 PDF 虚拟打印等。
  • 可用性不错的自带软件。
  • 此外,对于程序员而言,OS X 应该算是个不错的 UNIX 环境。

我学习需要使用的主要工具都可以在 OS X 中使用,而不能满足的那部分,用虚拟机也可以挺流畅的解决,而我并没有「杜绝在 Mac 上使用 Windows」的那种精神洁癖,所以用得挺舒服;加上对我而言,娱乐多是可以通过浏览器解决的事情,要玩点游戏,也有 Steam 和虚拟机。因此我不觉得 Mac 在娱乐上有什么特别大的问题。当然,这也只适用于我自己了。

* * * * * *

在 Mac 上装 Windows 没什么不好的,这本来就是苹果允许、并用以吸引新用户的手段,Windows 也是个好使的操作系统。就是续航会短,发热也相对厉害一些。此外,屏幕色彩可能需要加载色彩配置文件来改善。前两年 MacBook Pro 还被评为「最合适使用 Windows 的电脑」。只是,最好装 Windows 8 或 Windows 10——Windows 7 虽然是个好系统,但对 HiDPI 的支持不足会浪费了那块 Retina 屏。

如果还是绕不开「花大价钱买了屌丝机」的心理,那么趁早出了止损还好。亏钱无可避免,但好歹不会用着心塞。不过,现在达到 MacBook Pro 这个标准(硬件、设计、工艺)的 PC 笔记本,也不便宜得去哪里就是了。

谢谢邀请。




  

相关话题

  企业为什么要做数字化转型,如何进行数字化转型? 
  起点中文网采用人工+大数据派发推荐位,这种模式将对网站以及网文行业产生哪些影响? 
  有哪些相关性不等于因果性的例子? 
  美团公开外卖订单分配算法,详解算法如何判断一个骑手的时间宽裕程度和顺路程度,有哪些值得关注的信息? 
  如何判断一个行业的兴衰呢? 
  「大数据 + 网格化」手段用在新型冠状病毒疫情上,有什么优势和弊端? 
  一直很热闹的数据库领域,有哪些事情让你感觉眼前一亮? 
  目前 AI 在疾病的诊断和治疗上,有哪些成功的应用? 
  只需4组数据,还原你的购物模式,具体算法是怎么实现的? 
  如何评价周志华教授新提出的 Deep Forest 模型,它会取代当前火热的深度学习 DNN 吗? 

前一个讨论
参加 2018 年第五届「知乎盐 Club」是一种怎样的体验?
下一个讨论
我们难道必须发展人工智能吗?





© 2024-11-25 - tinynew.org. All Rights Reserved.
© 2024-11-25 - tinynew.org. 保留所有权利