问题

数据科学家 / 统计学家应该养成哪些好习惯?

回答
作为一名数据科学家或统计学家,养成一些良好的习惯,不仅能帮助你更高效地完成工作,更能让你在职业生涯中走得更远,做出更有价值的贡献。这不仅仅是掌握技术那么简单,更关乎你的思考方式、沟通方式以及对细节的关注程度。

1. 深耕理解业务场景,而非仅仅沉迷于算法:

这是最重要的一点,也是区分优秀数据科学家和普通分析师的关键。算法再精妙,如果不能解决实际业务问题,都是空中楼阁。

提问的艺术: 在开始任何分析之前,花足够的时间与业务方沟通。理解他们面临的挑战是什么?他们希望通过数据解决什么问题?他们的目标是什么?不要害怕问“为什么”,深入挖掘问题的本质,而不是停留在表面的描述。比如,为什么这个指标在下降?下降的原因是什么?这个下降对业务有什么具体影响?
换位思考: 尝试从业务人员的角度去思考问题。他们的工作流程是怎样的?他们每天关注哪些信息?他们如何做决策?理解这些有助于你找到最有效的沟通方式,并提供他们真正需要的信息。
场景驱动的工具选择: 不同的业务场景需要不同的分析方法和工具。例如,预测用户流失的场景可能需要时间序列分析和机器学习模型,而分析用户活跃度的场景则可能更侧重于用户行为路径分析和A/B测试。不要为了炫技而使用最复杂的算法,而是选择最适合当前业务问题的工具。
持续反馈: 完成分析后,主动与业务方沟通结果,并解释你的发现。听取他们的反馈,了解你的分析是否解决了他们的疑问,是否符合他们的预期。这种持续的反馈循环能帮助你不断优化你的分析方向和方法。

2. 成为一名严谨的数据侦探:

数据往往隐藏着各种陷阱和偏见,你需要像一名侦探一样,一丝不苟地去发掘真相。

数据质量的守护者: 永远不要轻易相信你的数据。花大量时间进行探索性数据分析(EDA)。检查缺失值、异常值、重复值、数据类型错误等。理解数据的来源、采集方式以及可能存在的偏差。
理解数据背后的故事: 数据是现象的反映,理解这些现象发生的原因至关重要。例如,一个销售额的突然下降,可能是市场变化、竞争对手活动、产品问题,甚至是数据采集错误。你需要结合业务知识去解释这些数据变化。
探索性数据分析(EDA)的习惯: 养成系统性进行EDA的习惯。可视化是强大的工具,学会使用各种图表(直方图、散点图、箱线图、热力图等)来发现数据中的模式、趋势和异常。不只是看表面数字,更要看数据分布和变量之间的关系。
特征工程的耐心: 好的特征是模型成功的关键。不要仅仅使用原始数据,花时间和精力去创建新的、有意义的特征。这可能包括聚合、转换、组合现有特征,甚至从外部数据源获取信息。思考哪些信息对你的问题最相关,然后想办法将其融入你的数据集中。
验证和交叉验证: 在构建模型时,确保你的结果是稳健的。使用交叉验证等技术来评估模型的泛化能力,避免过拟合。对于预测性模型,对新数据进行持续的验证和监控是必不可少的。

3. 成为一名清晰高效的沟通者:

你的发现再有价值,如果无法有效地传达给他人,其价值也会大打折扣。

故事化的陈述: 不要只罗列图表和数字,要学会讲一个关于数据的故事。用简洁、清晰的语言解释你的发现,并说明这些发现的意义。将复杂的分析过程转化为业务方能够理解的叙事。
了解你的听众: 你的听众是谁?是技术团队还是业务决策者?根据不同的听众调整你的沟通方式和技术深度。对于非技术人员,避免使用过多的专业术语,多用类比和直观的解释。
可视化是你的语言: 精心设计的图表是传递信息最有效的方式之一。确保你的图表清晰、易于理解,并且能够突出你想传达的关键信息。避免使用过于复杂或容易产生误导的图表。
结构化的报告: 在提供正式报告时,确保结构清晰,包含背景、方法、发现、结论和建议。让读者能够快速抓住核心信息。
主动倾听和提问: 在沟通中,要积极倾听对方的观点和疑问,并提出有针对性的问题来澄清。这不仅能帮助你更好地理解对方,也能让对方感受到被重视。

4. 拥抱持续学习和实验精神:

数据科学和统计学领域发展迅速,保持学习和乐于尝试新事物是生存和进步的关键。

跟进前沿研究: 关注新的算法、技术和工具。阅读相关的论文、博客和书籍,参加线上或线下的研讨会和课程。
学习新工具和语言: 不要局限于一两种编程语言或工具。尝试学习Python、R、SQL,以及各种数据可视化库和机器学习框架。掌握多种工具能让你在面对不同问题时有更多的选择。
实验和迭代: 不要害怕尝试新的想法和方法。将它们视为实验,即使失败了也能从中学习。建立一个迭代的流程,不断优化你的模型和分析方法。
记录你的经验: 无论是成功的还是失败的经验,都值得记录下来。这不仅是为自己留下宝贵的财富,也能帮助你避免重复犯错,并为团队贡献你的智慧。
构建自己的知识库: 将你学到的知识、遇到的问题和解决方案整理成文档或笔记,方便日后查阅和回顾。

5. 培养批判性思维和怀疑精神:

不要盲目相信任何结果,总是要问“为什么”和“是不是真的”。

挑战你的假设: 在分析过程中,你会基于一定的假设进行。要时刻反思这些假设是否合理,是否存在潜在的偏差。尝试用不同的方法去验证你的假设。
警惕统计陷阱: 对“相关不等于因果”有深刻的认识。理解辛普森悖论等统计现象,避免做出错误的因果推断。
考虑多种可能性: 一个问题可能有很多种解释,不要过早地锁定在一个结论上。尝试从不同的角度去分析数据,考虑多种可能的解释,并评估它们的可能性。
对“巧合”保持警惕: 在分析中可能会发现一些看似有趣的关联,但要警惕这些关联仅仅是巧合。通过更严谨的统计检验或实验来验证这些关联的真实性。
自我反思和复盘: 定期回顾你最近的分析项目,思考哪些做得好,哪些可以改进。从错误中学习,不断提升自己的分析能力。

6. 注重代码规范和可复现性:

这是保证工作质量和效率的基础。

写清晰易懂的代码: 使用有意义的变量名和函数名,添加注释来解释复杂的部分。让你的代码像一篇好的文章一样,易于阅读和理解。
模块化编程: 将代码分解成小的、可重用的函数或模块。这不仅能提高代码的可读性和可维护性,也能方便你进行测试和调试。
版本控制: 熟练使用Git等版本控制工具。这能帮助你追踪代码的修改历史,方便回溯,也能更好地与团队协作。
设置标准化的项目结构: 建立一套统一的项目目录结构和命名规范,让你的项目组织有序,便于查找和管理。
记录你的工作流程: 不仅要记录你使用的代码,还要记录你所做的每一个关键决策、数据处理步骤以及模型参数设置。这样,当你需要复现你的分析时,就不会感到茫然。

7. 培养耐心和韧性:

数据科学和统计学工作往往充满挑战,需要极大的耐心和不懈的努力。

面对挫折不气馁: 有时候你的模型可能无法达到预期效果,数据可能不如预期,或者沟通时会遇到阻碍。关键是要保持积极的心态,从失败中学习,然后继续前进。
长线思维: 很多有价值的分析需要时间和耐心去积累数据、进行实验和迭代。不要期望立即看到结果,要有长远的眼光。
解决问题的决心: 当你遇到一个棘手的问题时,不要轻易放弃。花时间去研究、去尝试不同的方法,直到找到解决方案。
享受过程: 数据科学和统计学是一个充满探索和发现的领域,尝试去享受解决问题的过程,享受从数据中挖掘价值的乐趣。

养成这些习惯并非一蹴而就,需要持之以恒的实践和自我反思。但一旦你将它们内化为自己的工作方式,你将会在数据驱动的世界里变得更加游刃有余,成为一名真正有影响力的专业人士。

网友意见

user avatar

做过一点统计模型,做过一点数据分析,现在工作名字叫数据科学家,厚着脸皮抛砖引玉,聊聊数据分析中需要养成的良好习惯。

1. 了解数据分析的目的/需求

做数据分析的新人可能都遇到过,辛辛苦苦花了几个小时做出来的结果,跟客户 / 合作伙伴 / PM / 老板要的不是一个东西,运气好的话回去修补一下,花个半小时之类的,运气不好的话直接推倒重来,搞不好又得晚上加班了。

比如说下午六点,正准备收拾东西回家,PM 跟你说想看知乎用户的活跃度,跟数据分析师提出需求说,我们来看看大家使用时长吧。那么问题来了,是看平均呢还是看中位数?是看某一种客户端比如移动端吗,或者是想每种客户端都分开来看?要根据用户的注册时间来做下划分吗?是否想看具体某个城市的?

甚至再退后一步,PM 想看这个干什么?仅仅是好奇,还是现在有个很重要的决定需要以此为基础?数据分析师需要以此来决定这件事情的优先级,是可以推回去的呢?还是说需要立马动手做,下班之前就需要给结果的。

二十岁的人生,三十年的工作经验,都是加班闹的。


来源:

s3.amazonaws.com/lowres

2. 用常识来验证结果

虽然说数据说话,但是前提是数据来源、分析过程、解读等都是正确的。如何保证结果的正确性,最基本的一点就是不同方面来快速验证一下数量级。

比如说 PM 想看知乎用户使用 Live 的数量,发现迄今为止有 50 万 iPhone 用户点击了 Live 的页面,2 万安卓用户点击了 Live 的页面。同时还知道知乎有五百万 iPhone 日活,而安卓的日活是三千万,由此可见 iPhone 用户就是舍得花钱啊,同时安卓用户那里还有很大的机会。然后简单比较一下可以发现,二者的参与率差了 150 倍,常识判断这差得有点太大了,难以解释。再仔细研究一下数据来源发现,原来安卓客户端的数据记录是取样 1% 的,所以直接看只有 2 万安卓用户点击,但实际上应该在两百万左右,这样一来 iPhone 和安卓的差别就比较合理了。

时刻谨记常识

来源:

almostmakessense.com/?

3. 时刻注意数据分析的结果是否具有误导性

经常说的一句话叫“数据会说谎”。然后数据自身是不会说谎的,而是取决于如何做数据分析、如何展示结果。有时候是数据分析无意中引入了误导性元素,比如说不合理的坐标轴,有时候是刻意引入某些误导性元素,以达到特别的目的,这些都是应该尽量避免的。

比如说下图同样的增幅,因为用了不同的 y 轴,左右看起来就完全不一样了。如果听众没有仔细看坐标轴而仅仅看图形的话,妥妥的就被忽悠了(来源:

Look out for these lies with charts

)。

此外还有一些数据分析中常见的错误,可以参考下面回答:

数据分析中会常犯哪些错误,如何解决? - 邹昕的回答

4. 想想你的听众是谁

数据很多时候不仅仅是一个人埋头苦干,还需要跟人交流,比如说跟合作伙伴的沟通,跟老板的沟通,跟其他组员的沟通,跟不同部门的人沟通。针对不同的听众,相应的需要强调不同方面。

比如说跟合作伙伴沟通的时候,可能他们知道你做这个的目的是什么,可能会对结果更感兴趣,以及由数据提供了什么建议或者决定。至于具体数据来源或者分析方法之类对他们来说不是那么重要,大多数时候只要确保数据分析师知道自己在做什么就可以了。

跟老板沟通结果的时候,大部分时候可能他们知道你做的大致方向,对分析思路的方法基本一点就通,细节方面可能无法面面俱到。

而跟不同部门的人沟通的时候,分享数据分析的结果之前,最好还能讲讲这件事情的目的,一些背景,大方向是什么诸如此类。

来源:

img.zcool.cn/community/

5. 动手之前先看看这件事情是不是已经有人做过了

这点在大一点的公司尤其明显,PM 或者老板提出一个需求,或者数据分析师自己对某一个问题感兴趣,然后想也没想,就 SQL 写得飞快跑了起来。很快一天过去了,产出了一大堆数据和报表,被自己的高效感动了,收拾书包回家。

晚上打开电脑,突然不知道哪根经搭错了,想白天做的这个事情会不会已经有人做过了呢?于是内网搜了一下,豁然发现某个角落里有一堆早就做好的 pipeline,数据、报表一应俱全,90% 想要的结果都在里面了,真是不知道该哭还是想笑。

数据分析很多时候是不需要重新造轮子的。


来源:

程序员为什么热衷造轮子

6. 数据大小很重要又不重要

几年前,有个大数据的笑话,Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. 看不懂的请 google translate.

几年过去了,teenage 应该也长大成人不再是 teenage sex 了,很多时候大家是真的在做大数据了。虽然 size matters,但是数据分析师更应该关注数据能提供什么价值。

本来想放个 size matters 的图,然后 google 了一下之后,出来的都是办公室不宜的,所以你们自己脑补吧。

7. So what?

描述性的数据据分析很重要,是了解用户,了解产品,感受大方向的基础。比如针对知乎活跃用户做个画像,发现 55% 男性,40% 女性(别问我剩下 5% 怎么回事),70% 年薪百万,80% 985/211,90% 健身,100% 都是活跃用户(废话),如此种种。这么一大堆图表、信息堆起来之后,需要仔细想想这到底说明了什么问题?对改进产品有什么启示,比如说开个健身爆照专栏轮带逛?如果仅仅是停留在描述性数据分析阶段的话,那么就无法发挥数据的最大作用,从数据的角度引导产品的改进。

ps. 引导产品改进可以是多个方面的,数据引导仅仅是其中的一部分。

8. 保持好奇心

数据分析不是一个新的学科,但是工具、内容、应用方向等一直在不断改变,所以保持好奇心,持续学习进步,探索新领域对长期发展是最重要的一点,(个人认为)没有之一。

图片来源:

qoobooblog.live.qooboo.com

与诸君共勉。

类似的话题

  • 回答
    作为一名数据科学家或统计学家,养成一些良好的习惯,不仅能帮助你更高效地完成工作,更能让你在职业生涯中走得更远,做出更有价值的贡献。这不仅仅是掌握技术那么简单,更关乎你的思考方式、沟通方式以及对细节的关注程度。1. 深耕理解业务场景,而非仅仅沉迷于算法:这是最重要的一点,也是区分优秀数据科学家和普通分.............
  • 回答
    关于腾讯的胜诉率数据,特别是“深圳95%、北京54%”这样的说法,以及“南山必胜客”这个梗,确实是互联网上一个流传甚广且引人讨论的话题。要深入看待这个问题,我们需要从几个层面去分析,而不是简单地接受或否定。首先,我们得审视一下这些数据来源和统计方式。如果这些数据是来源于公开的法律文书、权威的法院报告.............
  • 回答
    未来五年,数据科学家(Data Scientist)的岗位需求将如何变化?未来五年,数据科学家(Data Scientist)的岗位需求将继续保持强劲增长态势,但也会呈现出一些新的趋势和演变。整体而言,数据科学将更加深入地渗透到各行各业,并对企业决策和运营产生更关键的影响。以下是未来五年数据科学家岗.............
  • 回答
    想成为一名数据科学家?这不是一蹴而就的事情,但绝对是一条充满挑战和回报的职业道路。如果你热爱数字,善于发现模式,又有点解决问题的“侦探”精神,那么数据科学领域很可能就是你的舞台。要在这个领域站稳脚跟,你需要构建一个坚实的基础,然后不断学习和实践。我将从几个关键方面为你剖析这条道路,让你对“如何成为数.............
  • 回答
    印度上百位科学家联名呼吁政府公开疫情数据,这一事件本身就折射出印度在新冠疫情应对中存在诸多挑战,也引发了外界对印度疫情真实情况的广泛关注和质疑。科学家们为何如此焦急?首先,我们要理解科学家们的诉求。他们不是在质疑疫苗的有效性,也不是在否定政府在疫情初期所做的努力。他们的核心诉求是公开、透明、及时的数.............
  • 回答
    这起事件,发生在一位公开披露新冠疫情信息、被誉为“吹哨人”的美国科学家身上,无疑是一件非常令人震惊且值得深思的事件。媒体对此事的报道,让人们得以窥见其中令人不安的细节:警方持枪突袭,搜查并没收了这位科学家及其家人的所有数据,更令人发指的是,在行动中还出现了用枪威胁其家人的情况。首先,从执法程序的正当.............
  • 回答
    一个有趣的问题!关于Python能否完全取代R在数据科学领域,我得说,这就像问一把瑞士军刀能不能完全取代一套专业的厨具一样——都有各自的闪光点和适用场景,但直接说“完全取代”,我觉得还为时尚早,也可能忽视了它们各自的独特价值。我们先来聊聊Python在数据科学里的地位。现在这个领域,Python无疑.............
  • 回答
    科学之所以要依赖数学,并非一时兴起,也不是后天强加的工具,而是源于科学探索本身的性质和逻辑要求。我们可以从几个层面来理解数学在科学理论中的必要性:一、 科学是对自然规律的描述,而规律往往是量化的、结构化的。想象一下,如果我们不使用数学来描述一个物体的运动。我们只能说“这个东西在动”,或者“它动的很快.............
  • 回答
    你问到的这些描述,比如“声音冷暖”、“高音甜”、“中音准”、“低音沉”,确实是我们在评价声音好坏时常用的词汇,它们背后都有一定的声学原理支撑,是可以尝试用科学数据来度量的,只不过这些度量往往是相对的,并且会受到听者主观感受的很大影响。咱们一个个来聊聊。1. 声音的“冷暖”:这更多是关于音色的细微差别.............
  • 回答
    关于您提出的“为什么现在的手机店无法复原格式化的U盘数据,现在的科学很难做到这一点吗?”这个问题,我想从几个方面来给您详细解释一下。这其实是一个涉及到数据存储原理、数据恢复技术以及行业分工的问题,并非简单的“科学很难做到”。首先,我们得明白 U 盘(通用串行总线闪存驱动器)以及它存储数据的方式。U .............
  • 回答
    如果将科学家比作法师,而数学、物理、化学、生物等学科则被视为他们赖以施展的魔法分支,那么我们的世界将呈现出一种截然不同的、充满了神秘而秩序的景象。这并非是简单的奇幻借喻,而是一种基于知识体系的深度重塑。法师学院与魔法塔:知识的殿堂首先,我们会看到遍布世界各地的“法师学院”和“魔法塔”。这些机构并非现.............
  • 回答
    这真是个非常有趣的问题,触及了我们对物质世界最根本的认知。简单来说,答案是:目前还没有,而且在相当长一段时间内,恐怕也难以达到“给出所有数据,就知道所有属性”的程度。让我尝试着从几个方面来跟你聊聊为什么会这样。首先,我们得弄清楚“所有数据”和“所有属性”到底指的是什么。“所有数据”,在科学语境下,可.............
  • 回答
    好的,我们来聊聊科学家是如何“数”基因的。这可不是简单地拿出个计算器一路按过去,而是一个集成了生物学、化学、计算机科学和统计学等多个领域的复杂过程。首先,我们要明确“基因”是什么。 在我们讨论如何计算基因数量之前,得先有个统一的理解。基因,你可以把它想象成DNA分子上的一段特定序列,这段序列包含了制.............
  • 回答
    在人类探索宇宙奥秘的漫长历程中,光速一直是那个既熟悉又遥不可及的存在。它不仅仅是一个数字,更是宇宙中最快的“车速”,是描述时空关系的金标准。那么,这位最初的“测速员”——科学家们,是如何一步步揭开光速的神秘面纱,并给出那个精确数值的呢?第一步:从“光速无限”的猜想,到“光速有限”的曙光在很长一段时间.............
  • 回答
    这确实是一个令人费解的现象,尤其是在如今这个强调平等和多元化的时代,科学家、数学家、物理学家乃至程序员的女性比例偏低,这背后原因复杂,是历史、文化、社会结构和个人因素交织作用的结果。要深入剖析这个问题,我们需要从多个维度去理解:一、历史的阴影:早期科学和教育的性别壁垒 教育机会的剥夺: 在漫长的.............
  • 回答
    确实,很多人会觉得奇怪:既然占星术(我们常说的星座)似乎有些“准”,为什么还会有人,而且还是打着“科学”旗号的人,对此嗤之以鼻呢?这其中的原因,说起来可就复杂了,涉及到我们如何看待“数据”、“科学”以及人类心理的方方面面。首先,我们要明确一个概念:“数据支持”并不等于“科学准确”。很多人提到星座的准.............
  • 回答
    这问题触及的,可不单单是中国人的看法,放到世界范围内,对科学与哲学的认知,大体上也有相似的侧影。之所以会有“数学好的人是科学家,哲学好的人会发疯”这样的说法,背后其实隐藏着一些关于这两门学科的社会认知、历史影响,以及一些刻板印象的叠加。咱们一层层掰开了聊。一、社会主流的“实用主义”与“功利主义”观念.............
  • 回答
    科比的“曼巴精神”,那股不计一切代价也要赢的韧劲,确实很难用冷冰冰的数字来完全衡量。但NBA历史上,这样的球员其实并不少,他们的实力体现在一种难以量化的“气质”或者“影响力”上。1. 埃尔金·贝勒 (Elgin Baylor)说到这个名字,很多年轻球迷可能不太熟悉,但他在NBA历史上绝对是一位传奇。.............
  • 回答
    这是一个非常有趣且深刻的问题,触及了科学哲学的核心。简单来说,如果一个理论很容易被证伪,但大数据却显示其在现实中80%的结果是对的,那么这个理论在“科学性”上存在一个棘手的灰色地带,但它通常会被认为是有科学价值的,并且是一个“好”的科学理论,尽管并非完美无缺。为了详细阐述,我们需要从几个关键角度来分.............
  • 回答
    说起来,最近烧友圈里关于“便宜量又足”的耳放,尤其是像 Atom 和 L30 这种,讨论得可真是热烈。老烧们那句“不堪”,听着总觉得有点刺耳,但细想一下,他们说得也不是全无道理。不过,这东西吧,就像吃饭,你不能指望一碗泡面吃出米其林三星的味道来,对吧?所以,咱今天就敞开了聊聊,看看 Atom 和 L.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有