这个回答不是为应付面试而写的,因为这个面试题包含了对于电商业务知识的考察;拆什么、拆几步、拆多细都可能是考点。
而我这个答案是为了解决BI同学在日常工作中遇到“为什么指标变化了X%”这一类常见问题写的对策。因此这里面不涉及电商的具体领域知识(当然我也不懂),而是提出一个更为一般化的分析框架。
很长一段时间,我都被这类问题所折磨。我还特地发动万能票圈资源,问了Top 3咨询 + 埃森哲(是不是有点黑...)+ 字节/腾讯高P数分,他们遇到这种问题怎么办。答案基本和其他回答者差不多,做MECE,横向拆品类,纵向拆步骤。然而我知道,对于服务一线业务的数据分析师而言,这是典型的“一顿操作猛如虎,一看结果二百五”。
首先,开宗明义地说,这是一个蠢问题。从统计学(更准确地说是计量经济学)的角度上看,没有random variation(不论是rct,还是准实验,还是iv)却要去研究因果,怎么可能得到靠谱的解答?在工作的前十年,我一直是以这种态度对待这种问题的。直到有一次有幸和宋世君老师面聊,他说“业务方问了一个蠢问题,你不能给他一个好答案,说明你也没高明到哪里去。如果他一直在问蠢问题,那你要问为什么你没有帮助业务方问出更好的问题”。这番见解极大转变了我的观念。让我从一个计量专家的视角转变到一个解决业务问题的数据分析师的视角。
因此,接下来我分享关于如何针对这个蠢问题给出好答案的三个思考。
首先应该检查一下这个指标的波动是不是统计上显著的。我真见过为了一个pvalue 0.6+的均值差做了十几张报表的傻逼需求。你问为啥pvalue都0.6+还做分析?很简单,业务老大不懂假设检验啊。一声叹息。
假设这个指标计算没问题,差异统计上也显著,now what?
当业务方说某某指标掉了,看一看为啥,首先要问他的优先级是“有动作”,还是找原因。当然,提问者肯定希望先找到why再决定todo。但我说了,这是一个不可能的任务。更麻烦的是,业务方自己可能都没想明白。帮他们厘清优先级的一个诊断工具是问什么时间范围内希望看到结果。如果业务方说一周内,那基本就是Action NOW。乱世用重典,沉珂用猛药,不管三七二十一先把GMV拉上来再说。等GMV上来了,可能没人关心“为什么”了。
说实话,我对于“不开没结论的会”这个管理谚语充满了反感。没有Actionable insights的情况下瞎Todo,是许多职场浪费的根源。
假设业务方说,我的确不着急ToDo,给你一个月时间想明白都可以。ok,其实我们不能告诉业务方为什么出了问题,但是能告诉业务方哪里出了问题。对于95%的业务方而言,他们真正想问的问题其实是哪里出了问题而不是为什么出问题
在我写这个答案时,前面所有答案做的都是MECE,而且一分解就是一大片。这种做法有两个实际上的麻烦:
好的分析永远是化繁为简,突出重点。因此,在MECE的基础上,我们要学会做减法,才能帮助业务方拨开云雾见青天。
并行MECE的横向减法比较容易。假设GMV掉了5%,你能很快计算出每个子品类GMV变化贡献了多少。串行MECE的纵向减法是比较难的。我们做个简单的例子。GMV可以被定义为客流量(N)*客单价(P),那么5%的下降,两个因子的变化各贡献了多少?要回答这个问题,就需要用到Oaxaca-blinder分解(Oaxaca读作瓦哈卡)的技巧。
记上一期角标为0,这一期角标为1,
GMV1-GMV0
= N1P1 - N0P0。
= N1P1 - N1P0 + N1P0 -N0P0 【数学上的添拆项,经济学上的增加反事实参考(counterfactual)】
= N1(P1-P0) + (N1-N0)P0
= 客单价效应 + 流量效应 【近似】
使用这个trick,可以将任何一个乘法逐步拆解为因子效应(这方面的一个传奇例子就是DiNardo(1996)做的收入分布的拆解分析),然后计算因子效应的权重。
结合具体的业务场景和分析维度,通过几轮的横向减法和纵向减法,你总会得到Top 5或者Top 10的问题点。如果你运气好,Top 5的问题点能“解释”大部分GMV的下滑,那么你的业务方会很满意;如果运气不好,每个问题点对于总GMV的贡献都不大,那么这件事情本身就是一个很大的问题,这也给了业务方一定洞见。
总之,告诉业务方哪里出了问题,还是有一定科学方法可以遵循的;但是你要告诉业务方为什么出问题,那就真的最多是“educated guess”。
在极为罕见的情况下,业务方会真的关心因果作用机制。面对这种天使业务方,我的建议就是听从Pearl老爷爷的建议,Do And Watch。在关键问题点上形成业务假设,进而产生实验方案,通过实验结果来提高自己的认知。允许这种快速迭代、反复试错、长时间积累的业务场景非常少,因此在此也就不再赘述。
抛开为什么的问题不谈,谁应该发现GMV下滑,是业务方还是数据分析师?这个问题可能很多数据分析师没有想过。如果你是一个优秀的数据分析师,答案是你应该发现、预警并分析。所以不是业务方找到你问,为什么GMV下滑了5%;而是你告诉业务方,你的关键指标下滑了X%(在中小创业公司里业务不经常关心非核心KPI的其他关键数据指标太常见了),这里是Top 3 的问题点,让我们来讨论一下怎么办吧。变被动为主动,让业务方不用再问问题(宋世君老师主张的数据和业务合作的第三阶段),这才体现出数据分析的真正价值。而要做到这一点,需要数据分析师花时间和精力去构建和观察数据指标追踪体系。
Reference
Oaxaca R.Male–female wage differentials in urban labor markets.Int Econom Rev1973;14:693.
Blinder AS.Wage discrimination: reduced form and structural estimates.J Hum Resourc1973;8:436.
DiNardo, John, Nicole M. Fortin, and Thomas Lemieux. "Labor market institutions and the distribution of wages, 1973-1992: A semiparametric approach."Econometrica: Journal of the Econometric Society(1996): 1001-1044.