完美拟合就像真空当中的球形鸡一样,如果真空中的球形鸡真实存在于这个世界上,那么阿里的这份销售额就是真实存在于这个世界上的。
看完这些回答我好害怕。
在知乎诸位数据科学从业者的眼里,只有直接写个错数字才叫造假。
价格设陷阱不算造假;
奇妙的退货规则不算造假;
变化莫测的红包发放和红包使用条件不算造假;
购物车锁定不算造假;
这些都叫——完成 KPI
个人感觉,像这样的罗生门,我们万万不能被别人牵着鼻子走。思路被人带跑了,就很被动了。
至少我看到的讨论里面,大家还都围绕着“拟合的这么好到底合不合理”这个角度来讨论,有的人认为拟合的这么好一定是造假,也有人辩驳说,时间序列里面的R2非常高是很正常的现象,并列举了亚马逊、黑色星期五的例子,都非常有意义。
但是,这些例子再多,也打消不了别人的疑虑:因为拟合的实在太好了!
所以要回答这个问题,我们必须得另辟蹊径。
我们可以试想一下,如果淘宝的确是按照三次方的函数关系伪造数据的话,那么有一个推论是:伪造的数据不可能跟任何实际数据有可解释的相关性。
所以,我们只要找到淘宝的双11数据与现实数据是否有相关性、这些相关性是否合理,就大概可以判断他们是否造假了:如果真心找不到任何数据能够佐证双十一的销售数据,那么几乎一定造假了。
当然反过来,如果我们找到了其他数据能够佐证双十一的销售数据,我们当然也不能说他们就没造假,只能说现有证据不支持他们造假的结论,如果你们说他一定是造假的,那么造假也造的挺有水平的。
在科学中,证伪一件事情总是比证实要简单,所以我们就来看看,我们能不能证伪“双11数据没有造假”这件事情。
所以我找了几个简单的数据:GDP、社会消费总额、CPI,这几个变量应该是根双11最息息相关的了:收入越高,双11消费越高;社会消费总额显然应该与双11有高度相关性;CPI越高,消费应该越低。
如果我们发现,这三个变量都跟双11的销售数据没有相关性,那么拍脑袋造假的可能性就很高了。
废话不多说,先看看数据,国家统计总局的数据:
我们不妨先画个图看看,不过毕竟几个数据的规模差别很大,我们把所有数据都除以其2009年的值,从而所有数据在2009年都是从1开始,就有了下面这张图:
看起来非常不符合直觉,造假石锤。且慢,双11从2009年到现在,从小规模做做到变成了今天所有商家参加的全民活动,规模增长快也是可以理解的。跑赢GDP并不算什么,所以这并不是什么直接的证据。
那我们去趋势看看呢?去了三次方的趋势之后,有了下图:
同样的,由于双11的增长的确太快,残差都dominate了其他几个变量,啥也看不出来。
其实最好的一个处理方式是先取对数再预测,这也是经济学和统计学里面常用的做法,我们取对数之后再用三次方拟合,得到了如下的图:
大概能看出一些端倪了,特别是CPI,好像有一点点负相关的关系。这个时候似乎对他们造假的质疑应该有点动摇了。
那么如何统计上检验呢?我们不妨做个回归看看。我们首先拿上面取过对数的数据对时间做三次拟合,得到残差,然后对残差进行分析。不过对于时间序列数据,做回归之前要先检验平稳性,我们使用ADF检验检验了各个变量的残差的平稳性,都挺平稳的,可以放心地做回归了,回归结果如下:
可以看到,F统计量勉强过关,不过双11销售额与社会消费总额正相关,与CPI强负相关,看起来还是非常符合直觉的。
当然,在时间序列中,通过确定性方程去趋势总是有点不舒服,因为总是会感觉随机趋势没有去除干净,那怎么办呢?我们不妨继续按照经济学的套路,先取对数,再求差分,检验平稳性,最后回归。
取对数差分之后的图:
看起来取对数差分之后双11的销售额还是有点趋势的,增长率有减少的趋势,这也是可以想象的。考虑到这一层,我在回归里面额外控制了趋势项,并检验残差的平稳性以保证变量之间有协整(cointegration)关系,结果如下:
我分别尝试了使用2次和3次多项式作为额外的控制以排除趋势,最后检验残差有没有单位根,都没有单位根意味着残差平稳,所以有协整关系。
最后得到了同样的结论,双11销售额与社会消费总额正相关,与CPI负相关,甚至与收入都可能有正相关关系。
所以,至少从现有证据来看,并不能认为双11的销售额数据是完全造假的,证据并不充分。所有的现象都在可以理解的范围以内。
如果造假,那造假手段也算高超:都考虑了全社会消费额还有CPI呢!!
spurious regression/样本过少什么的根本不是重点呀…
这可是单次的数据,shock肯定比人口/GDP/消费这种年度数据要大得多。可是居然能如此平滑,一点error也没有。
大概只有两种解释,要么是造假,要么如高赞所说,KPI指标就是按照这个模型制定的。
经济学中确实不太看重R-squared(拟合优度),因此这些科班出身的朋友们对这种级别的R-squared不够敏感也是可以理解的。如果加入今年的真实数据(2684亿),设置三个参数进行回归,那么R-squared为0.9996;而如果今年的数据在2267亿至3172亿之间,那么进行同样的回归得出的R-squared依然超过0.99.
而如果跳出计量经济学的框架,并不试图去理解数据、分析机制时,我们会看到设定简单的参数就能对数据拟合得如此漂亮,这大几率能够反应双十一的销售额确实存在某个明确的目标。当然,当我们无法获取具体分时数据时,很难从最终的总数据上去区分是完成既定KPI还是造假。
补个回归结果的图吧。
如果使用相同模型(3个参数),采用2009至2017年的数据,可以估测出2018年和2019年的销售额分别为2143亿和2683亿,而实际为2135亿和2684亿。 @司马懿
双十一销量本来就是一个可以任意调控和操纵的数据。
首先是双十一销售额的确认标准,是按照付款时点计算还是拍下时点计算,是按照券后价计算还是券前价计算,是否包含运费保险?这里面都有大量的调整空间。
其次是是否有大量消费被提前透支或押后集中释放?不同于财务报表,双十一不能体现连续的财务表现,双十一前后的数据很可能产生较大的变动,但是都在这一天集中释放了。只要符合收入确认条件,财务数据通过业务手段跨期调整在形式上不属于财务造假,但这样显然是挖东墙补西墙,通过双十一gmv占全年gmv比值应该可以看到。
指数增长显然是有天花板的,如果双十一保持指数增长,但占全年gmv没有越来越高,那么势必年度GMV要保持指数增长,那阿里很快就能成为宇宙第一大公司了。
第三是这个指标如陈老师所说的,会受到kpi体制的塑造,它会呈现出高度拟合,可能本来就是kpi这么定。而这么定kpi的原因,则可能是流量争夺,挤压竞争对手,提高影响力等多方面的战略考量。如果不这么制定双11,可能也不会发展的如此之快。
双11这个数字游戏长期保持这样的指数增长显然是不可能的,但是这个数字游戏就是用来不断压榨员工和供应商潜能,让阿里能够迫使其他列强跟着自己的节奏起舞的有力武器,如果以上市公司财务报表级别的口径和财务信息质量进行连续披露,这个数字恐怕不会那么的好看。至少买阿里股票不能看这个。
本科学的经济学,不做经济学已经好多年了,先用三张图抛砖引玉一下:这是一个宏观计量经济学中比较典型的“伪回归/伪相关”问题(spurious regression/spurious relationship)。[防杠:我还在做民意测验和政策评估的统计学,因此请不要先入为主地认为作者缺乏统计学常识]
知乎上学计算机的比较多,很看重所谓的“训练集”“测试集”问题。那就再多说两句,宏观数据的性质就是这样,如果没有结构性变化相对容易预测,只要关注世界各国(不仅仅是中国)对于各国经济增长的预测即可,比题主贴文里的预测准多了。一般来说,宏观经济学家对于平常年份的经济增长预测比作者准多了,大家诟病预测不准只是说金融危机即结构性变化预测不准而已。
-----------------------------In Response to 知友@Lee Sam -----------------------------
Lee Sam尝试用历史数据做回测的想法很好,可惜用三次方模型来预测Black Friday Sales并不公平。因为Black Friday Sales的数据生成过程很可能是线性的,如果研究者用09-13年五年的数据去估计一个三次方程,当然对线性增长存在过拟合的问题。换言之,用09-13年的数据估计回归方程的时候,二次项和三次项的系数是不稳健的,但预测的时候你有一当一地用,当然会出问题。
如果按照知友 @Lee Sam 的方法错误地使用三次方程(天蓝线)来预测,用09-13年的数据去预测18年的销量,误差的确超过了10%,但同样的数据用线性模型(深蓝线)去做,误差是4.1%,和Lee Sam所谓的阿里巴巴的“预测”误差2%-3%大致相当。
参见下图:
数据来源:How Much Do Americans Spend on Black Friday?
知友 @Lee Sam 计算的阿里巴巴双十一预测相对误差附下方便参阅比较
---------------------------------再答知友问:---------------------------------------
一共才10个点,如果用十个参数的回归模型拟合,拟合度能高达100%呢,敢画置信区间看看么?
数据能拟合一个简单的模型就是造假吗?那人口数据拟合得更好,岂不是实锤造假?对了我忘了确实有人每年都在说人口数据造假……
诚然,经济数据完美拟合模型不那么容易,但对于双十一这样的数据来说,反而更容易理解——因为任务目标就是这样的,那就完成任务。
事实很可能是——阿里在双十一上有自己的KPI,而KPI是用简单的指数增长算出来的。有了KPI,再层层分解,不断测算完成可能,想尽一切办法,压榨商家也好,预售期提前也好,锁定购物车只能双十一当天下单也好,都是完成KPI的手段。最终完成了KPI,和造假也没什么关系。
另一个例子是中国的数据,很多人一直吐槽国内地方政府GDP之类的数字不真实,因为数字增长非常平稳,比如《蝙蝠侠黑暗骑士》里说的那样。
但政府本身就以GDP为目标,最后完成这个目标,不是一件很正常的事情吗?我接触到的一些地方政府,在前几年仍然考核GDP的时候,最后三季度发现数据不行,那四季度赶紧就得提前上马一些投资,招商引资要再勤快一点,工作会议上再催促压缩一下项目的签约时间。
这都是为了最终完成GDP目标的一个正常工作,这么多年来中国经济增长保持这个平稳增速,完成这个KPI,地方官员是要尽到120%的努力的。换到阿里这样的企业上,这个任务完成只会更精确。
而区别在于,目前中国政府层面可能已经不考核GDP了,因为人们已经发现为了完成这个KPI所做的扭曲市场代价有些大。但阿里仍然在继续使用这个KPI,并且为了完成这个KPI付出大量努力。
所以真正的问题应该是,在目前国内消费增速放缓的大前提下,用各种手段扭曲消费,保证双十一这个KPI的完成,代价会不会太大?最后是让人们把一年的东西放在一天里面下单,还是让消费者买了很多不需要的东西?如果为了完成KPI过度扭曲了人们的正常消费,甚至产生了对消费的挤出,那可能就有些得不偿失了。
水?谁?税!!!
去查税!
吹牛只要交税,国家也承认你吹牛的数据。
谁查查11月每年交了多少税?
这种现象的成因高赞答案已经说的很好了,我只是想吐槽一下这种想法的逻辑问题。
属于小概率事件,在实际生活中几乎是不可能发生的事。因此可以断定,阿里为了吸引双十一的购物热度,对销售额数据进行了人工修饰,存在造假事实。
听说某件事时,因为这件事发生的概率小,就认为这件事是假的,这种逻辑本身是没有道理的。举个例子,学过高中数学的都知道,闭着眼拿粉笔往黑板上扔,击中任意一个点的概率都是零,我现在往黑板上扔了一次,击中了一个坐标为(x,y)的点。我跟你说了这件事,然后你告诉我因为击中(x,y)的概率是零,几乎不可能发生,因此断定我在撒谎,存在造假事实,你这不是杠精是什么。
事实上,这种想法属于概率的滥用,概率不能用来否定已经发生的事。还是高中数学的内容,老师讲概率定义的时候会提到,一件事发生的概率是p,是指独立重复很多次实验之后,这件事发生了的次数占总实验次数的比例稳定在p。对于每次实验,其结果还是确定的。概率是可能性的度量,但它并没有否认每次结果的确定性,更不能作为否认已经发生了的事的证据。
我们可以用概率评估一件事发生的可能性,但记得要用条件概率,并且条件尽可能全面。举个例子,现在的NBA西部排行榜上,前几年的王朝球队、拥有库里和汤普森的勇士排名倒数第一,你可能觉得难以置信。但当你知道库里和汤普森都受伤这一情况之后,这个事实就容易理解了。拿双十一这件事说,我们之所以会觉得销售额完美符合曲线是小概率事件,是因为平时生活中很少见到这种符合模型的真实数据。但跟淘宝这种大公司、双十一这种大型零售促销活动相比,我们日常生活中见的那些数据有多少参考和借鉴意义呢?所以如果不考虑具体场景和条件,就会很容易被不相干的生活经验干扰了自己的判断。
想要知道淘宝双十一历年销售额被模型完美拟合的概率,需要有很多很多个有淘宝和双十一的平行世界,统计一下这些平行世界里销售额跟模型的match情况,计算一下比例,这个肯定是做不到的。我们只能设淘宝双十一历年销售额被模型完美拟合的概率为p,然后用相似的场景去估计,比如看看Amazon促销日的数据能不能拟合、中国和美国的零售额能不能拟合等等,根据这些场景的结果去不断修正我们对p的估计,给出一个在当前条件下置信度比较高的p的范围,这其实就是贝叶斯那套思路了。 Sean Liu的答案里面提到,Amazon促销日以及中美销售额的数据都是跟模型完美拟合的,再加上淘宝双十一,如果我们用贝叶斯的方法去推断p,你会发现p更可能是一个比较大的值,这就说明在这段时间范围内,国家尺度下的大型零售促销活动的销售额大概率就是跟这些模型match的。因此对于淘宝双十一,销售额随时间有这样的规律不是小概率事件,而是大概率事件。
即使淘宝双十一出现这样的规律是大概率事件,我们也不能据此就说淘宝没有造假,否则就是犯了跟上面一样的错误。想要估计淘宝有没有造假,我们应该直接估计淘宝造假这一事件发生的概率,这一点同样需要用条件概率的思维去想。推理小说里的侦探在找凶手时,往往会从每个嫌疑人的杀人动机出发,动机越大嫌疑往往越大,这里的动机其实就是条件概率的体现。杀人本身是小概率事件,但当某人能因为被害人的死去获得巨大的利益,有了作案动机,他的杀人概率就会大幅增大。同样是杀人,在凶手是这个人的条件下就比凶手是别人的条件下概率要高。
再举个例子,A在网上说自己是千万富翁,B在网上说自己中彩票得了一千万,谁撒谎的概率比较大?千万富翁这个事件发生的概率显然比中彩票得一千万的概率大,因为后者是前者的子集,但我们不能因为P(身家千万)>P(中千万彩票)就判断P(说谎|声称自己身家千万)<P(说谎|声称自己中千万彩票)。事实上,谎称自己身家千万能够包装自己的形象,贩卖成功经验和鸡汤,为自己牟取名利,而谎称中千万彩票似乎就没什么额外的好处。因此我们推测P(说谎|声称自己身家千万)>P(说谎|声称自己中千万彩票),因为前者有更强的动机。
回到淘宝这件事,作为中国最大的电商,在双十一销售额上连年数据造假使其符合模型的动机是什么呢?对淘宝有什么好处呢?我目前是看不出来,因此我认为淘宝造假的概率是很低的。事实上,淘宝造不造假并不重要,只是希望更多人在怀疑和推断的时候能有更合理的方法和依据。也有可能过两天淘宝发个声明说对不起我们确实造假了,但即使那样我也不觉得自己被打脸,因为如果淘宝造假肯定也是出于我不知道的原因,推断出错是因为掌握的信息不全面而不是方法有误,就像不知道库里汤普森受伤的勇士球迷会估计球队开赛连胜一样。但是如果你因为勇士队衣不好看判断今年他们开局会连败,即使结果说中了也不露脸啊。