百科问答小站 logo
百科问答小站 font logo



你的知乎 2019数据报告里有哪些有意思的数据? 第1页

  

user avatar   divinites 网友的相关建议: 
      

我其实一直在想一个问题,如何度量自己写作的「效果」。单篇的数据是随机的,但是以年为单位衡量,总还是能看出很多的端倪。

今年知乎的官方数据报告里面,重在「参与」和「阅读」这两个方面,包括好奇词之类,都是展示自己曾经看过的,而非写过的词。和去年重输出不同,今年关于写作相关的就两个数据:总赞同和总回答/文章数。

像我的就是120篇答案,110,000+个赞同。早年还没有创作者中心的时候,有一个朋友用外链图片的方式检测出赞和阅读对应的关系,大约是知乎的一个赞,相当于100个阅读,也就是1000赞=10万+。是不是这样的呢?我调出来了今年一年后台的数据, 今年后台显示,大致来说是每78个阅读会带来1个赞。

对比2018年的数据,是111篇答案, 11,474,940个阅读,96885个赞同。我对2018年和2019年的平均阅读数进行了双边T检验,p值在0.76左右,不能拒绝零假设,可以认为2018和2019年,写作的「效果」是差不多。但是即便如此,数据依然和我的感觉不符合。

然而我总体的感觉,今年我写作的效果应该比去年「好」,但是上面的数据分析显然不支持这一点。难道是我的直觉错了?

和很多书上写的「数据会纠正人的直觉」观点不同,我认为直觉一般是有道理的。如果数据做出来和直觉不一样,那应该去反过来去看数据,而不是急着修正自己的观点。因为很多时候往往是因为数据分析忽略了某些方面,才得出了和直觉不同的结果——所以我们要尽量找出直觉的合理性所在。只有实在解释不出来,才考虑去修正自己的观点。

于是我把目光投向了阅赞比,有意思的事情来了,2018年的阅读赞同比的平均值为118,而2019年的阅读赞同比为78. 双边T检验的p值为0.03不到,在0.05的置信水平上显著。说明2018年的阅读赞同比高于2019年。同一个赞背后的平均阅读,在2018年是118个,而在今年是78个。所以体现在数据上,就是赞变得更多了。也就是尽管答案的阅读都差不多,但是阅读只在后台能看到,而赞是即时的反馈,所以我会认为「应该比去年好」。


上面是2018年和2019年阅赞比的分布函数,红色为19年,黑色为18年。这个图非常有代表性,几乎所有的频率分布:赞同,感谢,评论,阅读,都是同一个形状。肉眼可见的性质就是,无论是2018年还是2019年,都是一个正斜度的分布,也就是平均数高于中位数的分布。从数据上看,每个答案的平均赞数大约平均为1000左右,但是显然有一半多的答案是不到1000赞的。通俗的说,平均数是由相对较少的高流量帖子拉起来的,以今年数据为例,120篇答案中,阅读量10W+约为24篇,5W+约为45篇。

从上面的图中可以看出,尽管都是以少数拉多数,但是红色线明显距离均值要更近,所以「斜度」应该更低,事实上,2018年我的阅赞比斜度是8.80;而2019年的阅赞比斜度是2.50。所以2019年,我「比去年好」的感觉,很可能也来自于斜度的降低——有更多的答案更加靠近均值了,也可以说发挥更加稳定了。

这种对低斜度的偏好与否,在经济学上对应的是效用的三阶导数,称为「谨慎」。倾向于高斜度,意味着宁愿要大部分低于平均,也不愿意接受有非常差的结果;而倾向于低斜度乃至于负斜度,意味着倾向于大部分高于平均,可以接受一小部分非常差的答案。

我的感觉的测量发生在数据分析之前,没有受到数据分析的影响,所以这种对低斜度的偏好应该是天然的。所以我不是一个经济学意义上「谨慎」的个体。

现在数据分析有了,我们就需要找一个理论来支持它。

这种斜度的下降原因是什么呢?很可能是因为知乎站内引入了「置顶关注」所带来的。在没有被置顶的时候,关注者是否看到被关注者的内容,在不考虑推荐推送的情况下,只和关注者所关注人的总数,以及关注者的活跃度有关;而引入了置顶关注之后,点赞倾向比较强的关注者往往也是容易置顶的关注者;这两者之间的关联意味着:那些更喜欢给你点赞的人会更有更多的机会看到你写的文章或者答案。所以这意味着对于非热门答案而言,其平均获得的赞数要比去年更高。所以「置顶关注」这个机制的存在,让低赞答案的平均赞数,更加接近总平均值,体现在宏观的统计上,就是斜度下降了。

置顶关注还带来一个结果,就是阅赞比趋势的逆转。

高赞答案的阅赞比在传播中,受到两个力量的影响:

  1. 因为是高赞答案,所以必然存在「更容易让人赞同」的特点;所以高赞答案的阅赞比应该低才对,平常100个阅读一个赞,高赞答案应该50,60就可以可以有一个赞,要不然凭什么这个是高赞呢?所以赞越高,阅赞比也应该越来越低;
  2. 因为高赞答案传播更广,所以越传播,看到的人不是关注者的可能性越大。这意味着越传播,越难以获得人的赞同——毕竟关注者之所以关注你,就是因为在某些方面和你比较接近,而非关注者从概率上,接近的概率较低。所以随着赞越来越高,阅赞比会越来越高。

所以阅赞比可能随着赞数的增加越来越高(2效应大于1效应),也可能阅赞比随着赞数的增加越来越低(1效应大于2效应)。

在出现了置顶机制之后,1被大大增强了。一开始是自己的置顶关注者点赞,阅赞会比较非常低,可能20到30个阅读就会有一个赞,然后逐渐传播到了更大的受众,这些受众很多人可能是有反对意见的,所以最终往往需要200,乃至于300个阅读,才会有一个赞。所以可以预测,这种机制下,阅赞比会逐渐增加。数据分析也证实了这个猜测(为了避免极端数据的绑架,我对阅读和赞同都取了自然对数):


而在18年的机制下,尚没有「置顶关注」的说法,那么这些潜在的「置顶关注者」能及时阅读到的机会大大降低了,所以如果我们的猜想成立,那么18年阅赞比随着赞数增加的斜率应该远远低于上图,甚至于是负的。数据结果呢?Amazing!

完全符合我们的理论预测。


user avatar   long-ya-57-84 网友的相关建议: 
      

当场就有点震惊!


拉萨啊,好歹也是个省会,这怎么能眼瞅着就连好多好多地级市都不如了呢?中国目前一共333个地区级行政区,加上34个省会级城市,367个。你身为省会,至少在知乎的活跃度上排名严重低于大多数地级行政区。


当然了,这只是一个网站、一个APP而已,说不定拉萨的抖音活跃度要高于别的地方呢?我手头没有数据,因此不敢说。


如果能够拿到几个流量最大的网站的“地方活跃度”排名,或许能够根据互联网的活跃度分析本地经济活动与社会结构方面有关的信息。希望有X大的同学能帮我。


user avatar   wang-rui-en 网友的相关建议: 
      

提出了 46 个问题,提问总共浏览量超过 900 万。希望在新的一年,能发起更多有价值的讨论:一个人的知识储备总会有边界,但如果能提供一个激发讨论的火花,那么收获的知识就不会再因为个人的局限而有尽头。

送出了八百多个感谢,最多的赞同给了 @TEDCJK ,最多的感谢给了 @一丁 。我赞同那些在面临争议时,敢于运用理性和专业知识给出解答、不为了迎合大多数而随意改变立场的人,我感谢那些能在相对小众的领域坚持耕耘的创作者,他们用扎实的检索和分析,把冷知识捂热(例如一丁的传统艺能就是法制史,虽然现在愈发跑偏,笑)。

平均每天浏览问题超过 150 个,这是什么水平? 希望开发防沉迷系统:

带货影响了超过四万人,但依然赶不上李佳琦直播一刻钟的效果,明年希望成为更优秀的种草博主:

获得约 65 万赞同,每篇回答平均获得赞同超过 2000。

从关键词来看,果然是习惯性追热点。追热点不可耻,舆论的阵地总要有人占领的,为什么不能我来占领呢?还可以顺便夹带点「私货」,聊聊想分享的东西。也有的时候纯粹是因为看不下去而「激情回答」。

也很期待大家分享自己的 2019 数据,发现细节中的魔鬼==


user avatar   bingo-liu-66 网友的相关建议: 
      

这个问题问得太有槽点了,我给你们比较一下这两个历史时期,你们就知道槽点在哪了。

假如你用朱温代唐来作为五代起点的话,那么后梁开国是907年,北宋开国是960年,北宋灭北汉是979年。

然后曹魏篡汉是220年,司马篡魏是266年,西晋灭国是316年,然后北方五胡十六国一百多年,再然后才是南北朝。

发现问题在哪了么?

问题就在于“魏晋南北朝”与“五代十国”在时间长度上根本就不是一个量级的好吗?你认为五代十国碎片化,那么请问难道早期三国、五胡十六国时期就不碎片化了?你不能从一个几百年的时间长度里拎出来相对比较完整的时期,然后跟只有几十年长度的五代做比较,问为什么五代更碎片,这是没道理的。假如你非要比较一下这两个历史时期的异同,你首先应该问的是:“为什么魏晋南北朝会分裂这么久”(实际上,这确实是个很值得探讨的问题)。


好了,槽我吐完了,下面讲点干的。

实际上,五代十国看上去更碎片化的主要原因,是南方的分裂。因为在魏晋南北朝时期江南基本上一直都是一个统一的政权,所以等到了五代这,南方裂成好几块看着就比较诡异。

那么这是为什么呢……

很简单,开发度不同啊亲!

汉代南方的开发程度是非常、非常、非常低的,你以为孙策据有江东是整个江南都在他的控制之中么?不是的,孙吴政权的精华就在长江沿线,当时南方大片地区还处于未开发状态。

岭南地区直到宋代都是典型的“欠发达地区”,所以根本的问题在于魏晋南北朝时期的南方根本没法分裂成那么些个小国……你看看南汉的地盘,在魏晋时期那有几个人?

在南北朝末期,北周灭北齐时大概有户三百五十九万、口近千万;北齐有户三百零三万,口近两千万。那么南陈呢?

户五十万。

所以传统概念中的“江南富庶”不是整个长江以南都很富庶,而是江南地区的苏州扬州等几个地区非常富庶,其他地方属于被代表、被平均的那个。刘宋大明8年时扬州有24万户,人口总数接近当时刘宋总人口数量的1/3[1],唐代耕耘了几百年,才慢慢把南方经济发展起来的。

在开天时期,天下还是这个样子的:

你再感受一下这个人口密度

然后到了北宋时期,这个人口密度终于算是上来了

所以说五代给人一种“更加分裂”的感觉,从本质上来说是因为南方的开发度高了,住的人更多了,经济也更发达了,所以就能够同时出现好几个小国了。三国时期孙吴还在卖力地开荒拓地,甚至从南方深山老林里抓野人去屯田,而到了唐代末期这些野人的后代终于成为了农民(当然,也可能是死光了,换了一波人),能够愉快地建个小国了!

相比之下北方的兄弟们就比较悲惨一些,一千多年了该怎么内卷还怎么内卷,该怎么互殴还怎么互殴。

啊,果然是一个历史时期的出现,不仅取决于当时人们的努力,也要看历史的进程……

参考

  1. ^ 梁方仲:《中国历代户口、田地、田赋统计》



  

相关话题

  深圳卫健委回应公号被投诉低俗博流量,称「会适当收缩尺度」,如何看待此事? 
  知乎未来是否会步微博后尘,充斥漫天广告和写手红人僵尸粉? 
  如何看待360公司上市不到一年股票跌入深渊,股价接近质押平仓边缘? 
  为什么马云可以指挥中国顶级的中国爱乐乐团? 
  如何看待中美个人电脑渗透率相差 70%? 
  这一次 TikTok 事件,为什么大众对微软没什么抵制情绪? 
  如何评价丁真入选「2020 十大旅游事件」? 
  有谁知道中国18家是什么吗? 
  如何评价《支付宝否认参与扎心文案,基金公司:就是他们搞的》? 
  在知乎你见过哪些明显抱团点反对的问题,对社区有怎样的影响,你有什么好的建议? 

前一个讨论
在你的专业,哪些「学科常识」可以有效识破相关「智商税」?
下一个讨论
数学里的 e 为什么叫做自然底数?是不是自然界里什么东西恰好是 e?





© 2024-05-13 - tinynew.org. All Rights Reserved.
© 2024-05-13 - tinynew.org. 保留所有权利