百科问答小站 logo
百科问答小站 font logo



如何看待zhihurank这个网站?基于网站数据可以得到怎样的信息? 第1页

  

user avatar   wang-ping-25-67 网友的相关建议: 
      

其实我觉得是知乎想做一个扁平性质的知识平台,不同类别,不同地域,不同类型的知识都会有,让每个用户都能找到他的那个区块。

用一个统一的标准来排名,那么就会导致热门的行业,类别充满了水贴,那些冷门的,但是仍然值得存在的知识区域依然能够在。


user avatar   jiafeili 网友的相关建议: 
      

引子

作为知乎的忠实用户,我一直都对自己在这里的各项排名很感兴趣。


之前看 @路人甲 大神爬过很多知乎用户的数据,也把用户进行了一下排名。 @贱贱 前几天的文章就谈到了这个数据。

不过数据好像有段时间没有更新了,挺遗憾的。


那 Zhihurank 的出现,很好地满足了大家的好奇心。各位知乎用户不仅可以看到自己的排名,更能看到自己的粉丝的增长情况。可以说是一个非常好玩、实用的功能。现在看到网站因为侵权暂时关闭了,还是有点惋惜的。


凑巧的是,我大概一个月以前,出于学习 Python 的目的,也写了一个脚本,爬取了一些我感兴趣的知乎用户的四围,也就是赞同,感谢,收藏,粉丝这四项数据。从某种程度来说,和zhihurank有点类似。在此和大家分享一下结果,也请各路程序员大神多多批评指正啦!


数据采集

首先,和 Zhihurank 类似的是,我这里收集的也是每小时的用户数据


具体来说,时间是从北京时间 2018年1月16日 14:20 开始,到写这篇文章的时间,也就是北京时间 2018年3月2日 06:20 为止。


覆盖的用户呢,抱歉只有以下几位...


        [1] "李佳飞"     "路人甲"     "李雷"       "十号胖狐狸" "温义飞"     "豆大福"      [7] "山羊月"     "司马懿"     "Richard Xu" "Orz辉"      "星日马"     "何明科"     [13] "黄继新"     "钱粮胡同"   "Manolo"     "Nash Lew"   "慧航"       "扣小米"     [19] "晓风残月"   "陈茁"       "chenqin"    "张佳玮"     "梁边妖"     "改之理zcw"      


出于行文简洁,就不一一@了。如果里面有您的话,说明您是我非常关注的大V!就把下面的分析报告当作粉丝福利好了。如果没有您的话,也没关系。文章末尾会留下我的联系方式,我也可以把您加到这个观察名单里面。


和之前 @路人甲 做的稍有不同,通过每小时爬取用户数据,我可以对用户各项指标的增长有一个更好的了解。但是我这边的数据量就比 @路人甲 小很多了,现在只分析了上面 24 个用户。。。


话不多说,下面是一些分析的结果~


数据分析

首先,给大家看一下数据集里面,各位用户的各项指标,截止到写文时为止:

里面的(upvote, thank, archive, followers)分别代表(赞同数,感谢数,收藏数,粉丝数)。

最后的一项是指数据的采集时间,CST是指中国的时区(China Standard Time)。


按照赞同排名:

       user  upvote 张佳玮  4513773 山羊月  654692 十号胖狐狸 614237 李雷  594841 路人甲  516943 梁边妖  434176 何明科  317235 温义飞  297633 chenqin  290895 Orz辉  239693 司马懿  144316 Manolo  123593 改之理zcw 121598 Richard Xu 99549 慧航  90762 黄继新  82996 星日马  55086 豆大福  47580 扣小米  47111 陈茁  40559 钱粮胡同  31963 Nash Lew 16788 李佳飞  15777 晓风残月  8977     


按照粉丝数排名:

       user  followers 张佳玮  1558623 黄继新  825821 梁边妖  640091 chenqin  398284 何明科  223332 路人甲  214636 李雷  175435 慧航  159285 温义飞  145133 山羊月  135275 司马懿  105962 Manolo  81076 十号胖狐狸 78007 Richard Xu 58743 陈茁  48019 Orz辉  47989 钱粮胡同  47056 改之理zcw 45630 扣小米  37897 星日马  35658 Nash Lew 20325 豆大福  18429 李佳飞  9673 晓风残月  7045     


大概是这样一个情况,按照收藏和感谢的排名就不列了。这个列表里面都是我很喜欢的用户,你没关注哪位的话,赶紧去关注吧。(趁机帮各位涨一波粉,不用谢~)




下面来看一下诸位用户的粉丝增长

图片可能有点小,不知道大家能不能看清楚。为了方便展示,我把x轴的时间坐标省略了。各位涨粉的势头还是很凶猛的!


观察:

  1. 很多用户的粉丝都呈现一种阶梯式上升的趋势,很可能是在更新了答案、文章之后,或者是这些内容被编辑推荐以后,在短时间内得到了大量粉丝的关注。
  2. 经济学话题的不少用户,如 @慧航@扣小米@豆大福@陈茁@司马懿@星日马,包括我自己 @李佳飞 在内, 都在同一个节点有一个显著的粉丝增长,大概是在2月19日 14:20 左右。其他话题的用户则没有观察到这一趋势。

    想了半天,有可能和 @iGuo 的这篇推荐的回答有关系:

    知乎现在还有哪些值得关注的学术输出?

    看了这篇回答的最后编辑时间,是2月19号—— 初步符合我的判断。




我还计算了一下大家这段时间平均每小时的涨粉速度,排名如下:

       user  follower_growth 张佳玮  41.69 梁边妖  34.07 chenqin  14.56 Manolo  14.15 山羊月  9.85 司马懿  9.8 何明科  8.2 路人甲  6.67 李雷  6.47 黄继新  5.6 温义飞  5.06 Richard Xu 4.9 慧航  4.24 陈茁  4.07 星日马  3.34 扣小米  2.69 豆大福  2.45 改之理zcw 2.32 Orz辉  2.08 钱粮胡同  1.76 李佳飞  1.22 十号胖狐狸 1.18 晓风残月  0.55 Nash Lew 0.34     

做完看了一下,还以为自己弄错了。


排名第一的张公子 @张佳玮 ,平均每小时粉丝数增加 41 个,也就是平均每一分半涨一个粉丝。不知道张公子能不能现身说法,跟大家分享一下这个数据是不是准确。后面的 @梁边妖 自然不用说,知乎的数据帝 @chenqin 和经济文献帝 @Manolo 每小时也能达到两位数的粉丝增长。成绩还是非常优秀的~


嗯,相比起来,我的数据是 1.22 个...唉,不说了,多说都是泪!!!




类似的,下面是每小时赞同数的增量排名:

       user  upvote 张佳玮  130.375 山羊月  64.492 Manolo  17.075 李雷  14.678 梁边妖  14.662 路人甲  14.519 温义飞  13.842 十号胖狐狸 10.97 chenqin  10.236 星日马  9.58 司马懿  8.086 何明科  5.978 Orz辉  4.26 Richard Xu 2.781 改之理zcw 1.847 慧航  1.757 豆大福  1.222 李佳飞  0.907 陈茁  0.887 钱粮胡同  0.708 黄继新  0.679 扣小米  0.289 Nash Lew 0.2 晓风残月  0.086     

@张佳玮 张公子的 130 多依然高居榜首。 @山羊月 是能够批量输出高赞回答的一位答主,以 64.5 的成绩排名第二。恭喜二位~




做到这,我还想到一个好玩的问题,就是知乎到底存不存在所谓的马太效应?就是说,按百分比来说,大V涨粉的速度比小V来说是更快还是更慢?


比如说,一个已经有100k关注者的大V,和一个只有1k关注者的小V,如果两人都是每天增加100个粉丝,那么对于前者来说是0.1%的日增长,而对于后者则是10%。


那么,假以时日,或许小V也有能超过大V的一天啊!!!


嗯,小V如我似乎看到了一点希望。赶快看一下数据。


下面是每日粉丝增长速度的百分比,排名如下:

       user  daily_follower_growth(%) Manolo  0.465 豆大福  0.345 李佳飞  0.325 星日马  0.237 司马懿  0.234 陈茁  0.214 Richard Xu 0.21 晓风残月  0.194 山羊月  0.182 扣小米  0.177 梁边妖  0.132 改之理zcw 0.125 Orz辉  0.106 钱粮胡同  0.091 李雷  0.09 何明科  0.09 chenqin  0.09 温义飞  0.085 路人甲  0.076 张佳玮  0.065 慧航  0.065 Nash Lew 0.04 十号胖狐狸 0.037 黄继新  0.016     

注意里面的数字是百分比,也就是排名第一的 @Manolo 平均每天增长0.5% 的粉丝。也就是说,如果一直按照这个速度增长, @Manolo 明年此时的粉丝数量会是现在的(1.0046)^365 = 5.3倍。也就是430k左右!感觉自己在目睹一个新大V的诞生~


哦,对了,还有终于在排名里看到自己了,在第三名!


总体来说,我感觉这个涨粉速度和大家当前既有的粉丝数量没啥关系,而和产出的效率有关。所以初步排除马太效应存在的可能性。



最后,出于好奇,我想计算一下我的粉丝数到底什么时候可以涨到 @张佳玮 现在的水平。

(纯属好奇)


  • 张公子的粉丝数:1558623
  • 我的粉丝数:9673
  • 我的粉丝增长速度:每日0.325%


解一个方程:

解出来


也就是说,需要 年的时间。这还是假设我能保持现在的涨粉速度的前提下。。。


嗯。。。还是别幻想了!




最后,其实还有好多好玩的数据可以和大家分享,限于篇幅,在这里就不赘述了。


我觉得以后可以继续发展的还有以下功能:

  1. 爬取用户的更多信息,比如回答数,关注数,公共编辑数,收录回答数等等,分析这些数据和粉丝、赞同数的关系;
  2. 收集更多用户名(100万+),完善数据的质量(当然服务器的费用可能也要上升了...)
  3. 生成类似网易那样的用户年度报告,比如(x年x月x日,你在一个小时内回答了20个问题,一定很无聊吧!)
  4. 用户画像:按照用户的各项指标,制作用户专属的卡通头像。比如说,粉丝数越多,眼睛就越大;赞同数越多,鼻子就越大等等。。


如果对上述功能感兴趣的大牛们,尤其是程序员大牛们,欢迎及时私信我 —— 没准能搞出一个新的 zhihurank 呢,哈哈哈~




差点忘了,如果您也想把名字加到这个观察名单里,可以把您的用户名私信给我。可惜我现在买的服务器容量有限,所以暂时仅限前50名用户好了。以后扩容了可以再加!


对了,这里我指的用户名是您主页的个性域名。比如我的主页链接是 zhihu.com/people/jiafei,那么我的用户名就是"jiafeili"。


就先写到这吧!感谢您的阅读!



不要脸的广告

如果对经济思想史感兴趣的话,欢迎您赞助我的 Live。让我早日有钱给服务器扩容~


经济学趣史:从柏拉图到休谟

经济学趣史:古典经济学大咖

经济学趣史:边际革命始末


user avatar   fengze 网友的相关建议: 
      

只看总赞数或者平均每个回答的赞数,意义都不大

因为会存在如下情况,某回答比如爆照的,或者抖机灵的一下上万赞,别的回答基本几十赞

那无论是看总赞数还是平均赞数,该用户rank都很高,

正所谓“王家有钱一千万,邻居九个穷光蛋。平均起来算一算,个个都是王百万”

显然这并不符合大家心中优质回答贡献者的定义。


建以第三方(知乎应该不会官方搞这些)引入一个 z-index指标, 仿照h-index的定义,再做一些改进

h-index又称为h指数或h因子(h-factor),是一种评价学术成就的新方法。h代表“高引用次数”(high citations),一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次。

一个知友的z指数,是指他至多有z个回答分别被点赞了至少1000次,这里1000是硬编码

比如A知友,10个回答,里面1个回答1万赞,其余9个回答每个都是10来个赞

那这个知友的z-index指标就是 1,因为他只有1个回答超过了1000次

再如B知友,10个回答,里面5个回答超过了1000次,那这个知友的z-index 指标就是5


当然如果想更精确,应该去掉硬编码,比如这里的1000可以调整为一个动态参数

具体的算法可以根据该作者回答的领域进行动态计算,

即每个领域有一个计算出来的动态阈值赞参数

每天全站更新一次

比如B知友,10个回答中,有3个在化学领域,2个在计算机领域,其余5个在文学领域。

这里我们借用中位数的概念,

比如化学领域总共有N(j=1->N)个问题,每个问题有 个回答,每个回答有 个赞

我们定义一个参数序列 ,则 ,即参数序列 为该领域每个问题的总赞数除以该问题总回答数,把参数序列 按照从小到大的顺序排序,

我们定义该领域的中位赞

当N为奇数时,

当N为偶数时,

如果把中位赞作为评价答题是否优秀的标准,那么针对B知友

他的3个在化学领域的回答赞数,可以通过判断这3个回答中

每个回答的赞数是否大于该领域的中位赞如果大于则z-index加1

将该用户回答的所有问题中每个问题同该问题对应领域的中位赞进行相比,

如果大于则z-index加1,最后可以获得该用户的z-index指数

如果中位赞还不足以表征这个回答是“优秀的”的,

那可以定义相应的 top20%赞 作为阈值

大于这个数的z-index加1.



最后回归题目本身,抓取的话,应该是用分布式爬虫

可以自己写程序爬知乎的数据,小量的数据

不难爬,python很多包,自己写也可以。

如果数据比较多,可能需要做分布式爬虫,再换一些代理,

还有可能就是抓包查到了知乎的API接口,移动端抓包可以试试,有时候有惊喜

但我估计知乎应该也做了一些反爬虫措施,具体不清楚能否用代理访问

(我没试过爬知乎的数据)

有了基本的数据,怎么组合定义是自己的事情,比如可以像我上面提到的那样

增加一个z-index指数给站内所有用户排个序,还可以分领域排序,

类似新榜搞微信公众号的分行业top100排名等等

比单纯的赞排序要靠谱的多。


user avatar   xiamenda 网友的相关建议: 
      

难得有个可以查知乎ID四维(关注/点赞/感谢/收藏)的数据库,还能提供排名前/后10个ID。

于是咱随手管中窥豹了一下,本来查了好几位自然科学大咖,看看他们4维前后20号是谁,答什么

那么,我这个排名能得出的结论是什么呢?【结论见底】


@龙草 化学、有机化学 话题优秀回答者,知乎收录 17 个回答 1 篇文章,获得 29,888 次赞同,获得 6,895 次感谢,14,139 次收藏,8276关注者

@李兰溪 情感类答主,获得 29,910 次赞同,获得 4,104 次感谢,2,149 次收藏,关注者6317

@黄祖兴 科普了一些为人处世的门道不懂怎么概括,获得 29,897 次赞同,获得 4,164 次感谢,4,988 次收藏,关注者1433

非常抱歉脑子有限,我那附近那一串,就记得这三位了

咱抖机灵,刨去匿名的是 29,891 次赞同,获得 4,782 次感谢,6,216 次收藏,关注者2530

(龙草大神已经近一年没有知乎动态了)

我当时粗略看了一圈,当时结论是,优秀学科回答者在点赞、收录、感谢和收藏上还是能领先的

但具体到单个回答上,管你天文地理化学物理,都是被时政文史和感情吊打

龙草是化学大咖,最高赞回答是

社评,这比次高赞如何在古代合成阿司匹林多了足足七成点赞;

李女士的最高赞回答是

自身经历,按高赞回答前9个都是自身经历

黄先生的最高咱回答是

情感类话题

咱本来是天文地理向的,实不相瞒我个人最高赞回答也非科普,还是社评



结论很简单:

  1. 哪怕你答了N多天文地理的回答,哪怕你真心觉得你的关注者想看的是科普,最后人气NO.1还是时政和历史向的,哦还有 @vczh 带逛的美腿,因为性和政治本来就是第一需求,比阳春白雪的科学不知高到哪里去了。
  2. 想在自然科学上科普一二,那么有一个有趣情景的回答也比有1答1的火上N倍,比如“古代如何做阿司匹林”,比如“一直向下挖地球能挖出什么”。
  3. 如果科普不是一个有趣的场景,那么怼人打脸的实锤回答也比有1答1火爆得多,比如那个迷惑人的“NASA夜景”减紫:为什么印度夜间卫星灯光图面积比中国大?
  4. 如果1次点赞代表1次人气,可以推出的结论就是,时政、情感、历史向回答(不是答主)对自然科学向回答基本是碾压。一个情感类文史类时政类上1k3k很正常,但科普回答……

这是这几个月看到实际推算最严谨的一篇科普文,按咱理解的知乎优质回答去排,5k10k都不过分,要推算有推算要模型有模型,实际呢?2k……

就像这个回答下 @卢诗翰 的回答一样,这年头“吸粉”比以前容易了,但也还是看什么人:

现在的赞数比以前容易多了
美貌的小姐姐们确实在吸粉速度上得天独厚。但之前我也做过统计,【颠覆偏见】知乎美女爆照真能涨粉吗?NO 美女爆照只是初期涨粉快,到了5000之后就涨不动了,长久还是要内外兼修的。

5000关注很少?多少数学物理化学天文地质优秀答主连着三分一都到不了!

现在的千赞千粉确实比以前容易,但想看点“科学干货”还是得挥起出头自个儿挖,这一点,从来没变过。(有兴趣的围观下数学 物理学 地质学 几门学科黄V点赞数)可能真应了轮子哥调侃:

你们这群理想主义的人都这么多年了,还不死心。每天去出差参加会议多好啊,那里多合适你们

怎么说呢?没人不想,但会议也不给大伙儿开放,甚至任何能看的相关专题馆都在1000km之外,绝大多数人没这时间精力财力专门为了自个兴趣跑一趟,更别提每周末跑一趟,对了,N多学科大会你去了意识闭门羹(写个惨字)

所以言下之意是放弃理想主义安心赚钱么(笑)(其实先大富再玩兴趣也很有道理参考知乎持股某深圳IT企业老板,他也想过当天文学家)

关于人类头顶那些事,我答过的匿名的没匿名的回答也有百个了,到现在人气最高的,不是陨石不是天文不是火箭,竟然是阿波罗登月中国人知不知道咋知道的,因为那事关姓资姓社哪个好,连万年不碰航天话题的游戏答主都来嫁(wai)接(qu)事实了。最后咱引了一堆国内外资料,被某派网友踩到0赞一下,也就再也没兴趣答那种东西了。那种问题吵到最后,问的,就不是事实,而是预设立场让几个意见领袖批判一下平时不敢批判的,证据随便改,反正我们这帮拿游标卡尺的说话不如那帮拿笔杆子的动听,更不如人解恨,对吧。知乎现在历史和时政贼多那种提问,就像这个:

以核武器这样极端行为进行反击……打击施加在手无寸铁的民众身上,构成反人类罪么?为什么大多数网友对两地早上灾难的民众没有任何同情?

这要是按我常年浏览的Wikipedia, the free encyclopedia 就是100%预设立场的提问,100%要修改的不公正描述词条。

而该死是,这类问题和回答,越来越多了。

这种问题越多,这个平台就越像天涯和贴吧,这是好事,还是坏事呢?


user avatar   ipreacher 网友的相关建议: 
      
  • 看到这个网站的第一反应是——一旦知道的人多了,被知乎发现了,那铁定是要吃律师函的
  • 时至今日,周源允诺开放知乎 API 已经过去六七年,却看不到知乎的一点诚意

user avatar   aton 网友的相关建议: 
      

这个4年前的问题选择在这个时间点突然出现在我今天的时间线上显得非常 亦可赛艇

Android是2008年初才发布,而Oracle在2009年就以7.4B$收购了Sun,是Google不够睿智吗?

非也!

1)如果Android没有如此成功,Java对于Google而言就是一坨shit,Google从来没有想到自己会站在一坨翔上面取得空前的成功,如果有算命的告诉Google的命中贵人是阿翔,它就是穿越回去吃也要把它吃下去,可惜历史不能假设!


2)Google一直有python基因,很多系统都是基于python的,你知道工程师主导文化的可怕性吗?这帮pythonic的nerd出于情怀或者节操或者叫清高或者叫偏执或者叫真爱,它说什么都不会去买Java的,“老子看不上”!谁知造化弄人,09年你对我爱答不理,18年老子叫你高攀不起88亿!(注:今天的Google在各种收购之后,Java服务的比重占的也非常大了,变成了一个杂合的技术栈,而官司也很可能打到高院,尚未定论)


3)Google一直有跟开源保持共存共荣共襄盛举的传统,它跟Mozilla做生意,赞助开源项目,捐赠Wiki,主张“不作恶”,简直就是一副乌托邦理想主义者的化身,圈粉无数(包含答主),像Java这种项目,它更可能的方式是烧一笔钱给它花,然后来几句“希望Java明天会更好”之类的废话,它根本就不曾想过有一个家伙抄底了,因为那时候Android根本就没有火,Google从来就没有想过Java也T-M-D算哪门子“底”?


4)Sun的主手人也是个技术型的,就是技术牛掰业务做的稀烂,当时怎么看Sun都处在夕阳,SPARC也是逼格满满业务下滑被Intel捣的稀烂,那个价格没有几家觉得划算的,幸好是Oracle这种剑走偏锋的收购了它,要是换一家公司收购多半就把Sun雪藏甚至捣腾碎了,Java也就没有今日风光了,而Google在坊间也有创业公司杀手的美称,也许这就已经是历史发展的最好结果了。


什么,你问我对于Oracle收购Sun和MySQL怎么看?

还能怎么看?好白菜都让猪给拱呢呗!

但是作为吃瓜群众,我最喜欢看大佬们掐架,Google与Oracle的这场官司绝对酸爽,大家保持关注,各家都有千百号律师,吵起架来想想都 亦可赛艇!学知识产权法/专利法/法理学的同学们千万不要错过,说不定两年后就能进教材作案例呢!


什么,你又问我Google应该怎么做?

靠,我有不是劈柴!按我的观点,Google这次是违反了Java的使用协议的(无意引战,定论的事情留给专业法官),不能因为体量大就以为能压死人,那可是在美帝,万事全靠律师一张嘴,怎么讲都有理!


大家还记得微软以前有个skydrive吗?在英国被判败诉了,最后也得改名叫OneDrive呢!Google有钱了不起啊,过来领罚单!


而Java的坑早早就埋在那里了,所以苹果直接一刀切:老子不支持,免得搞一嘴毛!Flash一身毛病,一刀切,老子不支持!


所以,我对Google的建议是:

从Android 10开始,一刀切:老纸永生永世不再支持Java!

名字我都起好了: Badroid!


这TM不是关乎技术,不是关乎信仰,不是关乎生态,不是关乎用户体验!

这TM关系到命!


什么?要我预测结果?

法官中间调停,你们俩和解,google把赚的钱按每部手机给Oracle付钱?什么你说太扯了?你每买一部Android,都要给微软钱,你造吗?Oracle就想躺着就把钱收了!




  

相关话题

  有通过大数据破案的例子吗? 
  一直很热闹的数据库领域,有哪些事情让你感觉眼前一亮? 
  怎样算是对原创者作品的尊重? 
  在知乎,你印象深刻的用户都有谁?为什么? 
  如何评价知乎新口号「发现更大的世界」? 
  为什么有很多回答者获得的赞同是在「一觉睡醒」后才发现的? 
  知乎为什么很多人在对待同性恋和黑人的问题上偏左而对待金钱和阶层固化的问题上偏右? 
  你觉得知乎应该添加哪些功能? 
  为什么2020以来很多知乎用户开始魔怔了? 
  知乎可否开发自己的虚拟货币——知乎币,类似比特币、瑞波币,用来对贡献者进行分红? 

前一个讨论
这张图想表达的意思是什么,编程语言?
下一个讨论
怎么看待「腾讯夏总监」指挥下属恶评米店的事件?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利