预警:本文里有大量丑陋的stata截图。
===============================================
主要结论:
知乎群众对于别的国家
1.越远越懒得搭理
2.人口越多越在意
3.嫌贫爱富
4.并没有特喜欢日本
5.特不喜欢韩国
6.可能更关注英语国家
这个题有意思。我查了一些其他国家话题的关注人数,目测可能具有引力模型的形式。于是就手动收集了知乎上一些关注数较高的国家的关注人数、首都到北京的距离(作为距离的代理)、人口和人均GNI。数据是这样的:
粗看还挺是那么回事。基本的模型长这样:
取对数后得到线性形式:
于是老夫做了个回归……
输出的表长这样
用关注者的预测值对真实值画个散点图,长这样
豪么你丫谁啊……
虽然系数的符号是对的,离显著也就差那么一点点,但这个喇叭形的“pattern”是让我拿来喊“WBD老板黄鹤带着小姨子跑了”吗……
不能忍,加变量!
测试了如下变量:
是否在亚洲——不显著,但是pattern好看点
是否使用过汉字——很显著,而且pattern更好看了
英语是否是官方语言——不显著,还是个喇叭
于是我一气之下,把这仨变量以及一个日本专属的虚拟变量都扔到一个回归里,让它们几个PK一下(实证文献里叫horse race),表长这样:
坑爹啊!只有人口显著了!离显著最近的一个是汉字!重要的变量——距离的符号也不对!
所以一定是模型错了,这时我才发现我一直没有用人均GNI的数据,于是就把它也取了个对数扔到赛马回归里,结果——
法克,猴狸法克。考虑了富裕程度后,几乎所有文化变量都显著了,或者说分层了。引力模型原有的变量也都显著了,符号也是对的。然而,由于日本和汉字的方向相反,而汉字指示且日本不指示的国家只有韩国(朝鲜缺人均GNI数据所以这个回归里没有)。所以我干脆给韩国也搞了个虚拟变量,又回归了一次,结果如下:
日本不显著了而且是负的。所以日本的文化因素并不能解释多少,人口、距离和富裕程度才是主要解释变量。英语国家的文化代理离显著不远,估计是因为印度的存在拉低了这个变量的解释力。
也就是说,基本可以认为真实的模型是这样的
其中,G分为三类
1.英美澳加(用英语的发达国家)
2.其他国家
3.韩国
从上往下,引力系数G递减,也就是知乎群众越不偏爱。
于是就有了最前面那一段总结。
啊对了,你们要前面那个加了人均GNI的赛马模型的预测散点图?它长这样:
当然,这只是关注多的十来个国家的小样本。有兴趣的朋友可以做一个知乎所有国家话题的,可能可以发现更有意思的pattern。