如何看待「日本」为知乎国家话题中关注用户人数最多的？第1页

reinhardtjin 网友的相关建议:

预警：本文里有大量丑陋的stata截图。

===============================================

主要结论：

知乎群众对于别的国家

1.越远越懒得搭理

2.人口越多越在意

3.嫌贫爱富

4.并没有特喜欢日本

5.特不喜欢韩国

6.可能更关注英语国家

这个题有意思。我查了一些其他国家话题的关注人数，目测可能具有引力模型的形式。于是就手动收集了知乎上一些关注数较高的国家的关注人数、首都到北京的距离（作为距离的代理）、人口和人均GNI。数据是这样的：

粗看还挺是那么回事。基本的模型长这样：

取对数后得到线性形式：

于是老夫做了个回归……

输出的表长这样

用关注者的预测值对真实值画个散点图，长这样

豪么你丫谁啊……

虽然系数的符号是对的，离显著也就差那么一点点，但这个喇叭形的“pattern”是让我拿来喊“WBD老板黄鹤带着小姨子跑了”吗……

不能忍，加变量！

测试了如下变量：

是否在亚洲——不显著，但是pattern好看点

是否使用过汉字——很显著，而且pattern更好看了

英语是否是官方语言——不显著，还是个喇叭

于是我一气之下，把这仨变量以及一个日本专属的虚拟变量都扔到一个回归里，让它们几个PK一下（实证文献里叫horse race），表长这样：

坑爹啊！只有人口显著了！离显著最近的一个是汉字！重要的变量——距离的符号也不对！

所以一定是模型错了，这时我才发现我一直没有用人均GNI的数据，于是就把它也取了个对数扔到赛马回归里，结果——

法克，猴狸法克。考虑了富裕程度后，几乎所有文化变量都显著了，或者说分层了。引力模型原有的变量也都显著了，符号也是对的。然而，由于日本和汉字的方向相反，而汉字指示且日本不指示的国家只有韩国（朝鲜缺人均GNI数据所以这个回归里没有）。所以我干脆给韩国也搞了个虚拟变量，又回归了一次，结果如下：

日本不显著了而且是负的。所以日本的文化因素并不能解释多少，人口、距离和富裕程度才是主要解释变量。英语国家的文化代理离显著不远，估计是因为印度的存在拉低了这个变量的解释力。

也就是说，基本可以认为真实的模型是这样的

其中，G分为三类

1.英美澳加（用英语的发达国家）

2.其他国家

3.韩国

从上往下，引力系数G递减，也就是知乎群众越不偏爱。

于是就有了最前面那一段总结。

啊对了，你们要前面那个加了人均GNI的赛马模型的预测散点图？它长这样：

当然，这只是关注多的十来个国家的小样本。有兴趣的朋友可以做一个知乎所有国家话题的，可能可以发现更有意思的pattern。

如何看待「日本」为知乎国家话题中关注用户人数最多的？的其他答案点击这里

前一个讨论

美国的行政区划是几级的？州以下有哪些行政区划？美国的县相当于我国的哪一级行政单位？

下一个讨论

留学生在日本非首都圈的就职情况如何？

如何看待「日本」为知乎国家话题中关注用户人数最多的？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待「日本」为知乎国家话题中关注用户人数最多的？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待「日本」为知乎国家话题中关注用户人数最多的？第1页