转载声明:
本答案禁止任何形式的未经授权转载,任何微信公众号及营销号转载者,均视为同意以500元/千字为标准支付稿费。本声明具有法律效力。
谢邀。
实名反对目前最高票答案,知乎体并不是那样。
知乎体应该是一个以
专业知识为基础,以清晰的
条理对问题进行阐述,并解决该问题的文体格式;对于不能明确给出答案的回答,给出问题相关的思考。
我们采用
支持向量机(Support Vector Machine,SVM)的办法对知乎答案中知乎体的比例做一个统计分析:
(重点结论已用黑体标粗,可以跳跃阅读)
用于训练的样本点来自:可以被称为明显知乎体的答案(6,325份答案),再从百度知道抽取了明显不属于知乎体的答案(4,538份答案)。
在向量机中我们选用的
核函数(即
高维空间的分类函数)为
其中X是对答案本身的描述向量:字数,图片,段落;y,z为答案对应的用户的被关注数和总回答的被收藏数(作为答案本身信息的相关性统计指标),其他为参数;
在使用训练样本之后,我们得到了相关的参数值;
再随机抽样了43,043,285份答案,总共涉及用户数6,432,234位。根据我们已训练的向量机:
知乎中知乎体的答案占28%,也就是知乎体在知乎中占有很大比例,但是并不是主体,相反,仍然有很多其他的类型:
而从答案的时间看,知乎体在知乎答案中是在不断增多的:
图中的虚线分别是线性回归和指数回归;
在另一方面,如果我们从知乎体占总发布答案的比例看,知乎体的比例并没有增加,而是近乎随机游走的;也就是说知乎体答案增多主要是依赖于知乎答案总体增加的速率不断增大。
就说到这儿吧,总结一下:
声明一下:
关于向量机核函数形式,是根据westin(1983)中所提到的对通常文本类型的分割方式改进而来,具体缘由可参见参考文献;
集齐百赞再来更新基于heckman selection model,是否可以解释:为什么知乎体并没有占据大量回答,但我们观测到知乎体的大比例出现。
利益相关:偶尔使用知乎体答题的知乎装逼用户。
============2015-6-2更新===========
回答评论区几个问题:
在声明中已经说过了,核函数是根据westin(1983)中所提到的对通常文本类型的分割方式改进而来,具体缘由可参见参考文献;
真正的因果关系,我们确实不能通过计量的方式得到,而这种真正的因果在大卫·休谟那里也认为是不可能通过经验事实得到的。
不过我们还是可以用格兰杰因果检验,但只能确定格兰杰因果关系,我的方式是知乎体答案去趋势后对知乎答案去趋势滞后一阶回归,结果是显著的(t值为4.36),这里就不贴stata截图了,如果要数据可以私信我
================================
===========百赞更新==============
在之前的模型中主要有这样一个问题:我们随机抓取的样本会不会存在选择偏误?
答案是可能的,因为在我们实际抽取中,虽然是随机的,但是是依据随机出现在动态页面中的问题得到的。而出现在动态页面中的问题出现频率本身和赞同数是有关的:对于赞同数、收藏数为0且答主没有任何关注的答案,是不会被抓取到的。
不过用heckman selection model 可以解决这个问题:
原来的回归方程不变:
加入selection condition:
用probit模型:
最终得出的结论稍稍变化(比例变为了21.1%),但是大体结论不变,这里就不细讲了。
=============================
再友情打个广告,提了一个问题,但到现在都没有人回答,希望艺术方面爱好&研究者的解答:
伦勃朗的蚀版画是否受到了丢勒的影响,若有,体现在哪些方面? - 艺术参考文献:
涉及数据部分纯属瞎扯,涉及文献部分纯属瞎编,只是为了表明,作为回答的知乎体,就是这样。
回答评论区几个问题也纯属胡诌,因为,评论区,根本没有问题~
以及本文中使用的向量机和heckman二阶段方法,请初学者不要模仿,因为,
都是误用,都是误用,都是误用。
重要的事情说三遍。
以及转载声明来自于评论区和我一样逗比的知友提醒,嗯,感觉也应该算在知乎体大V系列中,实际上,本,文,随,意,转,载。
重要的事情加逗号。
哦还有一句算半个知乎体:求赞求粉求关注ღ(๑╯◡╰๑ღ)
装逼结束,赶紧溜。
等下,还缺一句,
以上。
非原创,第一次见是朋友圈,如有侵权只好删除,作者:笛子[据评论所说,图片右下角有水印]
1、 先说一个故事吧
XX自幼XX,母亲/父亲/兄弟姐妹XXX,
XX靠着XXX,经历了怎样的XXXxN,
目前工资XXX、房产XXX、在XXX工作,说这些只想证明现在XXX,而不是XXX
没错,故事里那个XX就是我,
你以为一切就这样了么?其实事情并没有想象的那么美好
那之后没多久,XXX又XXX
现在XXX
总结:我想说的是XXX。。。
评论:大半夜的看哭了、加油,么么哒、相信XXX。。。
2、 谢邀/卸腰/泻药/,我是XXX协会/工程/院的XXX师/,这个问题我想我比较有资格回答
其实XXX,本来XXX,很多人以为XXX,
先来看一篇XXX发表的XXX
图表、公式xN
总结:XXX
利益相关:XXX
评论:不明觉厉、妈妈问我为什么跪着刷知乎、这么好的回答居然没人给赞?。。。
3、实名反对票数第一的答案(纳尼?票数第一被删了?那实名反对票数第二的好了)
先说是不是,再说为什么
题主问得出这个问题,我认为已经不用去考虑XXX
...
x月x日更新...
(本文禁止XXX转载,XXX有权XXX,XXX将通过知乎法务团队XXX)
评论:匿名反对此答案、涨姿势、然而这并没有什么卵用、好有道理我竟无言以对
4、慎入!慎入!慎入!(重要的事情要说三遍!恩)
以下多图预警 / 前方高能预警 / 前方核能警报!
密集恐惧症 / 强迫症 / 恐高症 / 深海恐....症慎入!
图片xN
来源于某某网站,侵删!
对XXX有兴趣,可参考我的XXX
5、评论 / 点赞过(百、千、万)就取匿 / 上图 / 爆照 / 放出XXX
6、 抖机灵
评论:上日报、大半夜的笑出声、hhh / 蛤蛤蛤 / 233 / 噗、恭喜上日报、系统自动评论
7、 看脸
8、花式秀恩爱 / 虐狗 / 骗照
9、 这么多小伙伴赞我,潜水党受宠若惊Σ(っ °Д °;)っ
其实是因为中午边逛知乎边吃饭,夹起的花生不小心滚落在键盘上了(。・_・)/,所以才写了这些无聊的东西(* ̄ω ̄)~~嗯哼~
(是的没错,以上也是答案之一,奥义为意义不明的颜文字和故意卖萌~)
评论:道理我都懂,可是花生掉了和写答案有毛关系啊
10、一觉醒来 没想到都过千了 / 上日报了,第一次回答没想到这个待遇谢谢大家。
关于评论区XX用户提出的xxx我认为xx
ps:如果XX月XX日前没再更新就不会补充了
以上
另:答主十分感谢评论区小伙伴的相关补充~么么哒(づ ̄3 ̄)づ╭❤~
我只想说,无论答案更新了多少次,无论你得了多少赞受宠若惊,无论评论区里有什么样的奇葩,无论你要挂谁还是要跟谁吵架——
请把你的原始答案放在最前面!
请尊重第一次读你的答案的人!
请思考一下一大片背景介绍和解释给读者那种无所适从的感觉!
请思考一下一点进来就看到你在跟人吵架的感受!而且还看得莫名其妙不知道在说什么!翻了好几屏都找不到原始答案的头在哪里!