百科问答小站 logo
百科问答小站 font logo



为何俄语网页占比这么高?如何评价汉语网页占比与越南语网页相当? 第1页

        

user avatar   ggg-ah 网友的相关建议: 
      

之前做全面战争mod时我就发现,真正要查有用的资源时,俄文网站内容远比中文网站丰富。无论是关于修改教程、历史讨论、资料搜集还是各方面的电子书,都是如此。前段时间写东南亚相关的回答,查资料时也发现,维基上一些东南亚历史的相关词条,内容最丰富的却是俄文版词条。

想象一下,一个中国mod制作者,竟然要去俄国网站上搜辽、金、蒙古铠甲兵器的资料……

我们来看看统计数据——

w3techs.com/technologie

题目中的数据来自W3Techs,2021年12月24日,最新一期的排名如上图所示。可以看到,在最近的排名中,中文网页的占比甚至被越南文超越了,而俄文则维持了第2的位置。

W3Techs的统计是根据Alexa前1000万或Tranco前100万的站点得出的,去掉了仅有默认页面的站点、重定向的域以及大网站下面的子域名。从2011年至今,每年统计数据如图所示——

可以看到,在2011年时,德文网站的占比排名第2、日文第3、中文第4、俄文第5。从2011年开始,俄文网站的占比逐年提升,并在今年1月达到顶峰,中文和德文网站的数量则逐年递减。至于土耳其文、波斯文和越南文的网站占比,主要是在2015年之后迅速提升的。观察中文网站的占比,可以发现,其占比是在2013到2016年间迅速下降的,这段时间发生了什么,有经验的都知道。

en.wikipedia.org/wiki/L

全世界最大的在线百科维基,在许多国家都是浏览量前10的网站。维基百科上有关于各种语言百科词条的统计,按总页面数量统计,排名最多的是英文(没有任何疑问),接下来分别是越南文、法文、宿务文、阿拉伯文、西班牙文、德文、意大利文、中文、俄文(总页面数量包括词条、讨论、分类、重定向等各种页面)。

按照词条数量统计,排名前10分别为:英文、宿务文、瑞典文、德文、法文、荷兰文、俄文、西班牙文、意大利文、波兰文。

*.维基上的宿务文、瑞典文、Winaray词条大多是由瑞典人Sverker Johansson创建的Lsjbot自动编制的,所以数量有些虚高,去掉后,前10可以加上埃及阿拉伯文和日文。

按浏览量统计,排名前10分别为:英文、日文、西班牙文、德文、俄文、法文、意大利文、中文、葡萄牙文、波兰文。

按照编辑次数统计,排名前10分别为:英文、德文、法文、西班牙文、意大利文、俄文、日文、中文、越南文、波兰文。

按照编辑者数量统计,排名前10分别为:英文、西班牙文、法文、德文、中文、俄文、葡萄牙文、意大利文、阿拉伯文、日文。

按照活跃编辑者数量统计,排名前10分别为:英文、法文、德文、西班牙文、日文、俄文、葡萄牙文、中文、意大利文、阿拉伯文。

按照上传图片数量统计,排名前10分别为:英文、俄文、意大利文、德文、罗马尼亚文、乌克兰文、波斯文、希伯来文、芬兰文、法文。

按照维基百科的统计数据,俄文的维基社区,活跃度至少排在前6,而且俄国用户可能更专注于条目的完整和丰富,因此上传图片的数量高居第2。维基上波斯文、土耳其文、越南文社区也比较活跃,这些语种的网站,在前100万网站中占比也不低。

除了维基以外,俄文互联网上还有许多别的百科网站——

俄罗斯大百科全书的网络版。

一个基于纸质百科,根据学科分类整理词条的线上百科。

网站基于Cyril and Methodius的各种百科全书创建,用户也可以自建词条。

这两个都是整合了数十上百本传统纸质百科的聚合型网络百科。

关于百科全书的“百科全书”。

在互联网出现之前,纸质书是人们主要的知识载体。根据维基上面的统计,目前,俄罗斯每年出版的图书数量约为11.5万种,排名世界第5。虽然每年出版的中文书数量高居世界第2,但根据国家新闻出版总署的数据,2016年后,我国每年新出版图书呈现出逐年下降的趋势,这两年限制书号,情况也不乐观。

综合上面的数据,可以看到,在当今世界的知识生产方面,俄文还是非常有影响力的。虽然比不过英文,但基本和法文、德文、西班牙文、中文、日文在一个档次。考虑到日文、德文使用区域有限,法文和西班牙文占据优势的西非和拉美地区,教育基础、计算机技术、互联网发展水平可能不如俄罗斯和前苏联地区,那么俄语网站能有这么高的占比,还是可以理解的。

另外,如果你有搜索国外论文、电子书和各种版权资源的体验,应该也能感受到俄文区大佬的互联网共享精神。

比如说,著名的免费学术论文下载网站Sci-Hub,它的创始人来自前苏联加盟共和国哈萨克斯坦。

再比如,我平时下载国外电子书用的创世纪图书馆(Libgen),也是俄国人做的,其历史可以追溯至苏联时期的самиздат文化。

所以俄文区的人们,是真的乐于输出,且乐于分享啊。我们现在之所以能有那么多免费共享的高质量资源,ta们功不可没。

但问题是,为什么中文网站的占比,在整个世界上显得如此之低?

要知道,这可是一个有14亿人口,十多亿网民的国家,经济总量可以匹敌世界任何一个大洲,基础教育和高等教育水平不低,历史悠久,文化多元,互联网产业蓬勃发展……从任何一个角度看,中文互联网的比重都不该如此之低。

很多答案都提到了移动互联网的因素。的确,各大厂商跑马圈地,筑建护城河,发展出一系列大而全,却禁止搜索引擎抓取内容的内部生态。将人们的注意力吸引到自家手机APP而不是网页,确实大大挤占了传统网站的空间。

但这并不是全部原因。

记得在我读初中时(那是十几年前的事了)对古生物感兴趣,当年有更新及时,分类清晰的恐龙网,对天文感兴趣,有牧夫天文论坛等各种天文网站。

读大学时,想要讨论全面战争,找mod教程,有黄龙骑士团;要找文明系列资源,有塞爱维论坛;关注世界局势和军备动向,有超级大本营等等军事论坛。

那时百度的贴吧还很热闹,刷贴吧不用登录手机,没那么多xx词,更没有那么多广告贴,是真的有内容且活跃的讨论空间。

那时中国的互联网虽然没有现在那么普及,但各种小众话题都有自己的讨论空间。

到后来,就是各种回帖可见、用网站积分购买……

之后,是网站自带下载器,扫码关注公众号,回复提供解压码……

接着,是您所打开的资源已被删除,网站论坛无人问津……

最后,是各大平台争相抢占流量,首页无数美女教穿搭分享生活,熟悉的网站接二连三因备案、规则改变或难以运营而陆续关闭或限制讨论……

互联网是最能打破阶层、地域、时间界限的工具之一。闭塞之地的人们能借助网络看到外面的世界;身无分文的人们能通过网络找到赚钱的机会,一无所知的人们能通过网络找到各个领域的学习资源。

但是如今,我们的互联网发展了,流量增加了,但真正可供学习、分享、讨论,能够沉淀下来的内容,也许还不如以前。不同的群体有不同的需求,大而全的平台并不能替代小而美的社区。

所以有时会幻想,能有一个网站,可以把知识按照一定的分类和体系组织起来,围绕知识树建立收藏夹,让大众能够更容易的检索并接触到优质信息。

就算不能随意讨论,至少收集整理还是可以的吧?


希望这个回答不会被删。

相关回答——


user avatar   li-na-31 网友的相关建议: 
      

我前段时间发现一个现象,老家的很多人,用抖音做为社交工具。

微信没人用,对他们来说使用微信太困难了。首先你要找到你要联系的人,然后你要打字,很多人都不会打字。如果发语音,那为什么不打电话呢?为什么要发语音呢?要发朋友圈的话,很多人不看朋友圈,何况朋友圈的东西不一定都能刷到。

抖音就简单多了,比如我姑父发现一只野猪陷在池塘里了,经过村里同意把野猪打死拖上来。发了一个抖音说捉到野猪一头,想吃野猪肉的快来,很快他的亲戚朋友都刷到了这条抖音,一会就来了一大帮人。

很多你认为很简单的事情,在广大人民群众那里存在巨大障碍。我妈现在有一个重要的日常活动,就是帮那些退休老人们弄手机,什么健康码行程码,充话费,买火车票机票,他们操作都有巨大障碍。

浏览器这种完全是为拉丁字母使用者开发的软件,就是中国人使用电脑的巨大障碍之一。你要使用任何功能,首先要会打字,打地址或者打汉字搜索,这一点起码劝退70%的中国人。而且浏览器本身就让使用者不认识,比如公司的出纳大姐,我说你把浏览器打开,她说什么浏览器?我说edge,她说哎什么?我说Chrome,她说哭什么?我说360这下她才明白,现在你们明白为什么360全家桶普及率这么高了吧。

触屏机不用键盘,这才提高了中国的电脑渗透率和互联网渗透率,当然不止是中国,很多国家都是靠智能手机渗透。

新文化运动的前辈们要抛弃汉字彻底拉丁化,就是因为看到了拉丁字母在现代文明当中的垄断地位,如果汉语书写方式和其他语言相差太远,就会给中国人构成巨大的新技术学习成本。

最后,知道为什么越南语网页这么多,甚至多于阿拉伯语、意大利语和韩语吗?好像这两句标语能读懂。


user avatar   tzar-xe 网友的相关建议: 
      

中文互联网内容质量太差

第一,在财政预算相关的知识产品可获取性上面,俄国秒中国十条街。

这句话的意思是,凡是吃财政饭的人,所产出的知识产品,除了出版社出版的特定版权类,其他的按照俄国法律规定都是必须公开的。公开=搜索引擎直接抓取,点开直接下载

也就是说,哪些大佬写了哪些东西,如果不涉及重大敏感事项或者保留版权,都是网上可以搜可以随便下的。当然,我也必须要指出一点,就是苏联时期有很多著作非常有价值,但是无奈列图规模太大而人员太少,有大量书本电子化还没有完成。

但是我也必须吹一句,俄国的госуслуг上线后大量列图的电子化产品也可以通过认证后在桌面自由访问(但仅限俄国公民)

一些俄国教授自己搭网站,退休之后直接把自己撰写的教案课纲全部丢网站上

第二, 俄国有自己的免费文献系统,cyberleninka。

也就是说,cyberleninka上的文献你可以随便下,CC-BY-4.0

第三,俄国自己的免费文献系统,和semantic scholar之类的算法驱动全球学术作品搜索引擎数据是打通的,可以直接一次性搜索英语和俄语文献

第四,俄国吃财政饭的事业单位,按照一些政策要求是设立了大量的工具书页面,比如俄罗斯大百科全书,科学院哲学所自己还设了哲学词典之类的

呵呵,百度百科还装模做样请个专家审核,费这个事情干什么,百科全书辞海字典词典直接官方上线不就完了?

第五,在兴趣驱动的类别下,俄国网站是爹的真的多。比如魔改寨板BIOS超频就最先是俄国人大规模铺开的。有一大批俄国爱好者的BIOS编程水平比深圳寨厂的程序员都高。还有一家专门的俄语军事文献网,正在以惊人的速度更新苏联时期的专著、期刊、报纸、画报、地图等各类产品


第六,也是最关键的一点,俄国的政务信息公开做的非常规范。经常关注硬件信息的大概都知道EAEU注册公示系统是全球最大的官方3C产品leak渠道,剩下的法律、命令、决议之类的文件也是基本能做到随过随更。

我就不吐槽某巨国吃皇粮事业单位80年代national congress报告一半以上都是残缺的,这不摆明了让境外势力垄断报告的外语解释权吗?俄国这边连苏联时期的法令,从1917年的都给你ocr校对好放网上,随搜随有。

最后,俄国老师上课的时候有时候会直接甩给你电子版的pdf,哪怕是他们自己写的书,整个一个去他娘的资本主义知识产权!

总之一句话,有些人以为移动互联网是好文明,却根本不知道某大国的移动互联网都是什么信息垃圾集散中心,逼得学界都看不下去了


user avatar   gnadil 网友的相关建议: 
      

你必须承认几个事实:

中国虽然网络终端多,但是电脑用户少,绝大多数都是手机用户,看网页极少,看手机App多;

中国虽然网民多,但是绝大多数都是内容消费者,极少数是生产者,生产也是往手机App里生产(x音、x手、x乎、微博),这里面相当一部分内容你用网页都打不开;

中国虽然互联网公司多,但是极少提供完整的web端全部功能、信息和服务,大部分web端都是阉割版,前几天我想看看闲x,结果发现闲x的网页版直接彻底下架了。

中国互联网生态就是“流量为王”、“封闭为王”、“手机App为王”、“就是不给你看网页”——连当年人人在IE浏览器里玩得不亦乐乎的百度贴吧都逼你下App才能顺畅观看完整内容——为的就是获得你的通信录、GPS、手机IMEI、手机存储权限,为了十几个流氓App每小时互相唤醒,为了保证月活,为了让你绑定手机号身份证和姓名地址抢红包,为了往你手机里缓存开屏广告和储存用户信息以便删掉后还留在内存里,为了后台保持一个进程随时接受消息每天24小时把吸引眼球的标题推送到通知栏里。

这个大环境的前提下,“中文网页”就是中国移动互联网的最大障碍——让你拿个浏览器就能白嫖就看到信息,不用付出任何权限和隐私作为代价——这就是从根本上阻碍资本家割韭菜了啊!


user avatar   ge-shi-cong-44 网友的相关建议: 
      

中文互联网的封闭和山头林立决定了中文互联网的匮乏与混乱。

搜索引擎不像搜索引擎,硬要做什么内容什么百家号,新闻网站不像新闻网站,没有自己获取新闻的能力。百科不像百科,内容混杂而凌乱。论坛?已经是老黄历了,被新媒体挤压到了边缘。

是网友们不愿意分享内容吗?我觉得并不是。像过去的CSDN和博客园,有数不清的人贡献自己的经验与成果,维基百科虽然内地存在访问问题,但是内容并不匮乏。实际上我们的互联网是不乏优质内容的。

但是随着资本的跑马圈地,带有偏向性内容推荐对公众关注点随意操纵,以耸人听闻和抄袭为主的部分自媒体的野蛮生长,随之而来的是中文互联网的日益封闭与极端。

这也就是我们眼中的互联网,中文互联网,越来越不像是互联网了。


user avatar   whearer 网友的相关建议: 
      

现在中文互联网上,你还能搜索到任何有价值有意义的信息吗?


打开搜索,整个中文互联网到处都是信息垃圾,专门针对关键字对搜索引擎做优化,想把自己排在前面,一打开全是同一内容的反复转载,新闻也是对外网内容的翻译,原创几乎彻底崩盘,稍微有一点原创性的都转私人公众号了。

知乎这样一个浑身都是G点的垃圾网站,也算是国内最有原创性的地方了,可见整个中文互联网基本已经僵死了。什么都是流量第一, 流量为王, 有流量就有一切, 什么最能带来流量?

就像@纳米酱 说的, 国内互联网公司主要就是做如何更好地向用户推荐黄赌毒的.

补充:

1. 数据是"全球点击量最高的1000万个网站使用的语言".
2. 这不是百度的问题, 百度已经不值得批评, 这是整个中文互联网生态的问题.


user avatar   ning.mao.wilson 网友的相关建议: 
      

看到有人说wiki,就说知识吧。

人总有很多陌生领域,想粗略了解陌生领域,最直接办法就是查百科和论文。国内的百科基本属于浮光掠影,只能满足中小学生需求。这里有三个原因;

第一,百科的性质。百科属于不挣钱的东西,而中国是公有制为主体,如果没有政府的投入,仅靠私人企业,那注定有心无力。

第二,行业特性。知识是没有国界的,更没有公司企业的间隔。所以百科无需一个公司搞一个,这一个百度百科,那一个搜狗百科,这种重复建设,完全是对资源的浪费。百科不需要大战,也不存在击垮谁,就能独占市场,因为本就没“市场”。

第三,有百科,先要有写百科的人。中国能不能短期内提升百科质量,当然可以,百科本质不复杂,大量内容可以翻译,只不过需要一个整理过程。但如果没有专项资金,靠创作者为爱发电,那这个过程会非常非常缓慢。


user avatar   dogg 网友的相关建议: 
      

主要原因大家不是心知肚明的么?

给大家看个具体的例子,一个曾经还算活跃的论坛是怎么突然悄无声息的。


user avatar   vansford 网友的相关建议: 
      

俄罗斯黑客是真的多。相对的红客应该也不少。

俄罗斯不能说全体大学生都会,但我见过的研究生博士生,不管啥专业,最低的都能python给你现场写个程序,鬼知道是不是必修课。

scihub相信很多人听过,毛子干的,这点我很服气,分分钟解析付费论文,养活了不知道多少人。这类盗版网站很多,音乐电视剧电影全免…

这个统计不知道算没算暗网,没算的话可能更多。有幸领略过毛子暗网,zbc就完事了。

他们虽然网络硬实力不行,但软实力还是强的一批。

(独联体国家15个退俩,过去大都发达一时,现在是有些落魄,不过从科研领域来说,到今天仍然不容小觑,比如最近的一次听到毛子搞事不是疫苗,而是新冠病毒基因测序,那是疫情刚开始的时候。)

所以网站数量大还是有依据的,不论组织还是个人,搭建网站的门槛不高,而且掌握技术的人也很多。虽然配套设施比不上国内,但单就互联网发展程度,不逊于国内,依我感觉可能高于国内。你在国内可以用网上处理的东西,在俄罗斯也完全可以,甚至品类更多(吃饭洗澡唱k蹦迪书店商店,一般都有自己的网站,国内除了大型连锁,可能都没有)。计算机专业本科毕业,学得好一点的程序员在俄罗斯也可以赚到合人民币两万多,挺正常的。这种经济下赚这么多其实足以说明问题了。

举个例子,我楼下小打印店仨人开的,非连锁,人家都有个官网,邮箱也是org。所以这个统计是有一定可信度的。

俄罗斯年轻人基本上完全西化了,更想接触外面的世界,有好多英文网页实则俄罗斯域名,这一点上更加能感到他们网站多。如果不基于语言搜索,只看网址,那简直是多到爆炸,你可能根本找不到你要的结果…

汉语网页少,也有情可原,网站维护成本某些小店撑不起来。况且还有墙,自己玩自己的。

但这越南我就不懂了,是河内胡志明芽庄业务项目拓展了???泰国要加把劲了啊。


user avatar   lin-xi-63-55-14 网友的相关建议: 
      

上面不是写了嘛......全球点击量最高的前1000万个网站使用的语言占比,可以理解为俄语使用者的点击率很高。

或者说俄语网页的信息价值高,所以能够拥有这么高的点击量,就像英语网页占比也高到完全不正常(超过一半)。

汉语与越南语网页的信息价值相当呗

可以看到在网民里的英语使用者占总数的25%,但点击量最高占了60%,显然其中许多点击量是其他语言的网民贡献的,所以核心就是语言价值的高低

汉语网页只有汉语使用者看,而俄语网页至少对欧洲有很强的吸引力。

更何况有8亿使用者的印地语,网页排名与600万使用者的挪威语相当。

你说印度人又该找谁说理去......




        

相关话题

  如何看待蚂蚁保近期推出的电信诈骗险?对解决诈骗问题有帮助吗? 
  为什么 21 年互联网大厂出现大规模裁员情况? 
  小品《互联网体检》引热议,体检前先超长广告,想跳过可以开会员,这些互联网模式真正带来了更好的体验吗? 
  如何看待新浪微博在 9 月 27 日上线的「博主拉黑全站禁评」功能? 
  如何评价《海外热议中国盗版业失败 PC盗版游戏将死》? 
  工信部「今年 1-2 月互联网收入增速下跌」,受哪些因素影响? 
  茅台开发新电商平台,这对消费者有什么影响?你期待它的上线吗? 
  要进入各大英文字幕组的话,英语需要达到什么水平? 
  如何评价马云让菜鸟网络再投上千亿建设的国家智能物流骨干网? 
  有哪些发源于知乎的网络流行语? 

前一个讨论
transformer 为什么使用 layer normalization,而不是其他的归一化方法?
下一个讨论
如何看待阿里云被暂停工信部网络安全威胁信息共享平台合作单位?





© 2024-05-09 - tinynew.org. All Rights Reserved.
© 2024-05-09 - tinynew.org. 保留所有权利