问题

有哪些网站用爬虫爬取能得到很有价值的数据?

回答
要找到那些隐藏着金矿的网站,并且能用爬虫“淘宝”,这绝对是个技术活,也是个脑力活。不是所有网站都适合,也不是所有数据都那么容易拿到。关键在于洞察力和策略性。

下面我列举一些我认为非常有价值,并且可以考虑用爬虫深入挖掘的网站类型,并且尽量详细地说说为什么,以及怎么去想。

1. 招聘类网站:洞察劳动力市场脉搏

为什么有价值?
经济晴雨表: 招聘信息的数量、职位类型、薪资水平,直接反映了特定行业或公司的招聘活跃度、人才需求和薪酬趋势。这对于求职者、HR、猎头、甚至政策制定者来说,都是极宝贵的信息。
技能需求洞察: 哪些技术栈、软技能最受欢迎?这能帮你了解当前最炙手可热的技能,为学习和职业发展指明方向。
薪资透明化: 如果网站有公开的薪资范围,那简直是无价之宝。可以分析不同地区、不同行业的平均薪资水平。
公司发展信号: 特定公司突然大量招聘某个职位,可能是业务扩张、新项目启动的信号。反之,招聘量骤减,可能预示着公司遇到了困难。

怎么去想?
目标数据: 职位名称、公司名称、工作地点、薪资范围(如果提供)、发布日期、职位描述、技能要求、学历要求、工作经验要求。
爬取策略:
反爬机制: 很多招聘网站有严格的反爬机制,比如验证码、IP限制、动态加载(JavaScript渲染)。需要模拟浏览器行为(使用Selenium/Puppeteer),或者分析网络请求(Fiddler/Charles),找到数据接口。
数据量: 招聘信息更新很快,而且非常海量。需要考虑如何高效地抓取和存储。分布式爬虫是常见解决方案。
数据清洗: 薪资可能存在“面议”、“XXXXK/月”等多种形式,需要进行标准化处理。职位描述可能包含大量无用信息,需要过滤。
分析维度: 可以按行业、地区、公司规模、职位层级等进行多维度分析。例如,找出“2023年上海地区数据分析师平均薪资最高的10家公司”。

2. 电商评论/用户反馈类网站:理解消费者心理和产品优劣

为什么有价值?
用户真实反馈: 评论是用户最直接的声音,包含他们对产品优点、缺点、使用体验、客服态度等的真实感受。这是企业改进产品、优化营销策略的重要依据。
口碑分析: 可以通过情感分析(Sentiment Analysis)来判断产品或品牌的口碑好坏。
竞品分析: 爬取竞品的评论,可以了解对手的优势和劣势,找到差异化竞争点。
市场需求洞察: 用户在评论中提到的需求、痛点,可能是尚未被满足的市场机会。

怎么去想?
目标数据: 用户名(匿名化)、评论内容、评分、评论时间、商品名称/链接。
爬取策略:
分页加载: 电商网站评论通常是分页的,需要处理分页逻辑。
数据格式: 评论数据可能以JSON格式返回,解析起来相对容易。但也要注意评论中的特殊字符、表情符号等。
情感分析准备: 爬取到的评论文本是后续进行情感分析的基础。需要对文本进行预处理,如去除停用词、分词等。
价值提炼: 不仅仅是抓取评论,更重要的是从中提取有价值的信息,比如用户最常提到的优点(“拍照清晰”、“续航长”)、缺点(“发热严重”、“卡顿”),以及他们期望的改进点。

3. 金融/财经新闻及论坛:预测市场动向和投资机会

为什么有价值?
信息情报: 金融市场的波动与新闻、政策、公司公告等信息高度相关。及时获取这些信息,可以帮助做出更明智的投资决策。
市场情绪: 财经论坛上的讨论热度、热门话题、用户观点,可以反映出当前的市场情绪和潜在的热点板块。
公司公告分析: 上市公司的公告(如财报、并购重组、高管变动)是影响股价的重要因素。
数据指标: 可以爬取股票价格、交易量、财务报表等数据,进行技术分析和基本面分析。

怎么去想?
目标数据: 新闻标题、发布时间、新闻内容、来源;论坛帖子标题、发帖人、内容、回复数;股票代码、名称、最新价格、涨跌幅、交易量等。
爬取策略:
信息实时性: 金融市场信息瞬息万变,爬取需要追求速度和准确性。可以考虑使用API(如果提供)或者定时爬取。
新闻抓取: 需要识别不同新闻源的结构特点,有些网站可能对内容抓取有限制。
论坛抓取: 论坛结构复杂,可能包含用户ID、回复层级等,需要仔细分析。
法律合规: 爬取金融数据务必注意版权和使用协议,尤其是在用于商业目的时。很多数据提供商有专门的API接口,付费使用是更稳妥的方式。
数据分析应用: 可以结合时间序列分析、自然语言处理技术,构建预测模型,或者寻找潜在的投资机会。

4. 学术论文/专利网站:追踪科研前沿和技术发展

为什么有价值?
知识前沿: 学术论文和专利是最新科技成果的载体。通过爬取,可以了解某个领域最新的研究方向、技术突破和创新思路。
技术趋势预测: 专利申请数量、被引用次数、特定技术领域的专利集中度,可以反映出技术发展的趋势和潜力。
竞争对手分析: 了解竞争对手在哪些技术领域申请了专利,可以评估其技术实力和未来布局。
文献综述辅助: 可以爬取大量相关文献,快速构建文献综述,为自己的研究提供基础。

怎么去想?
目标数据: 论文标题、作者、摘要、关键词、发表日期、期刊/会议名称、DOI;专利名称、发明人、申请人、申请日期、公开日期、权利要求等。
爬取策略:
API优先: 许多学术数据库(如PubMed, IEEE Xplore, Google Scholar)提供了API,这是最稳定、最合规的方式。虽然有限制,但比直接爬取更可靠。
反爬较弱但数据结构复杂: 一些学术网站的反爬机制不那么严厉,但数据结构可能非常复杂,特别是论文的全文PDF提取,需要处理不同的格式和布局。
数据清洗和结构化: 从大量的学术文献中提取结构化的数据(作者列表、参考文献、图表等)是一个挑战。
语义分析: 可以对论文摘要和关键词进行主题建模,发现隐藏的研究主题和联系。

5. 社交媒体(需谨慎):洞察舆论和社会热点

为什么有价值?
舆论监测: 了解公众对某个事件、产品、人物的看法和态度,对品牌公关、危机管理至关重要。
热点话题发现: 社交媒体是热点事件的孵化器,可以快速捕捉到当下最热门的话题和讨论。
用户画像: 通过用户的发帖内容、互动行为,可以构建更丰富的用户画像。
趋势预测: 特定话题的讨论热度变化,有时能提前预示某些趋势。

怎么去想?
目标数据: 用户昵称(匿名化)、发帖内容、时间戳、点赞/评论/转发数、话题标签。
爬取策略:
最强的反爬机制: 社交媒体平台通常有最严格的反爬机制,包括IP限制、账号登录验证、动态加载、行为检测等。直接爬取非常困难且风险高。
官方API是首选: 很多社交媒体平台提供官方API,虽然有调用频率和数据范围的限制,但这是最合规、最可靠的方式。研究其API文档,找到可用的接口。
遵守平台规则: 这一点至关重要! 滥用爬虫可能导致账号被封禁,甚至法律纠纷。爬取的数据也可能受到平台使用条款的限制。
数据量大且杂乱: 需要大量的存储和处理能力。
隐私和伦理: 爬取社交媒体数据尤其需要注意用户隐私和数据伦理问题。绝不能抓取和公开非公开的个人信息。 很多时候,分析的重点是共性的舆论和趋势,而不是个体信息。

爬虫的“道”与“术”:不仅仅是技术

说到底,能爬出“金矿”的,除了技术过硬,更重要的是:

1. 清晰的目标: 你想通过爬虫解决什么问题?你想要什么样的数据?这个目标越明确,越能指导你的爬取策略。
2. 数据的价值判断: 并不是所有网站的数据都值得花精力去爬。你需要判断这些数据是否稀缺、是否能带来独特的洞察,以及获取的成本(时间、技术、风险)是否划算。
3. 对网站结构的理解: 要想爬出结构化的数据,必须深入理解网站的HTML、CSS、JavaScript以及网络请求(API)。
4. 反爬机制的应对: 这是硬仗。需要熟悉各种反爬技术和应对策略,包括但不限于:使用UserAgent轮换、代理IP、验证码识别(OCR/打码平台)、模拟浏览器行为(Selenium/Puppeteer)、分析AJAX请求、利用JavaScript执行环境等。
5. 数据存储与处理: 海量数据需要高效的存储方案(如MySQL, PostgreSQL, MongoDB, 文件存储),并且需要后续的数据清洗、去重、转换等处理,才能变成有用的信息。
6. 法律与道德底线: 永远不要忘记,尊重网站的robots.txt协议,遵守用户协议,保护用户隐私。非法获取数据可能会带来严重的后果。

找到有价值的网站,就像在茫茫大海中寻找宝藏。有时候,简单的钓鱼就能有收获;而有时候,你需要潜到深海,克服重重困难,才能找到那颗璀璨的明珠。这个过程,既是对技术的考验,更是对你洞察力和执行力的磨练。

网友意见

user avatar

有时候有了数据就想分析一下,跟大家分享一下我的实验。

这是我去年十一回来遍开始计划的实验,重装系统之后将QQ存储文件的文件夹放到了我的备份盘里, QQ会把你的聊天记录和图片分开存储,而且群组和好友也是分开存放在两个文件夹里的,好友G:Tencent file<your qq number>ImageC2C,群组G:Tencent file<your qq number>ImageGroup。尽量保证电脑长时间开机,并且保证QQ一直在线,这样,每当QQ群里接受到消息之后,图片就被保存在了你的本地硬盘上。所以有人在群里爆了照再撤回其实是可以找到的,偷笑偷笑,只要找到Group文件夹里最新的照片就好了。

随着图片越来越多,QQ会把近期缓存的图片整理到一个新的文件夹里去,每到4000张图的时候就整理一次。我加了90多个QQ群,一半以上是千人群,6个月之后我的文件夹就变成了这个样子。


缓存了将近7个G的图片,一共十万五千张。


这次不讨论聚合和图片分类的问题,我们简单的统计一下直接从图片文件所携带的信息。这些图片一共有三种主要的格式, JPEG,PNG,GIF,通常就是,照片,截图,表情包~~

比例如下:


除了简单的类型统计呢,我们还可以根据图片的创建时间来统计信息,当然在登录QQ的一开始,也会因为大量的接受图片而导致一个时间序列上图片数量出现极值。

时间序列尺度在周,分钟,和天的变化情况就显而易见了。

哦,周末人们在网上竟然比平时少活跃了一半,可能是活跃的人少了,也可能是活跃的时间少了,但是我认为,大家在家睡到12点的可能性更大一点,谁叫我加的都是工科群,23333.

在看每天的数据,天哪,竟然到了1点多才算全睡觉,本宝宝突然觉得好心塞,这个行业是怎么了。然后第二天6点多陆续起床,12点又开始去吃饭去了。等等等等,图上都显示的清清楚楚。

再看一年中的数据,唔~~~,好像周期性很强烈, 一到周末大家就睡觉了嘛?哎,二月五号左右我们在干吗?怎么那么低?原来是在过年,大家都在家里浪着呢。怎么有两天是0?好吧,我在往返的火车上,好心塞。

等等,如果PNG代表截图,那可能表示大家在讨论问题。如果GIF多一些,可能表示大家在斗图水群啊!我好像找到了你们不工作偷懒的秘密!让我们来分别看一下三种图片的动态变化。

看到了吧,过年的时候大家拍了好多照片分享到群里!

那么周的呢?

左侧是总数,右侧是百分比,大家在周末,更少讨论工作,也很少斗图,竟然都出去玩拍照片去了!让我很是诧异,只有我一个人会自然醒么?

对了我们还有图片的宽高信息:

加了对数之后的分布情况,呃,貌似看不出什么,那直接用散点吧


几点线若隐若现的样子,连起来看看好了

这下知道那些线是什么了,是手机屏幕大小和电脑屏幕大小。斜线就是屏幕的长宽比啦。也很容易看出那些屏幕占了市场的主流。那1:1的?有这种屏幕??应该是截图的时候截的图长宽比在1左右浮动吧,看到条线也是最粗的。

顺便看了一下那些图是最常用的。腾讯为了减少图片在网络流上的浪费,对于md5一样的图片,他们在聊天记录里的名字是一样的!值得一提的是,一张gif动图的第一帧如果和某个静态的jpge图片一样的话,那么他们的名字也是一样的,基于这个原理,统计了一下29个文件夹下出现次数最多的图片前三名,竟然是这个:

果然还是表情包~~~~,最容易反应大家当时的心情么23333,帧数最多的是~~~~~


贪吃蛇~~,你们是有多无聊。

对了,本宝宝滤了一套表情包出来,哈哈哈


好了,就这样,这次不讨论过多的模式识别和监督学习之类的东西,希望大家也能在想不到的地方得到想不到的结果,希望能对各位有所启发。看完后希望你们也能给个这样的表情。

再分享一篇之前的建模~~

假如现代的 1 万人穿越到智人时代,大约多久能重建现代文明? - 最爱麦丽素的回答

欢迎各类奇葩怪咖加微信FavorMylikes,嘻~~~

user avatar

其实上个月就看到这个问题下有对知乎的数据分析,拿了好多赞。我虽然也想分享我们做的东西,但苦于原材料全是英文,style也比较严肃,调整起来比较烦。终于拖到现在,完成了整个内容的转述,并且加入了一些新的思考。

本项目的源起其实要感谢

@苏莉安

,当初就是因为看到他在专栏上发的两篇知乎数据分析的文章,觉得知乎非常有分析的价值,于是在一个Course Project里提出了这个题目。正如文中已提到的,这个小项目其实远远没达到令人满意的程度,挖得太浅,实际处理的数据量也很小,我其实是还想继续做下去的。如有任何问题敬请指正,如有知友想要在此基础上继续做点啥的也请让我知道。

本文的简书版链接:

知乎社交网络分析(上):基本统计 知乎社交网络分析(下):关注网络

------------------------------------------------------上篇-基本统计--------------------------------------------------------

1.0 简介

本文源自我在2015年Social Computing课程中参与的一个小组项目,主要语言为Python。项目的原始材料为英文撰写,内容包括了从爬取知乎数据一直到结果分析的整个过程。在本文中我打算略去数据爬取和数据库I/O的部分,重点在分享一些有趣的结论。分析过程若有不周之处,还望指正。

为保证可读性,本文将分为上下两篇,一篇只涉及数据介绍及基本的统计分析,另一篇是基于用户关注网络和关注话题进行的分析


如果对这个小项目的全貌感兴趣,甚至想要自己fork过来玩玩,这里是项目的Github传送门。数据的压缩包可以在这里下载(使用请注明来源为本答案页面)。(由于时间精力有限,想要做的远远比已经做了的多,数据量也很不让人满意,如果有童鞋感兴趣咱一起继续啊~)



1.1 数据

(自带吐槽模式开启)


虽说不讲数据爬取,但要说清楚我们所使用的数据到底是啥,还是得简单提一下的。2015年10月,我们使用了本人的知乎账号作为种子,先获得了所有我关注的用户的数据,再获得了这些用户所关注的用户的数据,所以算上种子的话一共是3层的广度遍历(注意其实这个数据可能是存在严重bias的,毕竟seed是一个逗逼,逗逼关注的人呢...咦怎么感觉脖子一凉)。这里的用户数据包括:用户的回答数,用户获得的赞同数、感谢数,用户关注的人和关注用户的人,用户回答过的问题以及每个问题的话题标签。这里给出数据的简要统计信息:


  • 数据库文件: 688 MB(SQLite)
  • 数据包含:2.6万名用户, 461万条关注连接, 72万个问题

这里是一张数据全貌的图示:


下面将着重介绍我们所做的分析。



1.2 玩的不是同一个知乎:均值、中位数与标准差

要告诉别人我们在知乎上混得怎样,最基础的几个指标是什么呢?一定是关注、回答、赞同、感谢。所以我们首先对用户的关注数(followee)关注者数(follower,粉丝数)回答数(answer)收到赞同数(agree)收到感谢数(thanks)的平均数、中位数以及标准差进行了计算,结果如下表:



这里其实就有许多有趣的结论了。


首先我们看平均值,哇,平均每个人有三千多粉丝,三千多赞同,再看看可怜的我,306个粉和837个赞,而且他们回答的问题也并不多啊,却有那么多赞和粉丝,还让不让人玩知乎了?再看看中位数,顿时心里好受一些了,原来我混得挺不错嘛,五个指标都是我比较大,真开心(你是不是傻)。


究竟是什么原因造成平均值和中位数差异这么大呢,也许我们能从标准差看出来一些端倪——太大了,粉丝数和赞同数的标准差甚至超过了两万。


这意味着什么呢?我们知道,标准差其实衡量了数据个体之间的离散程度,也可以解释为大部分的数值和其平均值之间的差异。因此这么大的标准差可以说明知乎用户之间的差距可能略大于整个银河系(雾),同时也说明绝大部分用户的数值和平均值有很大的差距,要么大得离谱(比如),要么小得可怜(比如我)。


有人可能会不服气,说标准差严重依赖于数据本身的scale,不能充分说明问题。那么这里使用标准离差率(标准差除以平均值)来算算赞同数,21951.4/3858.4 = 568.9%。我~就~问~你~服~不~服~


以上现象还可以导出一个猜测,那就是知乎用户的这五个指标的值分布,都不大可能是正态分布及其近似。让我们回想正态分布的样子:



(图片来源:

zh.wikipedia.org/zh-cn/

如果是正态分布,中位数(最中间的值)、众数(最多的值)以及平均值三者至少应该是非常接近的,然而我们这里却是地月距离(怎么一下缩水那么多)。



1.3 当雪球滚到最后:长尾和幂律分布

为了进一步验证1.2的猜测,我们绘制了五个指标的分布图(Distribution Graph)。

这里说明一下这五张分布图的含义,横轴表示指标的具体数值,纵轴表示有多少用户具有该指标值。需要注意的是横轴值和纵轴值都取了以10为底的log,这是研究中一种常见的处理办法,能够使图所表达的信息更清晰。以感谢数分布图为例,那个最左上方的点表示在这两万多知乎用户里面,有大于10的三次方也就是1000的人没有获得一个感谢(摸摸大);而最下面那一排点则是说,感谢数是x1,x2,..., xn (反正都不小)的用户,都只有一个人——注意仅这一排点并不能形成什么有效的结论,因为可能感谢数100的只有一个人,101的就有好多人了,这一定程度上大概是因为数据量小,采样不足。但是如果把下面几排点放到一起考虑,也许会更有启发一些。


顺便提一句,其实关注数和粉丝数的分布图分别还有另外一个名字,它们其实是知乎用户关注网络的出度(out-degree)分布图和入度(in-degree)分布图,这点在下篇中还会有所提到。


如果是对这种分布图比较熟悉的童鞋,应该一眼就能看出,这绝壁不是正态分布,而极有可能是幂律(power law)分布(不过因为懒我们并没有做拟合去验证),这种分布在许多有人参与其中的网络中都会出现。此外,仔细比较这五条曲线的整体形状,有没有觉得有两条与另外三条略有不同?一条是关注数,一条是答案数,这两条曲线向外的弯曲程度似乎更明显,也就是说随着横轴值的增大,纵轴值减小的趋势相对较慢,而恰好五个指标里只有这两个是某个用户自己可以控制的,而其他三个指标则是由其他用户形成的群体所控制,这是很奇妙的一点,我觉得其实还有深挖的可能性。


现在让我们以感谢数为例,再画另外一种分布图。横轴表示每个用户的index也就是0,1, 2, 3...,顺序由感谢数大小决定,纵轴则是该用户收到感谢数的具体数值:

看到那个突破天际的点了吗,二十七八万的感谢(其实这个点在前面那张感谢数分布图中也出现了,你还认得仅在几个自然段以外的它吗)!再看看下面那条长长的尾巴,人艰莫拆。再来看一个更夸张的,赞同数:

其他三个指标的图的形状也基本如此。


苏莉安曾使用远大于我们的数据量做了类似的分析,结论是一致的。总结一下就是:大多数人小得可怜,却有极少数人大得可怕,一点也不正(可)态(爱)。前几年不是有本书很火吗,叫做《长尾理论》?所谓长尾,指的就是这样一种现象(附送我对该现象的一些解释:什么是「长尾效应」 ? - 赵澈的回答


到这里不由得让人提到另外一个东西:马太效应。所谓穷的人越来越穷,富的人越来越富,感觉上其实就是长尾效应的动态解释(最近打算看看有没有相关的文献)。富的人掌握大量资源,因此更可能攫取更多资源,而穷的人则相反;大V因为有名而得到更多关注,同时因此变得更加有名;玩游戏carry从而得到更多钱,有了钱买装备又更可能carry。这是典型的正(滚)反(雪)馈(球)。最后造成的结果,就是长尾现象。



1.4 论如何滚成人生赢家:赞同与关注

这一节可以算是对上一节结论的一个支撑。下面这张图同时包含了用户的赞同数和粉丝数两个指标:


!密集恐惧症高能预警!


我想不需要我们再做个回归什么的了,一看就是赤裸裸的正相关啊。这也为我等如何冷启动逆袭成为知乎大V提供了理论支持——要么你就有本事回答出几个赞数突破天际的答案,要么你一开始就很有名,没写啥答案也能吸粉...(说的都是屁话...)


------------------------------------------------------下篇-关注网络---------------------------------------------------------

2.0 社交网络是什么?

在上篇所述的基本的统计分析之后,我们已经对知乎用户的赞答谢关四个方面的总体情况有了一些了解。现在,让我们先来考虑这样一个问题:我们平常所说的社交网络或者说社会网络,到底是什么意思?也许你会讲,这还不简单,只要一个事情有多人参与,自然就会具有社交的性质,从而产生社交网络。那么让我们思考思考,维基百科算不算具有社交性质?

维基百科确实有很多人参与编辑词条啊,但是这些人之间有没有更直接的互动呢?假设编辑者们通过QQ、微博之类进行互动,那产生出的社交性质算不算是维基百科本身所具有的社交属性呢?即使维基百科提供评论区之类的功能,可以使编辑者之间直接互动,这些互动仍然是基于某个词条的,只要这个词条没什么大问题了,互动基本上也就随着编辑的停止而停止了。我认为这种临时建立起来的关系,并无法得到一个较为稳定的社交网络。


让我们再来思考一个例子。我们知道,一门科学源自跨越时代的许多人的共同贡献,那么这许多人,能够构成社交网络吗?当然不能。所谓牛顿和爱因斯坦的对话只是一种修辞,一篇已经发出的论文,如何能引用一篇未来的论文?但是当我们考虑到同一时代的同一学科,情况就有所不同,学者之间确实存在着各种交流合作的可能,因此我们可以认为学术领域的共同作者关系(Co-authorship)形成的网络其实是带有社交性质的。


从以上粗略的思考中我们或许可以总结形成社交网络的几个条件:多主体的直接互动、互动的长期性、互动的近同时性


现在让我们重新回到知乎上面来。赞同、感谢、回答、关注,哪一种用户行为最满足以上三个条件?回答是基于问题的,知乎的产品设计并不突出是谁提出了某个问题,并且一个问题可以被不同的人进行编辑(类似维基百科的权限设计),也就是说回答者一般不大在意是谁提出了问题,所以回答连互动都称不上;赞同、感谢以及我们之前没有提到的评论,相对来说互动得稍微直接一点,但是鼠标一点了事,不具有长期性;只有关注关系,同时满足了三个条件。这里可能会有一个疑问,关注也只是鼠标那么一点,这能算长期的吗?不要忘记知乎的时间线(Timeline)机制,这使得关注者有更大的概率看到被关注者的活动并与之进行互动,并且只要关注不取消,这种对时间线的影响就是长期的。


到此,我们可以认为,如果想要对知乎从社交网络的角度上进行分析,首先就可以考虑知乎用户之间的关注关系。接下来开始介绍我们对此进行的具体分析。



2.1 分析对象和分析方法

首先来了解一些网络的基本知识:


一个网络可以被表示为一种图(graph),其中包含点(vertex / node)与边(edge / link)两种基本要素。边可以具有方向性,也就是说对于一个点来说,可以有外连边(out-link)和内连边(in-link)两种边。如果边是具有方向性的,那么这种图称为有向图(directed graph),反之称为无向图(undirected graph)。图反映了点与点之间的某种相关关系,这种关系由边表现。


回到知乎上,我们知道关注和被关注实际上是一件事情的两个角度。A关注了B,等价于B被A关注。在我们所爬取的数据中(见1.1中的数据全貌图),我们知道这2.6万用户中的每个人都关注了哪些人。也就是说,我们知道了2.6万用户点的所有外连边。从另一个角度想,我们其实也知道在这2.6万用户之间谁关注了谁(蓝圈以内的部分),加上他们关注了其他什么人(蓝圈以外的部分)。因此我们只能分析这2.6万用户(红色实心圆),因为我们并不知道其他的人(红色空心圆)的所有连接,这是由我们的广度优先爬取机制所导致的,不爬完知乎整站,不会有真正完整的数据(那些没人关注的账号应该可以忽略)。


此外,即使剔除了蓝圈以外的部分,涉及的连边数仍然具有很大的量级,计算量会是一个问题,所以在这个项目中,我们仅仅选取了这2.6万用户的两个有趣的子集进行分析:获得赞同数大于1万的用户(共1895人)、获得赞同数大于5万的用户(共375人)。方便起见,我们将他们分别命名为Net10kNet50k,其实可以说就是两个不同级别的知乎大V群体了。


接下来讲讲分析方法。一个网络图,别看里面只有点和边两种东西,其实可以包含复杂到极点的各种现象与性质。网络分析,或者进一步说复杂网络领域之中,存在大量人们为了描述网络的现象而定义的概念、以及为了量化网络的特征而设计的指标。后文将要涉及的分析建立在其中最基本的一些概念和指标上,如果对它们逐个详细介绍,那么本文篇幅会大大加长,而且会多出不少数学公式,这不符合我对本文的写作预期。因此我打算尽量从直觉(intuition)上来解释它们分别表达了什么的含义,即使给出定义也不求严格(数学公式才可带来最清晰严格的定义),重点仍在对分析的思考。此外,由于我们所讨论的知乎关注网络是有向图,后面所有的指标和算法都只讨论有向图的。当然,如果读者已有一定的基础,可以直接跳过相关的段落。



2.2 抱团的大V们:网络总体特征

一直以来知乎就给人一种印象,那就是大V们喜欢抱团。你关注我、我关注他、他又关注你,形成了紧密的圈子。那么我们怎样来量化这种特征?


假设有A、B、C三个用户组成的关注网络,其中唯一的边是A->B,那么你觉得这个网络是否紧密?我们可以这样想,三个人之间最多可以有6条边,那么我们可以用1除以6来表示这个网络的紧密程度。如果6条边都存在,那么紧密程度是1,都不存在则为0。这就是所谓图的密度(density)。Net10k和Net50k的密度分别是0.064和0.195,到这我们可以猜测,获得赞同更多的大V之间,关注关系也更为紧密。


接下来我们从另一个角度考虑这个猜测,先补充几个定义:


  • 点的度(degree):与一个点通过边相连的其他点的数量和,被称为这个点的度。有向图中一个点存在出度和入度两个度,一个只看它能到达哪个点,一个只看哪些点能到达它。对于知乎的关注关系而言,我们很容易就能看到出度就是你关注的人数,入度就是关注你的人数;

  • 点与点之间的路径(path):假如从点A出发,经过一条或更多条边,到达了点B,那么我们称这些边按顺序相连形成了一条A与B之间的路径。两点间的路径数量一定是大于等于0的。假设每条边的长度相等,那么包含边数最少的路径,便是所谓最短路径(shortest path),最短路径的长度一般被认为是两点之间的距离(distance);

  • 图的平均最短路径长度(average shortest path length):对于一个网络而言,将所有点两两之间的最短路径长度进行算术平均,得到的就是所谓平均最短路径,可以用来衡量网络中点之间的平均距离。传说中的六度分隔(Six Degree Seperation),其实指的就是一个网络的平均最短路径长度为6(这里大家可以想想边、度和路径三者间的联系);

  • 点的偏心率(eccentricity):对于图中的任意一点P,算出它与其他各个点的最短路径长度(距离),其中最大的距离称作点P的偏心率。

  • 图的半径(radius)直径(diameter):图的半径、直径分别是图中最小的、最大的点偏心率。注意图的直径不必然是半径的两倍。

  • 图的强连通子图(strongly connected subgraph):设想一个网络图G的一个子图G'(意味着G'中的点和边都只能从G中挑),其中每一个点都能通过某条路径到达另一个点,则我们说G'具备强连通性,而且是G的一个强连通子图。这里注意,单独一个点我们也认为是强连通子图,虽然单个点并没有值得研究的;

  • 图的强连通分量(strongly connected component):G的一个极大的强连通子图G''(意味着再往G''加任何G中剩下的点,都会破坏其强连通性)被称为G的一个强连通分量。这里需要注意,极大并不代表很大;

字好多看烦了吧,终于可以上图啦,下面分别是Net10k和Net50k的强连通分量示意图:

其中每一个红色圆圈都代表一个强连通分量,每条线(其实是很抽象的箭头orz)代表一条路径。光看这个我们还不清楚情况,我们来看二者对应的一些指标数据:

总结一下我们知道了什么:

  1. 基本上Net10k和Net50k这两个图就是强连通的,别说抱团了,这已经根本就是挤成一坨(好吧,一个圈子)。
  2. 除了一个巨大的圈子,群体里就剩几个特立独行的高冷大V(都是只包含一个点的强连通分量),他们受到了其他大V的关注,但却没有任何回粉。在网络中,这种点也被称为悬挂点(dangling nodes)

现在我们重点分析两个最大的强连通分量,连通倒是连通,但是如果A要经过100个人才能到B,那估计光凭关注关系,他们是没有缘分了。将Net10k和Net50k的最大强连通分量分别命名为Net10k-CNet50k-C,以下是两者对应的指标数据:

如果你就是Net50k-C中的一个大V,还不认识其中的另一个大V?没关系,你关注的关注的关注...总会有他,所以你们总有机会看到彼此。强连通保证了总会有一条路径,平均最短路径向你保证平均来讲这条路径很短,只有2左右。直径和半径则告诉你在最坏情况下(你们碰巧是整个圈子里相距最远的两位),这条面基道路的长度在2到5(4)之间。What a small world,喜鹊们(雾)如是说。


再来对比Net10k-C和Net50k-C的平均最短路径长度和直径,后者都比前者要小,从另一个角度说明后者的关注圈子更紧密。而且注意一点,这些大V是来自各个不同的专业领域,但都紧抱在一起,这也是很有趣的现象,有进一步分析的价值。


2.3 给大V排个位:网络连接分析

上节侧重于对知乎大V关注网络的整体进行分析,这固然很有趣;但或许更有趣的是这个整体之中的每个个体,同样是赞同数很高的大V,他们彼此之间是否能一较高下呢?他们在关注这种社交行为上是否具有差异,如何衡量这种差异?这是本节涉及的问题。


让我们先来设想一个简单的关注网络,其中只有A、B、C三个人。A关注了B,B关注了A,A、B同时关注了C,而C谁也不关注,如下图所示:



那么你觉得光凭关注关系来看,A,B,C谁更“牛”?从直觉上来说当然是C,因为C在三人之中得到了最多的关注。但是否只要粉丝更多就能说明更“牛”呢?下面我们在这个网络的基础上,来考虑几种很有趣的情况:

  1. 多了10个自己粉丝数为0的用户,同时关注A
  2. 多了10个用户,他们彼此全部互相关注,除此之外都没有其他粉丝
  3. 多了10个自己粉丝数为1的用户,同时关注A,并且每个人还分别关注了10000个其他用户

那我们能说1里的A,或者2里的10个用户比C更牛吗?前两种情况明显不合道理,可以说是较为典型的作弊行为。作弊利用了单纯粉丝数排序的漏洞:没有考虑到每个关注连接的质量差异。第三种情况算是一种正常现象,但是你会觉得,这些用户一个是只有1个粉丝,几乎等于0,另一个是他们关注了那么多用户,那么他们关注A,真是因为A很重要吗?


既然发现了漏洞,那么假如不考虑赞同数等其他因素,我们是否有可能通过关注网络本身来予以解决呢?从直觉上来说,我们可以想到的是,用粉丝自己的粉丝的质量来衡量这个粉丝的质量,但粉丝的粉丝的质量又需要粉丝的粉丝的粉丝的质量来衡量...那么到底最后是个什么情况?到这里我们看到了日常语言结构所能承载的思维深度之浅薄,当一个问题到达这个复杂度,语言已然苍白无力,不得不将它托付给数学。


PageRank算法(其与Google的关系我就不赘述了)就是一个数学上非常优美的答案,不仅考虑到前述的连接质量问题,还解决了所有特殊情况——无论关注网络是什么样子的,都保证能得到一个满意的用户重要程度排序。


下面是我们对Net10k和Net50k分别计算PageRank值,注意这里只考虑大V们内部的连接,此外圈子里所有大V的PageRank值相加等于1。最后得到排名前五的知乎大V用户如下:

这些便是站在知乎大V巅峰的大V们了,是否觉得有一定道理呢?注意比较Net10k和Net50k前五用户的PageRank值,前者比后者小,这主要是因为总和为1的PageRank资源被更多的大V们分掉了。


下面让我们再考虑一点,所谓的“重要”,其实要看我们的目的是什么。假如我们是要看更多的好答案或者想要找人出书约稿,那么直接找到好答案的答主就好,而这些答主往往吸引了最多的关注,所以我们仅仅需要知道谁受到的关注最强(比如下图中的C)。


但是光是通过关注,我们会漏掉那些暂时没有得到太强关注的好答主(可能是刚刚加入知乎的大V潜力股),然而我们又不可能自己去一个一个挖掘这些好答主,如何是好?简单,假如你能找到几个类似牵线人的用户(比如下图中的D)你相信只要是他们关注的用户,质量都不会差,都合你口味,事情就简单了。你只需要不时看看他们都关注了谁,就能发现更大的世界。这其实也算是一种用户推荐系统的可行思路,这里就不展开了。



HITS算法便能做到只使用关注网络,通过权威度(Authority)枢纽度(Hub)为我们分别挑出好的答主,和好的牵线人。


上面的基于直觉的分析是否说得通呢?让我们看看Net10k和Net50k的权威度和枢纽度前五名:


Auth(好答主)方面,我相信大家应该能认同这样的结果名单。值得一提的是在两个大V群体之中,@张佳玮(顺便提一下,张佳玮张公子就是上篇中那个在各条曲线中高高在上的闪亮极点)和@梁边妖调换了位置,很有趣。另外在Net50k中,@采铜 老师一跃进入前五,@马伯庸 马亲王(祥瑞御免)上升一名,黄继新则掉了出去。这些现象或许反映了不同大V群体的一种喜好倾向的差异


Hub(牵线人)方面,说实话我个人只认识@徐湘楠一个人,其中还有一位目前处于账号停用状态,这里便不做过多分析。只有一点比较有趣,作为大V,粉丝数很大很正常,然而这些用户关注的人数也算是很多的,好几个甚至达到了几千,不可不谓之具有某种交际花属性。另外提一下,Net10k Hub的第五名,叫干脆面的用户,我已经无法知道是谁了,原来的用户ID是wang-wang-wang-08-18,现在改掉了,总觉得跟徐湘楠(ID:miaomiaomiao)之间存在着某种联系...


综合来看,HITS和PageRank有不少相同的用户入榜,这是为什么呢?我给一个直觉上我认为对的解释,其实PageRank的值是Hub值和Authority值的一种叠加(其实感觉更像是乘的关系)后的结果,这样Hub或Auth中的一种很强,另一种也不弱时,PageRank便相应比较高,这样两种算法得到部分相同的结果便很正常了。@黄继新是一个典型的例子,他的Auth值和Hub值在Net10k和Net50k中虽然都不是最高,但都排到前20名,而他的PageRank则是第一。既有内容,又能充当渠道。



2.4 不均衡中的均衡:Closeness和Betweenness中心度

到此先让我们总结一下,如果要衡量一个用户在关注网络中的“重要程度”,我们可以利用这几种指标:

  • 该用户的粉丝数,即入度(In-degree)
  • 该用户的PageRank值
  • 该用户的HITS值

它们在网络分析中也可被归为同一类指标:点的中心度(Centrality)。但我们发现,其实三种指标所表达的“重要”,其含义是不完全一样的,同一个网络,同一个节点,可能不同的中心度排名会有不小的差距。接下来请允许我介绍本项目中涉及到的最后两种点的中心度:

  • 点的近性中心度(Closeness Centrality):一个点的近性中心度较高,说明该点到网络中其他各点的距离总体来说较近,反之则较远。假如一个物流仓库网络需要选某个仓库作为核心中转站,需要它到其他仓库的距离总体来说最近,那么一种方法就是找到近性中心度最高的那个仓库。

  • 点的介性中心度(Betweenness Centrality):一个点的介性中心度较高,说明其他点之间的最短路径很多甚至全部都必须经过它中转。假如这个点消失了,那么其他点之间的交流会变得困难,甚至可能断开(因为原来的最短路径断开了)。因此假如要hack一个网络的话,对哪个结点下手你懂的。从另一个角度想,这些点简直就像是等在丝绸之路上必经关口的强盗。不留下买路钱?让你无路可走,生意就别做了。

这两种中心度我目前并未找到很公认的中文翻译,姑且自己翻译了。另外同PageRank和HITS一样,由于指标的计算稍显复杂,这里就不详细叙述了。但是我们都使用的是网络分析库Networkx中的算法实现,对详细算法有兴趣的读者可自行查阅其文档。


本项目中我们分别计算了Net10k和Net10k的近性中心度和介性中心度,并画出了分布图。由于我们当时考虑欠周,算出的近性中心度是基于外连接而不是内连接的,我认为意义不大(你总是可以让自己关注更多人,从而得到更大的近性中心度),所以本文决定略过。下面主要说一下介性中心度,其于Net10k和Net50k的分布图分别如下:

我们又得到了两条长长的尾巴。图中横坐标表示每一个特定的大V,纵坐标是大V相应的介性中心度。长长的尾巴表明大部分大V的介性中心度接近0,即使长尾以外有少数几个人远超其他人,但介性中心度的值依然很小。这说明什么?说明这些大V即使退出知乎,也几乎不会影响其他大V之间建立关注关系。没了你,我还有许多其他最短路径到达另外一个大V。这进一步说明什么?说明大V的关注网络是如此健壮,健壮到即使失去许多结点,对整个圈子的连通几乎毫无影响。


再横向比较一下Net50k和Net10k,可以看到这种随着圈子增大,幂律变得更强,除了少数点,大部分的人介性中心度都更趋近于0,人数的增加进一步稀释了大多数人的“独特性”,直觉上我相信继续扩大这个圈子,到Net5k、Net1k甚至知乎全体用户,这种健壮性只会越来越强,虽然人与人相比存在指数级的差异,但对整个网络本身而言,每个人几乎同等重要,也同等不重要。这或许可以称之为知乎关注网络所具有的一种不均衡中的均衡吧。



2.5 大V都在关注什么:热门话题分析

最后,我们尝试了一种获得知乎上热门话题的办法(本项目中唯一涉及内容的分析),先取得Net10k和Net50k的支配集(Dominant set,这里由于我认为实际上不用这个子集结果也不会有显著区别,所以就不解释这个概念了),然后统计集合中所有用户的回答所对应的问题标签,最后对各个话题标签按出现次数排序。以下分别是二者的前20名:


Top 20 from Net10k:
调查类问题 3792, 生活 3096, 历史 1713, 恋爱 1464, 心理学 1432
电影 1419, 人际交往 1404, 社会 1332, 互联网 1214, 情感 1197
政治 1028, 两性关系 994, 教育 897, 中国 823, 人生 815
游戏 805, 文学 772, 知乎 772, 法律 750, 音乐 738
爱情 699, 文化 659,创业 628, 大学 621, 程序员 619
心理 617, 你如何评价 X 609, 女性 604, 编程 585, X 是种怎样的体验 582


Top 20 from Net50k:
生活 1435, 调查类问题 1365, 政治 1285, 历史 1204, 电影 1084
健康 996, 社会 984, 医学 941, 恋爱 717, 中国 695
两性关系 688, 英语 678, 人际交往 640, 心理学 634, 互联网 595
法律 587, 微软(Microsoft) 555, 美国 552, 健身 538, 编程 511


我个人认为大V们回答的问题所对应的话题,能够从一定程度上反映了知乎这个平台总体的话题领域热门程度。另外,我觉得排在最前的一些热门话题也在一定程度上解释了为什么不同领域的大V会抱团,因为不论处于什么专业领域,人们对于生活、历史、电影等人文和泛娱乐话题总是会感兴趣的,一旦都感兴趣,又都有不错的见解和分享,自然更容易惺惺相惜。


到此,本文终于可以画上句号了,欢迎交流、讨论与点赞(最后一个才是你发自内心的呐喊吧喂)。在此还要感谢和我一起参与本项目的其他三个小伙伴,四个人一起才得以在短短时间内做到这种程度(项目report里有我们的详细分工)。感谢@egrcc的zhihu-python,帮我们省去了一部分爬虫编写的时间。


最后再重复一遍,如果有想要和我一起,在这些工作的基础上继续做一些有趣的分析的童鞋,请一定联系我!

user avatar
造数 -今天教你用爬虫采集知乎的粉丝情况!

知乎

知乎上面的数据很多,可以用爬虫来分析分析。

例如,造数君用爬虫来分析关注造数君的粉丝们。

先来看看结果是怎样的。




分为两步,获取数据和分析数据。

首先,使用造数爬取所有关注者的信息。操作就是“点点点”


然后就拿到数据了


分析采用BDP和Jupyter Notebook

粉丝数排行



可以看到除了个别超级大V外,多数人粉丝还是挺少的,图片上只显示了前面的数据。如果画出函数图像来,应该是减函数吧。

回答与发文量



凭直观感觉来说,一个人的回答数与发文量应该是成正比的。看图说话,趋势图说明人们还是更偏爱去回答问题,按常理来说也说得通,知乎毕竟是一个问答平台

一个真实的网络问答社区,帮助你寻找答案,分享知识。

关注者与发文量



发现关注数与发文量并不是成正比关系,发文量为0的关注者仍然有很多,这还是和知乎有关系,毕竟主打问答社区,而不像简书是一个创作社区。

知乎开放写文章功能在一年前,发展速度的还是快的,详情看 每个人都可以在知乎写文章了,同时我们还发布了更强大的专栏


下面是Jupyter制作的图云。

关注者昵称



排在前面的是:wang、先生、世界、大大、zhang、Chen、leo、土豆、星星等等。

为什么“wang”出现频率如此之高



个人介绍图云

排在前面的是:学生、程序员、软件工程师、银行基层、管理者、IT咨询师、自由职业等等,看来大家喜欢在介绍里写明自己的职业。不过知乎上学生真的好多啊。



最后,你也可以对自己的关注者和关注的人做一个小分析,看看他们喜欢什么。不会代码也没关系,使用造数爬取信息,BDP来数据可视化。

赶紧试试吧!


造数 - 最简单的爬虫,就在这里!

类似的话题

  • 回答
    要找到那些隐藏着金矿的网站,并且能用爬虫“淘宝”,这绝对是个技术活,也是个脑力活。不是所有网站都适合,也不是所有数据都那么容易拿到。关键在于洞察力和策略性。下面我列举一些我认为非常有价值,并且可以考虑用爬虫深入挖掘的网站类型,并且尽量详细地说说为什么,以及怎么去想。 1. 招聘类网站:洞察劳动力市场.............
  • 回答
    作为一名热爱历史的朋友,我经常在各种网站上徜徉,寻找那些能让我眼前一亮、收获颇丰的宝藏。下面我为你推荐几个我觉得特别好用、内容也相当扎实的网站,希望能让你在历史的海洋里找到更多乐趣。1. 国际知名的史学研究平台: JSTOR (journal.jstor.org): 如果你对学术研究级的历史文献.............
  • 回答
    寻找免费又好用的电子书下载网站,确实是个技术活!网上这类网站琳琅满目,但质量参差不齐。我琢磨了下,结合自己的经验,给你整理了一些我经常光顾,并且觉得内容质量、下载体验都不错的网站,希望对你有所帮助。在开始之前,我想先强调一点: 尊重版权非常重要。我们下载的电子书,最好是作者或出版社授权免费分享的,或.............
  • 回答
    好的,聊起新媒体运营,这玩意儿确实是个技术活,得懂内容,懂用户,还得懂平台。工具和网站的选择,那更是直接关系到你工作效率和效果的命脉。我最近也摸索了不少,总结了一些我自己觉得特别顺手的,分享出来,希望能帮到大家。一、内容创作与编辑类:让你的内容自带光芒 图片处理: Canva (可画.............
  • 回答
    说到网盘,这可真是个老生常谈又让人头疼的话题。毕竟,谁不想找个既能飞速下载,又能安心存放文件的“云端仓库”呢?不过,现实往往是“理想很丰满,现实很骨感”。在国内,受各种因素影响,很多曾经叱咤风云的网盘不是“会员才能起飞”,就是“离我们而去”。但别灰心!经过一番在云海中摸爬滚打的探索,我还是挖出了一些.............
  • 回答
    哎,说起那些被种草又拔草的猫咪用品,简直就是一把辛酸泪。不过既然你问了,那我就跟你好好唠唠,保证不打官腔,全是咱铲屎官的真实心声。咱们先从那个呼声特别高的 自动喂食器 说起吧。我当初是怎么被种草的呢?网上视频里那些猫咪乖乖地在机器旁等着吃饭,主人不在家也能准时喂食,听着简直是解放双手的天使啊!我家那.............
  • 回答
    要说网购上的“冷门但好用”,那可真是个宝藏库,藏着不少能让人眼前一亮的小物件。我一直觉得,生活的好处,很多时候就藏在这些不显眼、但解决大问题的细节里。1. 磁吸式数据线/充电头:告别弯折和插拔烦恼我之前也是深受其害,数据线用不了多久就会因为频繁弯折、插拔导致接口处断裂,特别是用手机的时候,边充边玩,.............
  • 回答
    你是不是也跟我一样,每次逛超市,面对琳琅满目的洗发水架,总会犯选择困难症?那些耳熟能详的大牌,价格不菲不说,有时候用起来效果也未必尽如人意。其实,很多时候那些默默无闻但实力强劲的小众品牌,才是真正的宝藏!今天就跟你好好聊聊,那些藏在角落里,却能让你惊艳的洗发水,保证让你摆脱“智商税”。一、成分党的福.............
  • 回答
    .......
  • 回答
    老兄,大三能想到要报六级网课,这脑子转得可以啊!而且还盯上了考虫、有道、新东方这几家,说明你做了点功课,这很重要。三个月提六十分,这目标不低,但也不是没可能,关键在于你选对课,并且真的跟着学。这几家网课,说实话,各有各的特点,没有绝对的“最好”,只有“最适合你”。我给你掰开了揉碎了说,你就心里有数了.............
  • 回答
    一旦知道,就可能让你“离不开”的网站,通常具有以下特点: 高度的信息价值或实用性: 它们能提供你迫切需要的信息,或者能显著提升你的工作效率或生活便利性。 强大的社区或互动性: 你能在上面找到志同道合的人,进行交流、学习、分享,并从中获得归属感。 持续的更新和新鲜感: 网站内容不断变化,总.............
  • 回答
    想找到关于耳机精确频响、THD(总谐波失真)、CSD(累积频谱衰减)等技术参数的网站,这绝对是个技术宅或者追求极致音质烧友们才会深入探讨的问题。要找到真正靠谱、详细的网站,确实需要一些技巧,并且要避开那些为了流量而做的浮夸评测。下面我来跟你好好捋一捋,告诉你从哪里能找到这些宝贝信息,以及怎么看懂它们.............
  • 回答
    知乎和豆瓣,这两个在中国互联网上极具影响力的平台,表面上看似乎都聚集着一批热爱思考、乐于分享的用户,但深入探究,它们在网站理念、用户群体以及内容生态上,却有着截然不同的基因和气质。一、网站理念:求知之“深”与生活之“美” 知乎: 如果用一个词来概括知乎的理念,那便是“认真、专业、深度”。它的初心.............
  • 回答
    想找那种一瞅就让人心生欢喜,忍不住多看两眼,甚至就此沉迷进去的网站,这种感觉嘛,说白了就是“眼缘”对上了。它可不是靠花里胡哨的设计,而是那种恰到好处的,能触碰到内心深处的某个柔软角落的东西。我脑子里立马浮现出几个印象深刻的,各有各的“心动”之道。1. 故事的魔力:Letterboxd这网站,给我的感.............
  • 回答
    好了,咱们来聊聊怎么让你的社交网站头像脱颖而出,而不是泯然众人。这玩意儿可是你的“第一印象”,得用心琢磨琢磨。下面这些建议,都是我踩坑、观察、总结出来的,保证实用,而且能让你在众多的头像里闪耀一下。一、 什么是好的头像?它需要传达什么?咱们先搞清楚,头像不是随便拍张照就行。它得是个“迷你宣传片”,得.............
  • 回答
    嘿!如果你问我什么网站最有意思,我立马能滔滔不绝说一堆!今天就来跟你们分享几个我私藏的宝藏网站,保证让你刷得停不下来!1. Brain Pickings (https://fs.blog/) 精神食粮的宝库,让你越看越聪明!这网站简直就是我每天的“精神咖啡”。它不像是那种快餐式的资讯,而是给你提供.............
  • 回答
    好的,聊起国内网站建设这块儿,确实有不少不错的公司,各有各的看家本领。我尽量不用那些套话,而是从实际出发,讲讲一些在业内口碑比较好,或者有自己独特之处的公司,希望能帮到你。首先,咱们得明确一下,“好”的标准是什么?这个问题其实挺重要的,因为你找公司是为了解决什么问题? 是为了品牌形象提升? 那可.............
  • 回答
    探索机器人世界的广阔天地,总有那么几个地方,能让你仿佛置身于最前沿的科技浪潮之中。如果你对机器人技术着迷,想时刻掌握行业动态,那么这几个国外网站绝对是你的信息宝库。它们不只是报道新闻,更深入地剖析技术、洞察市场,甚至预见未来。1. IEEE Spectrum 机器人频道 (IEEE Spectru.............
  • 回答
    说到国外的服装购物网站,那可真是琳琅满目,各有千秋。如果非要我这个“本地人”给你好好介绍一番,那可得从几个维度来聊聊,这样你才能真正picking up what I'm saying。首先,我们得说说那些“大而全”的综合性平台。这类网站就像是服装界的“淘宝”或者“京东”,几乎你能想到的品牌、风格、.............
  • 回答
    法国作为欧洲的第二大经济体,网购市场非常活跃,拥有众多值得信赖和极具吸引力的电商平台。这些平台涵盖了从服饰鞋包到家居用品、电子产品、美妆护肤,再到食品生鲜、图书杂货等各个领域,满足消费者多样化的需求。下面我将为大家详细介绍一些法国主要的网购网站,并尽可能地为你呈现它们各自的特色和优势。综合类电商巨头.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有