百科问答小站 logo
百科问答小站 font logo



为什么不使用 scrapy,而是从头编写爬虫系统? 第1页

  

user avatar   gashero 网友的相关建议: 
      

写过十几只爬虫,大的抓过几十亿个数据项那种。我也符合题主所说的不用scrapy,而是从标准库写。核心问题是框架封装的厚度问题。


每一种框架,目的是把常用操作的多个步骤封装成通用的接口,隐藏一些复杂性。但框架设计的好坏就存在一个封装厚度是否合适的问题。所谓封装的厚度,是对外接口如果能跟底层操作有较为明显的对应,就是薄封装,而把底层屏蔽的啥都看不到了,则属于厚封装。好的厚封装也要有足够的部署量,成为一种标准才行。

历史上能做成功的厚封装其实很少很少。举一个网络编程的例子。以BSD Socket为界。现代操作系统提供的基础网络接口可以认为都是从BSD Socket发展起来的。而BSD Socket就是对底层网络复杂性的厚封装。使用BSD Socket的人并不需要知道每个调用的底层是如何处理组包,重传,窗口等细节。于是经过几十年的发展,BSD Socket成了网络编程的标准底层,任何一个想在网络编程上有所成就的人,都不可避免的了解BSD Socket的每个函数和参数细节。

而在BSD Socket之上也有一些网络编程封装。比如很多面向对象语言做了对象化封装。使得发生每个事件时,就会由框架自动调用某个对象的方法。但各种语言的各种框架里,对这种回调方式的框架并没有一个统一的标准,比如连接成功,收到数据等回调函数,并没有个统一的名字。使得熟悉了一个面向对象回调网络框架的人,难以将知识复用到另一个框架上。

而在BSD Socket之上的薄框架也有。比如Python的socket模块,就只是把基础的Socket调用的第一个参数变为对象的引用而已。其余的参数和类型之类的都是一一对应的。少数做了点易用性封装,如没发完字节的重试之类的。


回到问题,scrapy就是典型的厚封装框架。将任务管理,访问重试等等内容封装了起来。但用户却难以知晓其内的逻辑,或需要看很多文档才能掌握其内部细节逻辑。而掌握这部分逻辑,所付出的努力,对以后的其他工作并没有什么用处。这导致了很多用户不愿意去用。

同理,如果各位软件工程师要去设计框架时,也应该保有该思路。如果自己不是某个领域的大牛,就应该避免设计厚封装框架,否则提高了用户的学习成本就会导致用户不愿意去学习和使用。而应该尽量使用薄封装框架,使得用户可以最大化的复用以前的知识,让框架的使用更加直观。


user avatar   Escaflowne1985 网友的相关建议: 
      

感谢

@sxc

邀请。非常非常感谢。

为了防止邀请我的sxc老师撤销邀请,我不得不截图。


@朱峰女士,你的答案,为了防止你进行修改,我已经截图了。没错,如你问题当中所说,礼貌是不是软弱?

当然不是。

我自问是一个普通人,在知乎得到关注多,也只是因为我勤勤恳恳,一个字一个字写得多,仅此而已。

我去咕咚网之前,当过记者,做过公关,我也不是什么名校毕业,但是我深深知道,原创是品德,是节操。做记者,报道要如实,要客观,要中立,要还原事情的本来面目。

我为什么要在微信群“红包体育”里面和你抬杠,为什么要质问你,想必你已经不记得了,然而我记得清清楚楚。


我不关注你的微信号,那是有非常重要的原因的。朱峰女士,你说你没做过亏心事,那么想必在你看来,未经他人许可引用、转载他人原创的内容,不算是亏心事了。


你不记得的事情,我一点一点帮你回忆起来吧。事情当然没有这么简单。

当你加入“红包体育”的时候,我对群主说了一句话。【我很高兴,我有不删除任何聊天软件当中聊天记录的好习惯。】


这里截图当中的日期是一直就存在的。至今我的iPhone 4S也一直在用呢,不可能改掉。


你为什么和我说抱歉,你忘了?2015年3月3日你所说的,是真的都不记得了?


当时我的反应,算是很克制的了,毕竟当着“红包体育”群里这么多人的面。

为什么我过了这么久,才再次在“红包体育”群里质问你,我想你应该明白。我知道每个人做自媒体不容易,想靠着才华变现,更加不容易,当时你肯道歉,说你会改,那么我也就得过且过了。


问题的关键在于,你改了吗?如果你改了,你就不会不经过

@式微

同意,转载她的答案,而且还将她列为“第二作者”。

你的所谓声明,夹杂在你的正文内容当中,而不是正式开辟一个子栏目道歉,被诸多的信息噪声遮盖着,这就是你的诚意?

上述三张截图,是2015年6月17日早上8:43时截的。我现在还很怕诸多水军说我图片造假呢。下面两张图,是2015年3月3日晚上20:49时截的。那个时候,你的微信ID还没有“太阳表情”。

这个总不能说我作假了吧?



而你在面对我的质疑的时候,说了些什么话,你还记得吗?这就是我为什么要截图的原因。

二次编辑加了些东西,就可以等同于你自己的原创,是吗?


事实证明我当初心一软得过且过,才是真的错误。


你说了“最初开时,格式内容混乱,但转载内容标明了作者”——我还是那句话:用了我的东西,问过我吗?

你说了“微信对于转载格式有了新要求后,我们也跟着学习,把之前来源不明的全部删除。之后再也没有出现不合规的转载“——来源不明?请看看截图,你自己说过的话,怎么就这么快忘了呢?”是从虎扑、知乎、直播吧很多来源的文章“,这还算是来源不明?

你说了“暴力行为冠以道德名义,缺又恰恰选择了一个认真做事的自媒体下手,无论是出于要稿费,还是炒作涨粉,都不会实现的”——暴力冠以道德的名义?我质问你,就是暴力,你不告而拿,拿了我的答案,也拿了知乎上别人的答案,这种偷窃行为,就是道德的?


另外,请弄清楚,到底谁在炒作?我只是把原文作者式微老师带到了“体育红包”群,让她自己和你说清楚,这就是炒作?式微维护自己正当权益没有成功,自己写了篇专栏,以正视听,这叫炒作?

你说了“另外。。。您在背后诽谤我的许多聊天截图我已经给了律师。我们没做亏心事,我们礼貌但不软弱,真的,用法律途径解决,只对我们单方面有利啊。但您若真的要这样苦苦相逼,请也不吝给我一个您的地址,给您去一封律师函”。


我在背后诽谤你?请把截图放出来,让知乎用户都看看,我到底怎么诽谤你了。


你没做亏心事?没做亏心事我会质问你为什么不经过我允许转载了我的内容?


说我苦苦相逼?到底谁逼谁?“咕咚-李旸”是我在“红包体育”群里的ID,那是因为之前说过要标清楚所在的企业、媒体和姓名,所以我这样写。


我再说一次:质问你,是因为你在知乎未经我许可,擅自转载和引用了我的内容;我质问你,是因为你在知乎未经式微老师的许可,擅自转载和引用了式微老师的内容。


知乎上的回答问题,是我业余时间所为,工作忙的时候我只能下班回答问题,晚上写公众号内容,或者把知乎的答案放到我自己的公众号上去。关于足球篮球的内容,和咕咚网没有一点关系,全部是我自己的业余创作。


而你,直接找到了咕咚创始人、CEO申波先生,也就是我的最高领导,去质问我的行为是代表咕咚,还是代表个人。


我在知乎的ID和个人说明写得清清楚楚,没有和咕咚有任何的关联。你没有经过我个人的允许,转载引用我在知乎的内容,被我质疑你转载了别人的内容,居然好意思说是“法律层面的诽谤”?居然还去和我供职的企业对质?


到底是谁苦苦相逼?


所谓认真做事的自媒体,是把知乎用户的文字答案,变成自己的声音和话语,放到视频当中去,是吗?


所谓认真做事的自媒体,是未经他人许可,擅自转载、引用他人在知乎的原创答案,是吗?



最后我很想问一句:你既然深知自媒体人的成长有多么不易,为什么你还要去做“未经许可,擅自转载和引用其他自媒体人的内容”这样的事情?


最后,是我放出的所有截图的具体信息。



我在这里声明:我是知乎用户李暘,在知乎的每一个答案,在知乎的每一篇专栏文章,不敢保证完美无缺,逻辑严密,没有错别字,但全部是我自己的原创内容,任何人未经我许可,转载、引用、抄袭我的答案,即为侵权行为。




  

相关话题

  如何零基础入门 Python? 
  研一刚入学,从未接触过神经网络,python也是才开始学,现在导师要我做LSTM,我应该去学什么? 
  知乎的架构在大型社交网站中属于什么水平? 
  银行业为什么喜欢用 sas 而不是 python? 
  如何评价清华大学电子系大一暑假小学期总共 9 个学时的 Python 课程大作业难度? 
  Python 有哪些黑魔法? 
  有没有将c语言源代码转换成汇编语言的软件?有没有将python语言源代码转换成汇编语言的软件? 
  C++ STL中的map用红黑树实现,搜索效率是O(lgN),为什么不像python一样用散列表从而获得常数级搜索效率呢? 
  如何评价潘石屹说python是最接近日常语言的编程语言? 
  学校和机构都建议孩子放弃 Python 转 C++,我该如何处理? 

前一个讨论
计算机视觉研一,只学过Python基础,目前代码能力很差,要不要换导师,不换的话如何毕业?
下一个讨论
末流 211 预聘讲师和华五院士团队博后,该怎么选?





© 2024-11-05 - tinynew.org. All Rights Reserved.
© 2024-11-05 - tinynew.org. 保留所有权利