百科问答小站 logo
百科问答小站 font logo



爬知乎总被封 IP 怎么办? 第1页

  

user avatar   xlzd 网友的相关建议: 
      

在正式回答之前,先提示题主,不要把 `authorization` 头贴到任何地方,因为这是你的身份标识,别有用心的人可以利用它以你的身份做很多事情(点赞、回答、私信……)。鉴于你已经贴出来了,建议你立刻登出,失效这次登录,以防意外。

其次,你代码中没有任何控制访问速度的逻辑。单从频率限制这一项,就足以分分钟迅速识别出你是爬虫来。

看代码你有多处发送请求的逻辑。一般来讲,应该将一个爬虫(尤其这种定向的爬虫)发送网络请求的逻辑收紧到一个地方,这样方便限速,也方便挂代理或者作别的操作。然后你需要一点一点试出一个 G 点,并控制爬虫整体速度低于这个阈值。

当然,反爬虫程序识别爬虫并不一定就只是一个死的阈值,稍微高级一点的 anti-spider 系统都会有很多单纯访问频率之外的乱七八糟的复杂策略来识别爬虫。你会发现,即使用一个比较低的频率访问,还是会在一段时间后被封禁。^_^

最后,挂代理是一种比较简单的加速爬虫的方式。

看到最后,你会发现这个回答说了跟没说一样,我才不会告诉你怎么办呢 ~


利益相关:知乎反爬虫系统设计者。




  

相关话题

  有免费的网络爬虫软件使用吗? 
  爬虫究竟是合法还是违法的? 
  学python在老师全用mac的情况下有必要换成mac吗? 
  爬知乎总被封 IP 怎么办? 
  爬知乎总被封 IP 怎么办? 
  爬知乎总被封 IP 怎么办? 
  爬虫究竟是合法还是违法的? 
  为什么铺天盖地都是Python的广告? 
  网页上的一张图片右键选择新窗口打开是正常的,直接复制地址到地址栏打开就不正常了。谁知道是什么原因吗? 
  python爬虫如何处理.js链接? 

前一个讨论
如何看待人民日报微信公众号发文称跳楼小伙为“巨婴”?
下一个讨论
如何看待手游《原神》官方店铺上架售价 868 元的刻晴主题机械键盘?





© 2024-11-04 - tinynew.org. All Rights Reserved.
© 2024-11-04 - tinynew.org. 保留所有权利