百科问答小站 logo
百科问答小站 font logo



公司让爬Robots.txt声明了不允许爬的网站应该怎么办? 第1页

  

user avatar   limingyang666 网友的相关建议: 
      

Robots.txt本身不是法律文书,确实没有强制力。

有人认为Robots.txt是一个君子之约,其实Robots.txt更多情况下可以理解为一种物权宣示。


举个例子,法律从未规定我家的门必须上锁,甚至未规定门不能24小时开启。

于是,我把我家的门一直开着,然后我也不在家里住,就这么放着。

我从未以任何方式让他人知道我是这里的主人,最终,我家里的东西,就会变成法律上的无主物,按先占原则,谁拿走就是谁的,拿走后,再经过一个诉讼时效,甚至我连打官司都必输。

如果我想保护我的财产,那么我可以这么做,门口挂个牌子,写上这是我的财产。

此时,我的财产就不是无主物,拿取就是盗窃。


Robots.txt起到的作用就是这样,作为一个行业约定俗称的标准,我通过Robots.txt明确告知哪些数据不可以访问,那些可以,明确了物权,这对日后的诉讼极其有利,你无法用不知道此数据不可以访问来抗辩。


事实上,大公司的Robots.txt文件,有的每天都会公证一次,证明我的Robots.txt文件在当日的内容是什么,防止诉讼时对Robots.txt内容存在争议。


user avatar   kongyifei 网友的相关建议: 
      

你们这些人既没有写过爬虫,也不懂 robots.txt 就在这里瞎答一气,动不动就是像个复读机一样开始「爬虫爬进了监狱」,真是误人子弟!

robots.txt 说白了是个「君子协议」,没有任何技术约束,更被说法律效力了。爬虫,不管是 Googlebot,还是你用 requests 写得小脚本,在技术上不会受到任何限制。相反,你要手动解析 robots.txt 的内容,主动避开这些 url 才能使它生效。

robots.txt 也不是强制的规范,而是一种内容网站和搜索引擎之间博弈的产物。对于一个搜索引擎来说,遵守或者不遵守只关乎你作为一个搜索引擎的声誉,大多数时候还是遵守的,比如说百度上至今不能搜索淘宝宝贝,因为淘宝主动屏蔽了百度。内容站点也不是啥白月光,无非也是想要搜索引擎带来的流量,但是又不想爬虫占用服务器资源。举个例子来说,好多网站觉得伺候 Google 一个搜索引擎就够了,于是在 robots.txt 中增加了一条:

       User-agent: Googlebot Allow: /  User-agent: * Disallow: /     

也就是除了 Googlebot,谁也别想爬我。你以为别的爬虫会这么听话?Archive.org 和苹果直接宣布,以后我也是 Googlebot 了,Google 爬得我爬不得?有链接为证:

  1. blog.archive.org/2017/0
  2. About Applebot

照其他人的说法,FBI 直接去抓库克好了……本来一个商业博弈的产物,被你们这些人危言耸听成不可触犯的天条,真是看热闹不嫌事儿大。

再说回国内,确实有几条因为爬虫入狱的案子,但是你真去看一下的话,会发现主要是涉及到逆向工程客户端和爬取隐私信息(尤其是简历)。至于 robots.txt,至少我看到人民法院报的意思是,这个就是一个商业竞争手段,再怎么着也是民事纠纷,和刑法无关。如果你分不清楚啥是民事纠纷,啥是刑事纠纷,建议不要在刷什么「爬虫爬进监狱」这种无知的话了。

截屏来自:人民法院报

最后再补充两句,法律的精神是:

对私权而言,法无禁止即可为;对公权而言,法无授权即禁止。

From: 法制究竟是法无禁止即可为,还是法无授权不可为?

没有任何法律规定 robots.txt 的效力。前边也指出了,它甚至都不是一个普遍遵守的商业惯例。

当然,写爬虫还是要怀有敬畏之心,违反 robots.txt 毕竟是不太礼貌的行为。除此之外,版权法、隐私保护法等法律是不容触犯的,这些法律所保护的内容可能和你要爬的网站的 robots.txt 里列的 URL 有交集,但是混淆 robots.txt 的作用纯属无稽之谈。

2021-11-14 更新:

最新的《网络数据安全条例(征求意见稿)》增加了一条:

第十七条 数据处理者在采用自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。
自动化工具访问、收集数据违反法律、行政法规或者行业自律公约、影响网络服务正常功能,或者侵犯他人知识产权等合法权益的,数据处理者应当停止访问、收集数据行为并采取相应补救措施。

至于 robots.txt 算不算行业自律公约,尚不明确。


user avatar   haili-9-70 网友的相关建议: 
      

刚发现Wi-Fi6也搞了两个release,和Wi-Fi 5(即802.11ac)时候的wave 1和wave 2差不多。

对于一般Wi-Fi 6的用户影响不大,Wi-Fi主要的PHY的特性,比如高阶调制之类的在release 1里面已经支持,主要的MAC特性,也就是OFDMA也在release 1里面支持的,包含OFDMA的上行和下行传输。还有SRP相关的BSS Color,Adaptive-CCA,Dual-NAV之类的,差不多也在release 1里面。所以基本上大家所关注的一些主要特性都在release 1里面有了。

至于release 2里面目前看介绍主要就是两个部分,一个是上行MU-MIMO,这个理论上能够提升不少速率,毕竟支持多用户同时上行接入了。在MU-MIMO的一开始,也就是802.11ac的时代,这个是不支持的。只不过估计落地成本和技术手段限制,所以release 2才放进去。802.11ax协议里面是没有分release 1和release 2的。可能相比MU-MIMO,在Wi-Fi 6里面OFDMA更重要点,而Release 2里面的上行MU-MIMO更多的是一个锦上添花的功能,如果价格不用添加或者添加很少,那么估计还是受欢迎的,如果价格过高,那么还是看看吧。至于另外一个就是TWT了,TWT技术是从节能手段来做的,其实个人感觉哎,新的802.11ba标准,即wake-up radio的机制可能更适合802.11的节能,而TWT说实在的,有点复杂,而且其节能模式实际上可以理解成基于调度的机制,比如下面一张图可能更好理解些。

Ref:CommScope Ruckus的slide

左边的就是没有启用TWT的,那么所有的节点虽然工作在节能模式下,但是大家还是要互相争抢,这个争抢过程还是要耗能的。右边的就是TWT,其实就是对于每一个节点对象,其节能的时间点进行了调度,一个节点醒了,然后传输,其他节点这个时候还接着睡。其实总体而言,Wi-Fi 6的MAC和传统Wi-Fi 5以前相比,其实就是一个无序到有序控制的过程。下面这张图今天看的,感觉就很直观

Ref:CommScope Ruckus的slide
Ref:CommScope Ruckus的slide

所以实际上TWT看起来还是有效果的,而且属于Wi-Fi 6里面一个主要特性。Release 1版本其实有很多公司都做了,只不过兼容性的问题挺多的,这次release 2的版本不知道能不能彻底解决这个问题。大致就是这些了。




  

相关话题

  公司让爬Robots.txt声明了不允许爬的网站应该怎么办? 
  如何分析找出知乎的潜在的热门问题? 
  现在百度百科怎么都这么难做,真的需要付费才能做出来吗? 
  如何用C语言和windows api实现一个基本的ssl协议?(参考资料已备齐) 
  爬虫究竟是合法还是违法的? 
  HTML模板放在国外服务器,API服务器放在国内,这样可以在不备案的同时提高国内用户的访问速度吗? 
  有哪些有趣的反爬虫手段? 
  公司让爬Robots.txt声明了不允许爬的网站应该怎么办? 
  现在百度百科怎么都这么难做,真的需要付费才能做出来吗? 
  公司让爬Robots.txt声明了不允许爬的网站应该怎么办? 

前一个讨论
程序员是不是公司地位最低的?
下一个讨论
复仇这一行为背后的基因逻辑是什么?人以外的动物也有复仇行为吗?





© 2024-06-29 - tinynew.org. All Rights Reserved.
© 2024-06-29 - tinynew.org. 保留所有权利