公司让爬Robots.txt声明了不允许爬的网站应该怎么办？第1页

limingyang666 网友的相关建议:

Robots.txt本身不是法律文书，确实没有强制力。

有人认为Robots.txt是一个君子之约，其实Robots.txt更多情况下可以理解为一种物权宣示。

举个例子，法律从未规定我家的门必须上锁，甚至未规定门不能24小时开启。

于是，我把我家的门一直开着，然后我也不在家里住，就这么放着。

我从未以任何方式让他人知道我是这里的主人，最终，我家里的东西，就会变成法律上的无主物，按先占原则，谁拿走就是谁的，拿走后，再经过一个诉讼时效，甚至我连打官司都必输。

如果我想保护我的财产，那么我可以这么做，门口挂个牌子，写上这是我的财产。

此时，我的财产就不是无主物，拿取就是盗窃。

Robots.txt起到的作用就是这样，作为一个行业约定俗称的标准，我通过Robots.txt明确告知哪些数据不可以访问，那些可以，明确了物权，这对日后的诉讼极其有利，你无法用不知道此数据不可以访问来抗辩。

事实上，大公司的Robots.txt文件，有的每天都会公证一次，证明我的Robots.txt文件在当日的内容是什么，防止诉讼时对Robots.txt内容存在争议。

kongyifei 网友的相关建议:

你们这些人既没有写过爬虫，也不懂 robots.txt 就在这里瞎答一气，动不动就是像个复读机一样开始「爬虫爬进了监狱」，真是误人子弟！

robots.txt 说白了是个「君子协议」，没有任何技术约束，更被说法律效力了。爬虫，不管是 Googlebot，还是你用 requests 写得小脚本，在技术上不会受到任何限制。相反，你要手动解析 robots.txt 的内容，主动避开这些 url 才能使它生效。

robots.txt 也不是强制的规范，而是一种内容网站和搜索引擎之间博弈的产物。对于一个搜索引擎来说，遵守或者不遵守只关乎你作为一个搜索引擎的声誉，大多数时候还是遵守的，比如说百度上至今不能搜索淘宝宝贝，因为淘宝主动屏蔽了百度。内容站点也不是啥白月光，无非也是想要搜索引擎带来的流量，但是又不想爬虫占用服务器资源。举个例子来说，好多网站觉得伺候 Google 一个搜索引擎就够了，于是在 robots.txt 中增加了一条：

       User-agent: Googlebot Allow: /  User-agent: * Disallow: /

也就是除了 Googlebot，谁也别想爬我。你以为别的爬虫会这么听话？Archive.org 和苹果直接宣布，以后我也是 Googlebot 了，Google 爬得我爬不得？有链接为证：

照其他人的说法，FBI 直接去抓库克好了……本来一个商业博弈的产物，被你们这些人危言耸听成不可触犯的天条，真是看热闹不嫌事儿大。

再说回国内，确实有几条因为爬虫入狱的案子，但是你真去看一下的话，会发现主要是涉及到逆向工程客户端和爬取隐私信息（尤其是简历）。至于 robots.txt，至少我看到人民法院报的意思是，这个就是一个商业竞争手段，再怎么着也是民事纠纷，和刑法无关。如果你分不清楚啥是民事纠纷，啥是刑事纠纷，建议不要在刷什么「爬虫爬进监狱」这种无知的话了。

截屏来自：人民法院报

最后再补充两句，法律的精神是：

对私权而言，法无禁止即可为；对公权而言，法无授权即禁止。

From: 法制究竟是法无禁止即可为，还是法无授权不可为？

没有任何法律规定 robots.txt 的效力。前边也指出了，它甚至都不是一个普遍遵守的商业惯例。

当然，写爬虫还是要怀有敬畏之心，违反 robots.txt 毕竟是不太礼貌的行为。除此之外，版权法、隐私保护法等法律是不容触犯的，这些法律所保护的内容可能和你要爬的网站的 robots.txt 里列的 URL 有交集，但是混淆 robots.txt 的作用纯属无稽之谈。

2021-11-14 更新：

最新的《网络数据安全条例（征求意见稿）》增加了一条：

第十七条数据处理者在采用自动化工具访问、收集数据时，应当评估对网络服务的性能、功能带来的影响，不得干扰网络服务的正常功能。
自动化工具访问、收集数据违反法律、行政法规或者行业自律公约、影响网络服务正常功能，或者侵犯他人知识产权等合法权益的，数据处理者应当停止访问、收集数据行为并采取相应补救措施。

至于 robots.txt 算不算行业自律公约，尚不明确。

haili-9-70 网友的相关建议:

刚发现Wi-Fi6也搞了两个release，和Wi-Fi 5（即802.11ac）时候的wave 1和wave 2差不多。

对于一般Wi-Fi 6的用户影响不大，Wi-Fi主要的PHY的特性，比如高阶调制之类的在release 1里面已经支持，主要的MAC特性，也就是OFDMA也在release 1里面支持的，包含OFDMA的上行和下行传输。还有SRP相关的BSS Color，Adaptive-CCA，Dual-NAV之类的，差不多也在release 1里面。所以基本上大家所关注的一些主要特性都在release 1里面有了。

至于release 2里面目前看介绍主要就是两个部分，一个是上行MU-MIMO，这个理论上能够提升不少速率，毕竟支持多用户同时上行接入了。在MU-MIMO的一开始，也就是802.11ac的时代，这个是不支持的。只不过估计落地成本和技术手段限制，所以release 2才放进去。802.11ax协议里面是没有分release 1和release 2的。可能相比MU-MIMO，在Wi-Fi 6里面OFDMA更重要点，而Release 2里面的上行MU-MIMO更多的是一个锦上添花的功能，如果价格不用添加或者添加很少，那么估计还是受欢迎的，如果价格过高，那么还是看看吧。至于另外一个就是TWT了，TWT技术是从节能手段来做的，其实个人感觉哎，新的802.11ba标准，即wake-up radio的机制可能更适合802.11的节能，而TWT说实在的，有点复杂，而且其节能模式实际上可以理解成基于调度的机制，比如下面一张图可能更好理解些。

Ref:CommScope Ruckus的slide

左边的就是没有启用TWT的，那么所有的节点虽然工作在节能模式下，但是大家还是要互相争抢，这个争抢过程还是要耗能的。右边的就是TWT，其实就是对于每一个节点对象，其节能的时间点进行了调度，一个节点醒了，然后传输，其他节点这个时候还接着睡。其实总体而言，Wi-Fi 6的MAC和传统Wi-Fi 5以前相比，其实就是一个无序到有序控制的过程。下面这张图今天看的，感觉就很直观

Ref:CommScope Ruckus的slide

所以实际上TWT看起来还是有效果的，而且属于Wi-Fi 6里面一个主要特性。Release 1版本其实有很多公司都做了，只不过兼容性的问题挺多的，这次release 2的版本不知道能不能彻底解决这个问题。大致就是这些了。

公司让爬Robots.txt声明了不允许爬的网站应该怎么办？的其他答案点击这里

公司让爬Robots.txt声明了不允许爬的网站应该怎么办？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

公司让爬Robots.txt声明了不允许爬的网站应该怎么办？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

公司让爬Robots.txt声明了不允许爬的网站应该怎么办？第1页