Robots.txt本身不是法律文书,确实没有强制力。
有人认为Robots.txt是一个君子之约,其实Robots.txt更多情况下可以理解为一种物权宣示。
举个例子,法律从未规定我家的门必须上锁,甚至未规定门不能24小时开启。
于是,我把我家的门一直开着,然后我也不在家里住,就这么放着。
我从未以任何方式让他人知道我是这里的主人,最终,我家里的东西,就会变成法律上的无主物,按先占原则,谁拿走就是谁的,拿走后,再经过一个诉讼时效,甚至我连打官司都必输。
如果我想保护我的财产,那么我可以这么做,门口挂个牌子,写上这是我的财产。
此时,我的财产就不是无主物,拿取就是盗窃。
Robots.txt起到的作用就是这样,作为一个行业约定俗称的标准,我通过Robots.txt明确告知哪些数据不可以访问,那些可以,明确了物权,这对日后的诉讼极其有利,你无法用不知道此数据不可以访问来抗辩。
事实上,大公司的Robots.txt文件,有的每天都会公证一次,证明我的Robots.txt文件在当日的内容是什么,防止诉讼时对Robots.txt内容存在争议。
你们这些人既没有写过爬虫,也不懂 robots.txt 就在这里瞎答一气,动不动就是像个复读机一样开始「爬虫爬进了监狱」,真是误人子弟!
robots.txt 说白了是个「君子协议」,没有任何技术约束,更被说法律效力了。爬虫,不管是 Googlebot,还是你用 requests 写得小脚本,在技术上不会受到任何限制。相反,你要手动解析 robots.txt 的内容,主动避开这些 url 才能使它生效。
robots.txt 也不是强制的规范,而是一种内容网站和搜索引擎之间博弈的产物。对于一个搜索引擎来说,遵守或者不遵守只关乎你作为一个搜索引擎的声誉,大多数时候还是遵守的,比如说百度上至今不能搜索淘宝宝贝,因为淘宝主动屏蔽了百度。内容站点也不是啥白月光,无非也是想要搜索引擎带来的流量,但是又不想爬虫占用服务器资源。举个例子来说,好多网站觉得伺候 Google 一个搜索引擎就够了,于是在 robots.txt 中增加了一条:
User-agent: Googlebot Allow: / User-agent: * Disallow: / 也就是除了 Googlebot,谁也别想爬我。你以为别的爬虫会这么听话?Archive.org 和苹果直接宣布,以后我也是 Googlebot 了,Google 爬得我爬不得?有链接为证:
照其他人的说法,FBI 直接去抓库克好了……本来一个商业博弈的产物,被你们这些人危言耸听成不可触犯的天条,真是看热闹不嫌事儿大。
再说回国内,确实有几条因为爬虫入狱的案子,但是你真去看一下的话,会发现主要是涉及到逆向工程客户端和爬取隐私信息(尤其是简历)。至于 robots.txt,至少我看到人民法院报的意思是,这个就是一个商业竞争手段,再怎么着也是民事纠纷,和刑法无关。如果你分不清楚啥是民事纠纷,啥是刑事纠纷,建议不要在刷什么「爬虫爬进监狱」这种无知的话了。
截屏来自:人民法院报
最后再补充两句,法律的精神是:
对私权而言,法无禁止即可为;对公权而言,法无授权即禁止。
From: 法制究竟是法无禁止即可为,还是法无授权不可为?
没有任何法律规定 robots.txt 的效力。前边也指出了,它甚至都不是一个普遍遵守的商业惯例。
当然,写爬虫还是要怀有敬畏之心,违反 robots.txt 毕竟是不太礼貌的行为。除此之外,版权法、隐私保护法等法律是不容触犯的,这些法律所保护的内容可能和你要爬的网站的 robots.txt 里列的 URL 有交集,但是混淆 robots.txt 的作用纯属无稽之谈。
2021-11-14 更新:
最新的《网络数据安全条例(征求意见稿)》增加了一条:
第十七条 数据处理者在采用自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。
自动化工具访问、收集数据违反法律、行政法规或者行业自律公约、影响网络服务正常功能,或者侵犯他人知识产权等合法权益的,数据处理者应当停止访问、收集数据行为并采取相应补救措施。
至于 robots.txt 算不算行业自律公约,尚不明确。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有