Robots.txt中的Crawl-delay参数
robots.txt 大致介绍:
robots.txt 是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
由于每个网站的实际配置和要求不一样,很多主机对流量的限制相对比较严格,一个网站的流量限制不止是普通用户浏览产生,搜索引擎的爬虫程序也会消耗很多流量,特别是抓取比较大的文件(比如视频或者图片)的时候,会让流量飙升,加上主机对流量的限制,进而可能会影响到普通用户浏览网页,所以我们可以通过 robots.tst 文件来限制搜索引擎的爬虫程序来抓取这些文件,另外爬虫程序的高频率访问也可能会导致同样的结果,下面是搜索引擎对此建议一些网站管理员可以在 robots.txt 中使用 Crawl-delay 参数来限制爬虫程序对网页的抓取频率。
Crawl-delay 参数
搜索引擎从整个因特网上抓取数以百亿计的网页,对于网络抓取搜索引擎采取大量系统,因此,一些网站的网络服务器会从不同的抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合,来限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果您的服务器主机拥有多个IP,它的活动则会处于更高的级别。
在robots.txt 里,可以通过参数对搜索引擎的抓取程序设定一个较低的抓取请求频率。您可以加入 Crawl-delay: xx 指示,其中,“XX”是指在爬虫程序两次进入站点时,以秒为单位的最低延时。如果爬虫的抓取频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。
例如,您想设定一个2秒的延时,语句如下:
User-agent: Slurp
Crawl-delay: 2
搜索引擎对 Crawl-delay 的支持情况
yahoo 对 Crawl-delay 的反应:如果你有分析网站日志文件的习惯,你会发现以前的 yahoo 每天抓取网页的频率是最高的,其次是谷歌和百度,上面的 Crawl-delay 也是从 yahoo 的站长帮助文件中了解到的,所以 yahoo 对这个参数是支持的。
2011年10月28日后 yahoo 对网页抓取频率极具下降甚至很少抓取 — 本博客日志数据。
百度对 Crawl-delay 的反应:限制百度爬虫抓取时间和频率限制,可以在 robots 中的 crawl-delay 中设置,这个参数是 baidu spider 对网站访问频率的重要参考信息之一,但 spider 系统会根据网站规模、质量、更新频度等多方面信息综合计算得出最终的执行压力,因此并不保证严格遵守crawl-delay 中的设置值。
百度日语的 robots.txt 帮助文件中提到过这个参数的设置(文章后有参考地址),但中文的没有提到过,上面的回应来自:http://t.qq.com/p/t/79115059749621。
谷歌对 Crawl-delay 的反应:目前根据谷歌网站管理员工具中的抓取工具测试,谷歌会忽略掉这个参数。
网站管理员可以通过将网站添加到谷歌的网站管理员工具中,利用网站配置 – 设置来自定义抓取速度。
其他搜索引擎及参考资料:
你可能也喜欢:
文章标题:Robots.txt中的Crawl-delay参数
本文地址:http://www.scseoer.com/robots-crawl-delay.html
版权申明:本文原创于何清勇SEO博客«SEO帮助»栏目,转载请注明作者和原创地址!
看来是的。
怎么发不了评论,要申核吗?
首次评论会审核,成功发布一次就不会吧,没有办法,垃圾留言不好整。
今天看了zac的一些留言,说Robots.txt和NF,也都不能全部屏蔽百度权重的转移!!不知道真的假的!
百度权重值的分配始终是掌握在自己手中的,一个文件或标签是不能实质上改变什么的。很多参数可以用,但百度自身会根据网站情况进行最后判断。
Crawl-delay这个还是第一次见到 好好看两遍再走
这个参数木有用过
这个参数似乎和seo1关系不大,所以关注也少
对crawl-delay没什么了解
很认真的看完全文!确实写得很不错!!
请帮我分析一下http://www.hx1789.com这个网站,谢谢
简单的SEO建议和网页性能可以参考百度统计中的“SEO建议”和“网站速度测试”,利用提高分值来提高页面质量。
robots.txt只做过简单的设置,没认真研究过,惭愧。
robots确实是需要设置好,才能更好的引导spider抓取网站的内容
搜索永远是seo的话题,研究的结果各种各样,只有用户才是我们服务的上帝。抓住了用户,只要解决搜索问题即可。现在越来越多的seo只是一知半解,正途没有学会,反而学会了模棱两可,甚至背道而驰。
如果你真的是传统企业网站建设公司,能体会到这些,对自己的客户来讲,还是非常不错的,对于SEO,失败不可怕,对于初学者来讲,失败了应对总结经验,慢慢就过来了,每个人都从不懂到了解,再通过一步一步实践走过来的,一些时候多一点关爱和鼓励是很有必要的。
没怎么研究,先了解了。
第一次看到这个,受益匪浅,会好好研究
流量现在是越来越值钱了,如果爬虫多来几次,不是流量都要消耗在爬虫身上了
对于爬虫对主机流量的消耗,还可以提高网站本身的性能来适当减少消耗。
以前没研究过这个,认真看完觉得还是挺不错的。谢谢你的分享。
很不错的博客 学到很多