SEO > SEO帮助 > Robots.txt中的Crawl-delay参数
2012一月8

Robots.txt中的Crawl-delay参数

莫意思一般般还可以还不错值得推荐 5.00
23 Comments

robots.txt 大致介绍:

robots.txt 是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

由于每个网站的实际配置和要求不一样,很多主机对流量的限制相对比较严格,一个网站的流量限制不止是普通用户浏览产生,搜索引擎的爬虫程序也会消耗很多流量,特别是抓取比较大的文件(比如视频或者图片)的时候,会让流量飙升,加上主机对流量的限制,进而可能会影响到普通用户浏览网页,所以我们可以通过 robots.tst 文件来限制搜索引擎的爬虫程序来抓取这些文件,另外爬虫程序的高频率访问也可能会导致同样的结果,下面是搜索引擎对此建议一些网站管理员可以在 robots.txt 中使用 Crawl-delay 参数来限制爬虫程序对网页的抓取频率。

Crawl-delay 参数

搜索引擎从整个因特网上抓取数以百亿计的网页,对于网络抓取搜索引擎采取大量系统,因此,一些网站的网络服务器会从不同的抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合,来限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果您的服务器主机拥有多个IP,它的活动则会处于更高的级别。

在robots.txt 里,可以通过参数对搜索引擎的抓取程序设定一个较低的抓取请求频率。您可以加入 Crawl-delay: xx 指示,其中,“XX”是指在爬虫程序两次进入站点时,以秒为单位的最低延时。如果爬虫的抓取频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。

例如,您想设定一个2秒的延时,语句如下:

User-agent: Slurp

Crawl-delay: 2

搜索引擎对 Crawl-delay 的支持情况

yahoo 对 Crawl-delay 的反应:如果你有分析网站日志文件的习惯,你会发现以前的 yahoo 每天抓取网页的频率是最高的,其次是谷歌和百度,上面的 Crawl-delay 也是从 yahoo 的站长帮助文件中了解到的,所以 yahoo 对这个参数是支持的。

2011年10月28日后 yahoo 对网页抓取频率极具下降甚至很少抓取 — 本博客日志数据。

百度对 Crawl-delay 的反应:限制百度爬虫抓取时间和频率限制,可以在 robots 中的 crawl-delay 中设置,这个参数是 baidu spider 对网站访问频率的重要参考信息之一,但 spider 系统会根据网站规模、质量、更新频度等多方面信息综合计算得出最终的执行压力,因此并不保证严格遵守crawl-delay 中的设置值。

百度日语的 robots.txt 帮助文件中提到过这个参数的设置(文章后有参考地址),但中文的没有提到过,上面的回应来自:http://t.qq.com/p/t/79115059749621。

谷歌对 Crawl-delay 的反应:目前根据谷歌网站管理员工具中的抓取工具测试,谷歌会忽略掉这个参数。

网站管理员可以通过将网站添加到谷歌的网站管理员工具中,利用网站配置 – 设置来自定义抓取速度。

其他搜索引擎及参考资料

你可能也喜欢:

本文标签:, ,更多SEO标签

已更新:01/08/2012

文章标题:Robots.txt中的Crawl-delay参数
本文地址:http://www.scseoer.com/robots-crawl-delay.html
版权申明:本文原创于何清勇SEO博客«SEO帮助»栏目,转载请注明作者和原创地址!

23 位网友 对 “Robots.txt中的Crawl-delay参数” 发表了看法,你呢!

  1. 评论者头像
    #1 成都SEO 回复 | 引用 Post:2012-01-12 16:36

    看来是的。

  2. 评论者头像
    #2 成都SEO 回复 | 引用 Post:2012-01-12 16:36

    怎么发不了评论,要申核吗?

  3. 评论者头像
    #4 郑州seo 回复 | 引用 Post:2012-01-11 21:18

    今天看了zac的一些留言,说Robots.txt和NF,也都不能全部屏蔽百度权重的转移!!不知道真的假的!

    • 评论者头像
      #5 何清勇SEO博客 回复 | 引用 Post:2012-01-11 21:25

      百度权重值的分配始终是掌握在自己手中的,一个文件或标签是不能实质上改变什么的。很多参数可以用,但百度自身会根据网站情况进行最后判断。

  4. 评论者头像
    #6 汇才快信 回复 | 引用 Post:2012-01-11 18:04

    Crawl-delay这个还是第一次见到 好好看两遍再走

  5. 评论者头像
    #7 苏州刺绣 回复 | 引用 Post:2012-01-10 15:43

    这个参数木有用过

  6. 评论者头像
    #8 江苏seo记事本 回复 | 引用 Post:2012-01-10 14:03

    这个参数似乎和seo1关系不大,所以关注也少

  7. 评论者头像
    #9 进口葡萄酒代理 回复 | 引用 Post:2012-01-10 08:11

    对crawl-delay没什么了解

  8. 评论者头像
    #10 白咖啡 回复 | 引用 Post:2012-01-09 16:26

    很认真的看完全文!确实写得很不错!!

  9. 评论者头像
    #11 花茜 回复 | 引用 Post:2012-01-09 16:14

    请帮我分析一下http://www.hx1789.com这个网站,谢谢

    • 评论者头像
      #12 何清勇SEO博客 回复 | 引用 Post:2012-01-09 17:04

      简单的SEO建议和网页性能可以参考百度统计中的“SEO建议”和“网站速度测试”,利用提高分值来提高页面质量。

  10. robots.txt只做过简单的设置,没认真研究过,惭愧。

  11. 评论者头像
    #14 腊肉 回复 | 引用 Post:2012-01-09 15:14

    robots确实是需要设置好,才能更好的引导spider抓取网站的内容

  12. 评论者头像
    #15 杭州网站建设 回复 | 引用 Post:2012-01-09 14:16

    搜索永远是seo的话题,研究的结果各种各样,只有用户才是我们服务的上帝。抓住了用户,只要解决搜索问题即可。现在越来越多的seo只是一知半解,正途没有学会,反而学会了模棱两可,甚至背道而驰。

    • 评论者头像
      #16 何清勇SEO博客 回复 | 引用 Post:2012-01-09 17:02

      如果你真的是传统企业网站建设公司,能体会到这些,对自己的客户来讲,还是非常不错的,对于SEO,失败不可怕,对于初学者来讲,失败了应对总结经验,慢慢就过来了,每个人都从不懂到了解,再通过一步一步实践走过来的,一些时候多一点关爱和鼓励是很有必要的。

  13. 评论者头像
    #17 热地带 回复 | 引用 Post:2012-01-09 11:27

    没怎么研究,先了解了。

  14. 评论者头像
    #18 球磨机 回复 | 引用 Post:2012-01-09 10:50

    第一次看到这个,受益匪浅,会好好研究

  15. 评论者头像
    #19 山阳论坛 回复 | 引用 Post:2012-01-09 00:40

    流量现在是越来越值钱了,如果爬虫多来几次,不是流量都要消耗在爬虫身上了

  16. 评论者头像
    #21 浏阳论坛 回复 | 引用 Post:2012-01-09 00:19

    以前没研究过这个,认真看完觉得还是挺不错的。谢谢你的分享。

  17. 评论者头像
    #22 变形缝 回复 | 引用 Post:2012-01-08 18:01

    很不错的博客 学到很多

我来说两句