搜狐博客robots.txt出现低级错误
关于robots.txt文件,它是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
下面是搜狐博客的robots.txt文件:
搜狐博客(blog.sohu.com)robots.txt 文件
由于搜狐博客下面的会员博客是采用二级域名,下面是任意会员博客的robots.txt文件:
搜狐博客会员(xieguozhong)的 robots.txt文件
从上面可以看出,搜狐博客robots.txt文件中出现的低级错误,将正确代码:
User-agent: Googlebot
Disallow:
错误的写成(可能是复制的时候少掉了):
ser-agent: Googlebot
Disallow:
这只是一个字母的丢失,结合最后的:
User-agent: *
Disallow: /
来看,搜狐博客已经将谷歌搜索引擎的爬虫程序拒之门外,下面是搜狐博客在谷歌的表现情况:
在 google 中直接搜索 blog.sohu.com
在谷歌使用site:命令查询结果:
在 google 使用 site 命令查询搜狐博客截图
在平时的SEO工作中,robots.txt文件的正确书写至关重要,还记得上次本博客也是因为该文件的失误,导致博客被谷歌K掉,如果不能正确的使用robots.txt文件,还不如不写。
搜狐博客robots.txt问题已经修正:
User-agent: Googlebot
Disallow:
User-agent: baiduspider
Disallow:
User-agent: Nutch
Disallow:
User-agent: msnbot
Disallow:
User-agent: Slurp
Disallow:
User-agent: *
Disallow: /
你可能也喜欢:
文章标题:搜狐博客robots.txt出现低级错误
本文地址:http://www.scseoer.com/blog-sohu-com-robots-txt.html
版权申明:本文原创于何清勇SEO博客«杂谈»栏目,转载请注明作者和原创地址!




那里有十全十美的事情呢,总是有错误的
robots.txt文件很伤心啊.我的网站想只让百度爬行,结果弄来弄去,搜搜与搜狗等还是时不时收一点.还有一些什么搜索引擎疯狂爬行.
只对百度开放,其余爬虫全部屏蔽就可以了噻,还弄什么?
监管部门不给力啊,像搜狐这种大公司,每个修改或者说上线的东西都应该有几道审核,出现这种低级错误,应该有很多人要被拉过去批了。
应该是复制的时候出了错误
大公司低级错误见得多了。
应该很快会更新吧。
据打听,好像很久之前就这样咯。
悲剧阿,,这都被何兄发现了,,狠阿,,可以通知通知搜狐阿,哈哈
过来拜访一下
好细心啊~~~
没人相信它会真的要屏蔽谷歌
希望来我博客留言
robots.txt 没写过,不知道怎么做!
有点不太懂,要多学习了。
真的是想不到啊,不过再怎么厉害的也总会出错的
楼主真的很认真啊,这样的问题都被你发现了
呵呵 确定低级
书写错误应当是当作失效的吧
用谷歌网站管理员工具检测到的错误是:
1、语法错误;
2、为指定User-agent;
3、Googlebot不在域中。
现在关于SEO的就主要是细节的问题
真是不如不写
和好,不错啊
他为什么要屏蔽蜘蛛呢?博客类的怎么写呢?
搜狐博客的robots.txt错误应该是失误。robots.txt的写法是根据网站程序来决定的,和网站类别木有关系。
啧啧,想不到搜狐居然也能犯这种失误。。。没人相信它会真的要屏蔽谷歌,不知道是哪个技术人员写的robots啊
你好,来看看你
谢谢,常交流。
大佬也有失误的时候呀
看不太懂。呵呵
经典啊~~
作者挺细心的。我刚接触SEO。。还要多多指教