快速注册

浅析robots.txt

浮生若梦 2012-02-04 16:11:39

浅析robots.txt
大家好，算起来，这才是荆州seo网站的第三篇技术性文章，真是惭愧惭愧。。。做seo的应该都知道robots，但是robots该怎么写呢？这篇文章我就来谈谈我的一点建议。
如果把网站比作一户人家的话，那么robots就可以比做那户人家的大门。我们都知道搜索引擎是通过蜘蛛（spider，bot）的程序自动爬寻网站的各个页面的，不管你的网页是否是隐私，蜘蛛都会通通帮你搜出来，这就可能造成你的隐私信息被公开。为了防止这种情况的发生，所以蜘蛛访问你的网站的时候就会在网站根目录先查看有没有robots.txt文件，并且读取里面的文件，看哪些页面是可以访问的，哪些目录是不能访问的。所以为了网站的安全考虑，一定要加上robots这个文件。如果蜘蛛在根目录找不到这个文件的话，还会返回一个404的状态（放一个空的robots文件也可以避免）。
上文的描述，相信大家都比较了解robots了下面具体讲robots该如何写。 robots的格式：在网站根目录下，建个记事本，起名为robots.txt。这个是最简单的robots文件，但是有几点要注意的：
1、必须放在网站根目录下
2、必须是纯文本文件
3、文件名必须为 robots.txt，并且必须为小写
4、里面的内容通常包含一条或多条规则记录，通过换行分开，每一条记录都是由一行或者多行User-agent开始，后面加上无数 Disallow行，具体如下：
User-agent:：
该项主要描述的是蜘蛛的名字，如果有多条，说明有多个蜘蛛受到此规则的限制。当然如果是 * 好的话，那就说明所有的蜘蛛都受到限制；不过在“robots.txt”文件中，“User-agent:*”这样的记录只能有一条。
Disallow：
该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如“Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问，而“Disallow:/help/”则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在robots.txt文件中，至少要有一条Disallow记录。如果robots.txt为空文件，则对于所有的搜索引擎robot，该网站都是开放的。
通过上文的举例，相信大家都比较了解robots的写法了，下面通过例子给大家举例说明robots该如何写。
(1). 禁止所有搜索引擎访问站点的任何部分。
User-agent:*
Disallow:/
(2).允许所有的蜘蛛进行访问。
User-agent:*
Disallow:
或者你可以直接建立一个空的robots.txt文件。
(3).禁止某个搜索引擎的访问。
User-agent:badbot
Disallow:/
举例分析：淘宝网的 robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
你看，很显然的，淘宝不运行百度蜘蛛访问站点的任何目录或者文件。
这里，Disallow的值也可以为地址，意思就是禁止对所包含URL的访问。
(4).允许某个搜索引擎的访问。
User-agent:baiduspider
Disallow:User-agent:*disallow:/
有一个站的robots是这样写的：
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
该站在这个robots中对三个目录进行了禁止访问的声明。请注意这里，在写robots的时候，一个目录必须声明一次，而不能：“Disallow: /cgi-bin/ /tmp/”这样来写。User-agent:后面的“*”代表any robot。
(5).放行一个，禁止一个。
如果你想禁止除了Google以外的搜索引擎的访问，那么可以这样写。
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Google不会看到第一二条声明以后就走，它会跟随下面一个声明来执行。
(6).在Google中，还有Allow这样一个量。
Allow的功能作用与Disallow一样。你可以同时使用这两个量，比如，你要禁止一个目录中某个文件之外的其他所有文件。那么就可以使用下面的语句来实现。
User-Agent:Googlebot
Disallow:/xiaomeng/
Allow:/xiaomeng/myfile.html
这里，将禁止xiaomeng这个目录下除myfile.html之外的所有页面。
(7).”*”的使用。
不知道你学过编程没有，或者应该见过*可以作为“代替”的一种标识符。这里独孤晓梦举例，比如要禁止所有以idea开头的目录的访问，就可以用到，语句如下：
User-Agent:Googlebot
Disallow:/private*/
(8).”$”的使用。
$字符可以与制定的URL的结束字符进行匹配。比如，你要禁止搜索引擎访问以.asp结尾的地址的时候，就可以：
User-Agent:googlebot
Disallow:/*asp$
通过上面的例子相信大家都比较了解robots这个神奇的小东西了，下面给大家说说我们seo该如何运用robots。
第一，用robots屏蔽网站重复页
很多网站一个内容提供多种浏览版本，虽然很方便用户却对蜘蛛造成了困难，因为它分不清那个是主，那个是次，一旦让它认为你在恶意重复，兄弟你就惨了
User-agent： *
Disallow： /sitemap/ 《禁止蜘蛛抓取文本网页》
第二，用robots保护网站安全
很多人纳闷了，robots怎么还和网站安全有关系了？其实关系还很大，不少低级黑客就是通过搜索默认后台登陆，以达到入侵网站的目标
User-agent： *
Disallow： /admin/ 《禁止蜘蛛抓取admin目录下所有文件》
第三，防止盗链
一般盗链也就几个人，可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消，如果你做的不是图片网站，又不想被搜索引擎“盗链”你的网站图片
User-agent： *
Disallow： .jpg$
第四，提交网站地图
现在做优化的都知道做网站地图了，可是却没几个会提交的，绝大多数人是干脆在网页上加个链接，其实robots是支持这个功能的
Sitemap： http://www.example.com/sitemaps.xml
第五，禁止某二级域名的抓取
一些网站会对VIP会员提供一些特殊服务，却又不想这个服务被搜索引擎检索到
User-agent： *
Disallow： /
好了接下来我提供一些常用的屏蔽文件列表和常用的搜索引擎列表
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
搜索引擎蜘蛛列表：
google蜘蛛：googlebot
百度蜘蛛：baiduspider
yahoo蜘蛛：Yahoo!slurp
alexa蜘蛛：ia_archiver
bing蜘蛛：MSNbot
altavista蜘蛛：scooter
lycos蜘蛛：lycos_spider_(t-rex)
alltheweb蜘蛛：fast-webcrawler
inktomi蜘蛛： slurp
百度其他蜘蛛:
无线搜索
Baiduspider-mobile
图片搜索
Baiduspider-image
视频搜索
Baiduspider-video
新闻搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度联盟
Baiduspider-cpro
商务搜索
Baiduspider-ads
网页以及其他搜索
Baiduspider
分享到： 0
文章作者：胡小易
本文地址：http://www.jingzhouseo.com/seoz/156.html
版权所有 © 转载时必须以链接形式注明作者和原始出处！

回应转发赞收藏

加载中...

私密豆列或部分疑似不友善内容不展示

<前页后页>

浮生若梦 (湖北武汉)

博客:wzxdm.com

浅析robots.txt

热门话题 · · · · · · ( 去话题广场 )