浅析robots.txt
浅析robots.txt
大家好,算起来,这才是荆州seo网站的第三篇技术性文章,真是惭愧惭愧。。。做seo的应该都知道robots,但是robots该怎么写呢?这篇文章我就来谈谈我的一点建议。
如果把网站比作一户人家的话,那么robots就可以比做那户人家的大门。我们都知道搜索引擎是通过蜘蛛(spider,bot)的程序自动爬寻网站的各个页面的,不管你的网页是否是隐私,蜘蛛都会通通帮你搜出来,这就可能造成你的隐私信息被公开。为了防止这种情况的发生,所以蜘蛛访问你的网站的时候就会在网站根目录先查看有没有robots.txt文件,并且读取里面的文件,看哪些页面是可以访问的,哪些目录是不能访问的。所以为了网站的安全考虑,一定要加上robots这个文件。如果蜘蛛在根目录找不到这个文件的话,还会返回一个404的状态(放一个空的robots文件也可以避免)。
上文的描述,相信大家都比较了解robots了下面具体讲robots该如何写。 robots的格式: 在网站根目录下,建个记事本,起名为robots.txt。这个是最简单的robots文件,但是有几点要注意的:
1、必须放在网站根目录下
2、必须是纯文本文件
3、 文件名必须为 robots.txt,并且必须为小写
4、里面的内容通常包含一条或多条规则记录, 通过换行分开,每一条记录都是由一行或者多行User-agent开始,后面加上无数 Disallow行,具体如下:
User-agent::
该项主要描述的是蜘蛛的名字,如果有多条,说明有多个蜘蛛受到此规则的限制。当然如果是 * 好的话,那就说明所有的蜘蛛都受到限制;不过在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如“Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问,而“Disallow:/help/”则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在robots.txt文件中,至少要有一条Disallow记录。如果robots.txt为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
通过上文的举例,相信大家都比较了解robots的写法了,下面通过例子给大家举例说明robots该如何写。
(1). 禁止所有搜索引擎访问站点的任何部分。
User-agent:*
Disallow:/
(2).允许所有的蜘蛛进行访问。
User-agent:*
Disallow:
或者你可以直接建立一个空的robots.txt文件。
(3).禁止某个搜索引擎的访问。
User-agent:badbot
Disallow:/
举例分析:淘宝网的 robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
你看,很显然的,淘宝不运行百度蜘蛛访问站点的任何目录或者文件。
这里,Disallow的值也可以为地址,意思就是禁止对所包含URL的访问。
(4).允许某个搜索引擎的访问。
User-agent:baiduspider
Disallow:User-agent:*disallow:/
有一个站的robots是这样写的:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
该站在这个robots中对三个目录进行了禁止访问的声明。请注意这里,在写robots的时候,一个目录必须声明一次,而不能:“Disallow: /cgi-bin/ /tmp/”这样来写。User-agent:后面的“*”代表any robot。
(5).放行一个,禁止一个。
如果你想禁止除了Google以外的搜索引擎的访问,那么可以这样写。
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Google不会看到第一二条声明以后就走,它会跟随下面一个声明来执行。
(6).在Google中,还有Allow这样一个量。
Allow的功能作用与Disallow一样。你可以同时使用这两个量,比如,你要禁止一个目录中某个文件之外的其他所有文件。那么就可以使用下面的语句来实现。
User-Agent:Googlebot
Disallow:/xiaomeng/
Allow:/xiaomeng/myfile.html
这里,将禁止xiaomeng这个目录下除myfile.html之外的所有页面。
(7).”*”的使用。
不知道你学过编程没有,或者应该见过*可以作为“代替”的一种标识符。这里独孤晓梦举例,比如要禁止所有以idea开头的目录的访问,就可以用到,语句如下:
User-Agent:Googlebot
Disallow:/private*/
(8).”$”的使用。
$字符可以与制定的URL的结束字符进行匹配。比如,你要禁止搜索引擎访问以.asp结尾的地址的时候,就可以:
User-Agent:googlebot
Disallow:/*asp$
通过上面的例子相信大家都比较了解robots这个神奇的小东西了,下面给大家说说我们seo该如何运用robots。
第一,用robots屏蔽网站重复页
很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,兄弟你就惨了
User-agent: *
Disallow: /sitemap/ 《禁止蜘蛛抓取 文本网页》
第二,用robots保护网站安全
很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标
User-agent: *
Disallow: /admin/ 《禁止蜘蛛抓取admin目录下所有文件》
第三,防止盗链
一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片
User-agent: *
Disallow: .jpg$
第四,提交网站地图
现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的
Sitemap: http://www.example.com/sitemaps.xml
第五,禁止某二级域名的抓取
一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到
User-agent: *
Disallow: /
好了接下来我提供一些常用的屏蔽文件列表和常用的搜索引擎列表
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
搜索引擎蜘蛛列表:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
百度其他蜘蛛:
无线搜索
Baiduspider-mobile
图片搜索
Baiduspider-image
视频搜索
Baiduspider-video
新闻搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度联盟
Baiduspider-cpro
商务搜索
Baiduspider-ads
网页以及其他搜索
Baiduspider
分享到: 0
文章作者:胡小易
本文地址:http://www.jingzhouseo.com/seoz/156.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!
大家好,算起来,这才是荆州seo网站的第三篇技术性文章,真是惭愧惭愧。。。做seo的应该都知道robots,但是robots该怎么写呢?这篇文章我就来谈谈我的一点建议。
如果把网站比作一户人家的话,那么robots就可以比做那户人家的大门。我们都知道搜索引擎是通过蜘蛛(spider,bot)的程序自动爬寻网站的各个页面的,不管你的网页是否是隐私,蜘蛛都会通通帮你搜出来,这就可能造成你的隐私信息被公开。为了防止这种情况的发生,所以蜘蛛访问你的网站的时候就会在网站根目录先查看有没有robots.txt文件,并且读取里面的文件,看哪些页面是可以访问的,哪些目录是不能访问的。所以为了网站的安全考虑,一定要加上robots这个文件。如果蜘蛛在根目录找不到这个文件的话,还会返回一个404的状态(放一个空的robots文件也可以避免)。
上文的描述,相信大家都比较了解robots了下面具体讲robots该如何写。 robots的格式: 在网站根目录下,建个记事本,起名为robots.txt。这个是最简单的robots文件,但是有几点要注意的:
1、必须放在网站根目录下
2、必须是纯文本文件
3、 文件名必须为 robots.txt,并且必须为小写
4、里面的内容通常包含一条或多条规则记录, 通过换行分开,每一条记录都是由一行或者多行User-agent开始,后面加上无数 Disallow行,具体如下:
User-agent::
该项主要描述的是蜘蛛的名字,如果有多条,说明有多个蜘蛛受到此规则的限制。当然如果是 * 好的话,那就说明所有的蜘蛛都受到限制;不过在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如“Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问,而“Disallow:/help/”则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在robots.txt文件中,至少要有一条Disallow记录。如果robots.txt为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
通过上文的举例,相信大家都比较了解robots的写法了,下面通过例子给大家举例说明robots该如何写。
(1). 禁止所有搜索引擎访问站点的任何部分。
User-agent:*
Disallow:/
(2).允许所有的蜘蛛进行访问。
User-agent:*
Disallow:
或者你可以直接建立一个空的robots.txt文件。
(3).禁止某个搜索引擎的访问。
User-agent:badbot
Disallow:/
举例分析:淘宝网的 robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
你看,很显然的,淘宝不运行百度蜘蛛访问站点的任何目录或者文件。
这里,Disallow的值也可以为地址,意思就是禁止对所包含URL的访问。
(4).允许某个搜索引擎的访问。
User-agent:baiduspider
Disallow:User-agent:*disallow:/
有一个站的robots是这样写的:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
该站在这个robots中对三个目录进行了禁止访问的声明。请注意这里,在写robots的时候,一个目录必须声明一次,而不能:“Disallow: /cgi-bin/ /tmp/”这样来写。User-agent:后面的“*”代表any robot。
(5).放行一个,禁止一个。
如果你想禁止除了Google以外的搜索引擎的访问,那么可以这样写。
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Google不会看到第一二条声明以后就走,它会跟随下面一个声明来执行。
(6).在Google中,还有Allow这样一个量。
Allow的功能作用与Disallow一样。你可以同时使用这两个量,比如,你要禁止一个目录中某个文件之外的其他所有文件。那么就可以使用下面的语句来实现。
User-Agent:Googlebot
Disallow:/xiaomeng/
Allow:/xiaomeng/myfile.html
这里,将禁止xiaomeng这个目录下除myfile.html之外的所有页面。
(7).”*”的使用。
不知道你学过编程没有,或者应该见过*可以作为“代替”的一种标识符。这里独孤晓梦举例,比如要禁止所有以idea开头的目录的访问,就可以用到,语句如下:
User-Agent:Googlebot
Disallow:/private*/
(8).”$”的使用。
$字符可以与制定的URL的结束字符进行匹配。比如,你要禁止搜索引擎访问以.asp结尾的地址的时候,就可以:
User-Agent:googlebot
Disallow:/*asp$
通过上面的例子相信大家都比较了解robots这个神奇的小东西了,下面给大家说说我们seo该如何运用robots。
第一,用robots屏蔽网站重复页
很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,兄弟你就惨了
User-agent: *
Disallow: /sitemap/ 《禁止蜘蛛抓取 文本网页》
第二,用robots保护网站安全
很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标
User-agent: *
Disallow: /admin/ 《禁止蜘蛛抓取admin目录下所有文件》
第三,防止盗链
一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片
User-agent: *
Disallow: .jpg$
第四,提交网站地图
现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的
Sitemap: http://www.example.com/sitemaps.xml
第五,禁止某二级域名的抓取
一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到
User-agent: *
Disallow: /
好了接下来我提供一些常用的屏蔽文件列表和常用的搜索引擎列表
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
搜索引擎蜘蛛列表:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
百度其他蜘蛛:
无线搜索
Baiduspider-mobile
图片搜索
Baiduspider-image
视频搜索
Baiduspider-video
新闻搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度联盟
Baiduspider-cpro
商务搜索
Baiduspider-ads
网页以及其他搜索
Baiduspider
分享到: 0
文章作者:胡小易
本文地址:http://www.jingzhouseo.com/seoz/156.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!