如何书写网站的robots文件
robots.txt 用于指导网络爬虫(蜘蛛、搜索引擎)访问网站指定目录,英文也称之为“The Robots Exclusion Protocol”。robots.txt 的格式采用面向行的语法:空行、注释行(以 # 打头,具体使用方法和 UNIX 中的惯例一样)、规则行。规则行的格式为:Field: value。常见的规则行:User-Agent、Disallow、Allow行。robots 文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR, CR/NL, or NL 作为结束符),每一条记录的格式如下所示: <field>:<optional space><value><optionalspace> robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件(或建立空 robots.txt 文件)。。。。。略 略。。。。 原文:http://www.timezls.com/2016/10/robots-txt-how-to-write.html 时光在路上:http://www.timezls.com