Robots.txt文件在线生成

默认 -  所有:  
爬虫-延迟时间:
网站地图: (可以不填写)
     
主流搜索引擎: Google(谷歌)   googlebot
  Baidu(百度)   baiduspider
  Sogou(搜狗)   sogou spider
  YouDao(有道)   YodaoBot
  MSN Search   msnbot
  Yahoo   yahoo-slurp
  Ask/Teoma   teoma
  Cuil   twiceler
  GigaBlast   gigabot
  Scrub The Web   scrubby
  DMOZ Checker   robozilla
  Nutch   nutch
  Alexa/Wayback   ia_archiver
  Naver   naverbot, yeti
   
其他搜索引擎: Google Image   googlebot-image
  Google Mobile   googlebot-mobile
  Yahoo MM   yahoo-mmcrawler
  MSN PicSearch   psbot
  SingingFish   asterias
  Yahoo Blogs   yahoo-blogs/v3.9
   
限制目录 该路径是相对于根目录以 "/"结尾
 
 
 
 
 
 
 
 
 
 
   

现在,在桌面新建一个记事本,将上面代码复制进去并保存为“robots.txt”,然后上传你网站的根目录。请注意文件的权限设置,确保可以访问,一般默认设置就可以了。

robots.txt文件是有什么作用?

robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。

它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

robots.txt文件访问与提交方法

例如:如果您的网站地址是 http://www.yinhuafeng.cn/那么,该文件必须能够通过 http://www.yinhuafeng.cn/robots.txt 打开并看到里面的内容,然后登陆百度站长平台,在后台可以提交该地址。

robots.txt文件的格式

User-agent:

表示用来描述搜索引擎蜘蛛的名字,在" robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该 项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" robots.txt "文件中,"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

举例:

例一:"Disallow:/help"是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。

例二:"Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。

例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。

#:robots.txt 协议中的注释符。

综合例子:

例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录,以及 "/tmp/"目录和 /foo.html 文件,设置方法如下:

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容,设置方法如下:

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三:禁止任何搜索引擎抓取我的网站,设置方法如下:

User-agent: *

Disallow: /

例四:只禁止某个搜索引擎抓取我的网站如:只禁止名为"slurp"的搜索引擎蜘蛛抓取,设置方法如下:

User-agent: slurp

Disallow: /