robots文件作为国际上通用的搜索引擎规则,可以规定搜索蜘蛛对网站可以爬行的范围,对某一些不必要的网页或者不想让搜索引擎蜘蛛发现的网页,可以在搜索引擎中列出,但是如果滥用robots文件,可能会导致网站大量网页甚至整个站点,都不被搜索引擎收录,如何正确的使用robots文件,就变的很重要。
为什么要使用robots文件?
搜索引擎蜘蛛在爬行网站的过程中,会首先在网站的根目录下,查找是否存在一个叫robots的纯文本文件,这个文件可以指定搜索引擎蜘蛛抓取的网页范围。
robots文件放在哪里?
对于普通网站来说,robots文件放在网站的根目录下即可,网站http://www.example。com/,那么,robots的访问地址就是http://www.example.com/robots.txt,观察下很多网站都存在robots文件,尤其是淘宝的 www.taobao.com/robots.txt,可以发现,它禁止了百度蜘蛛的爬行。
robots文件中,各条指令的用法?
一个空的robots文件,写法是这样的:
User-agent: *
Allow: /
表示允许所有搜索引擎蜘蛛爬行
如果网站还没有准备好,禁止蜘蛛爬行,则robots应该这样写:
User-agent: *
Disallow: /
相对于小说网站来说,如果不希望蜘蛛爬行网站的管理员目录,可以在robots文件里,这样写:
User-agent: *
Disallow: /admin/
还有一些robots文件中,可以禁止如何你想禁止的文件,比如:
禁止蜘蛛爬行所有.jpg、.gif图片,robots写法为
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
禁止爬行以file开头的文件夹中,所有的文件,robots写法为
User-agent: Baiduspider
Disallow: /file~/
只允许蜘蛛爬行所有html文件
User-agent: *
Allow: /*.htm$
Disallow: /
其实,对于小说站来说,需要禁止的文件不多,对robots文件有一个大致的了解就可以了,需要注意的是,在还没有彻底理解robots的用法规则之前,不要随便使用,防止对网站带来不必要的影响。本文由提供帅老公是高中生全文阅读的Q猪文学站(http://www.qzread.com/)原创发布,转载请注明出处。