robots写法大全,教你巧妙运用robots文件 运用巧妙提问
robots.txt的功能分很多,我们如果合理运用好,对网站的帮助是起很大作用的。接下来我们来介绍一些比较常用的功能。
一、 利用robots.txt来限制网页快照
很多搜索引擎都提供一个网页快照的功能。但是网页快照功能却有很多的弊端,例如事实内容在网页快照中更新不及时、索引网页快照浪费大量的服务器资源等。因此,我们有些时候可能并不需要搜索引擎来索引我们某个页面的网页快照。
解决这样问题的办法很简单,只需要在你的网页元标记中(<head>和</head>之间)放置如下的一段代码。
<metaname=”robots”content=”noarchive”>
以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写
<metaname=”Baiduspider”content=”noarchive”>
需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。
二、禁止搜索引擎抓取网页页面
在SEO中,禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。因为网页有一些是我们不需要用来参加关键词排名的,所以可以屏蔽掉。为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:
<METANAME=”ROBOTS”CONTENT=”NOINDEX,FOLLOW”>
<metacontent=’***************’name=description>
在这里,METANAME=”ROBOTS”是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如METANAME=”Googlebot”、METANAME=”Baiduspide”、METANAME=”www.********.com”等。content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
INDEX命令:告诉搜索引擎抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,我们就有了一下的四种组合:
<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW”>:可以抓取本页,而且可以顺着本页继续索引别的链接
<METANAME=”ROBOTS”CONTENT=”NOINDEX,FOLLOW”>:不许抓取本页,但是可以顺着本页抓取索引别的链接
<METANAME=”ROBOTS”CONTENT=”INDEX,NOFOLLOW”>:可以抓取本页,但是不许顺着本页抓取索引别的链接
<METANAME=”ROBOTS”CONTENT=”NOINDEX,NOFOLLOW”>:不许抓取本页,也不许顺着本页抓取索引别的链接。
这里需要注意的是,不可把两个对立的反义词写到一起,例如www.*********.com
<METANAME=”ROBOTS”CONTENT=”INDEX,NOINDEX”>
或者直接同时写上两句
<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW”>
<METANAME=”ROBOTS”CONTENT=”NOINDEX,FOLLOW”>
这里有一个简便的写法,如果是
<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW”>的形式的话,可以写成:
<METANAME=”ROBOTS”CONTENT=”ALL”>
如果是
<METANAME=”ROBOTS”CONTENT=”NOINDEX,NOFOLLOW”>的形式的话,可以写成:<METANAME=”ROBOTS”CONTENT=”NONE”>
当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知,禁止建立网页快照的命令是noarchive,那么我们就可以写成如下的形式:<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW,noarchive”>
如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:
<METANAME=”Baiduspider”CONTENT=”INDEX,FOLLOW,noarchive”>
如果在元标记中不屑关于蜘蛛的命令,那么默认的命令即为如下
<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW,archive”>
因此,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。
在SEO中,对于蜘蛛的控制是非常重要的一部分内容,所以希望各位看官准确把握这部分的内容有些时候我们会遇到这样的困难:我们原本不想被搜索引擎收录的网站后台地址却被搜索引擎“无情”的收录,这样只要在Google里输入一个“后台、管理site: http://www.********.com/ ”,自己的后台地址就会显露无疑,因此网站安全性也无从谈起。遇到这样的情况时,我们如何阻止搜索引擎收录我们不想被收录的文件呢?
一般在这个时候,我们常用的办法有两个,一个是编辑robots.txt文件,另外一个是在不想被收录的页面头部放置METANAME=”ROBOTS”标签。
所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。
在很多网站中,站长们都忽略了使用robots.txt文件。因为很多站长都认为,自己的网站没有什么秘密可言,而且自己也不太会使用robots.txt的语法,因此一旦写错了会带来更多的麻烦,还不如干脆不用。
其实这样的做法是不对的。在前面的文章中我们知道,如果一个网站有大量文件找不到的时候(404),搜索引擎就会降低网站的权重。而robots.txt作为蜘蛛访问网站的第一个文件,一旦搜索引擎要是找不到这个文件,也会在他的索引服务器上记录下一条404信息。
虽然在百度的帮助文件中,有这样的一句话“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。”但是我个人还是认为建立robots.txt还是必须的,哪怕这个robots.txt文件是一个空白的文本文档都可以。因为我们的网站毕竟不是仅仅会被百度收录,同时也会被其他搜索引擎收录的,所以,上传一个robots.txt文件还是没有什么坏处的。
如何写一个合理的robots.txt文件?
首先我们需要了解robots.txt文件的一些基本语法。
语法作用
写法允许所有搜索引擎访问网站的所有部分
或者建立一个空白的文本文档,命名为robots.txt
User-agent:*
Disallow:
或者
User-agent:*
Allow:/
禁止所有搜索引擎访问网站的所有部分
User-agent:*
Disallow:/
禁止百度索引你的网站
User-agent:Baiduspider
Disallow:/
禁止Google索引你的网站
User-agent:Googlebot
Disallow:/
禁止除Google外的一切搜索引擎索引你的网站
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
禁止除百度外的一切搜索引擎索引你的网站
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/
禁止蜘蛛访问某个目录
(例如禁止admincssimages被索引)
User-agent:*
Disallow:/css/
Disallow:/admin/
Disallow:/images/
允许访问某个目录中的某些特定网址
User-agent:*
Allow:/css/my
Allow:/adminml
Allow:/images/index
Disallow:/css/
Disallow:/admin/
Disallow:/images/
使用“*”,限制访问某个后缀的域名,例如索引访问admin目录下所有ASP的文件
User-agent:*
Disallow:/admin/*.htm
使用“$”仅允许访问某目录下某个后缀的文件
User-agent:*
Allow:.asp$
Disallow:/
禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,例如index.asp?id=1)
User-agent:*
Disallow:/*?*
有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow:/images/”这样的直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片后缀名的方式。具体办法如下。
语法作用
写法
禁止Google搜索引擎抓取你网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
User-agent:Googlebot
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
禁止百度搜索引擎抓取你网站上的所有图片
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
除了百度之外和Google之外,禁止其他搜索引擎抓取你网站的图片(注意,在这里为了让各位看的更明白,因此使用一个比较笨的办法——对于单个搜索引擎单独定义。)
User-agent:Baiduspider
Allow:.jpeg$
Allow:.gif$
Allow:.png$
Allow:.bmp$
User-agent:Googlebot
Allow:.jpeg$
Allow:.gif$
Allow:.png$
Allow:.bmp$
User-agent:*
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
仅仅允许百度抓取网站上的“JPG”格式文件(其他搜索引擎的办法也和这个一样,只是修改一下搜索引擎的蜘蛛名称即可)
User-agent:Baiduspider
Allow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
仅仅禁止百度抓取网站上的“JPG”格式文件
User-agent:Baiduspider
Disallow:.jpg$
如果你看完以上这些,并记下,相信你对robots.txt已经有基本了解和认识。光知道还不是你的,要能在网站上运用出来,知识才是你的。
更多阅读
12个动作,教你用哑铃怎样练三角肌 用哑铃练三角肌
12个动作,教你用哑铃怎样练三角肌——简介本文分享的是用哑铃怎样练三角肌的动作图解 ,分别教你怎样用哑铃练三角肌的前、中、后三束肌肉。具体请看下文:12个动作,教你用哑铃怎样练三角肌——用哑铃锻炼三角肌前束肌肉
缓解胃痛的方法,教你最快缓解胃痛 半夜胃痛怎么快速缓解
因为本人从初中开始就一直饱受胃痛折磨,对胃痛的痛苦深有感受,最近总结了一点小技巧小方法,能够帮助和我一样有胃痛的人缓解缓解,不让自己受到胃痛折磨。请看下面的详解。缓解胃痛的方法,教你最快缓解胃痛——工具/原料生姜,热水,红糖缓
投影机选择必备知识,教你如何选购投影机 家用高清投影机选购
投影机选择必备知识,教你如何选购投影机——简介随着投影设备的日益普及,在日常生活中,大家都经常会接触到投影机,而投影机是较为昂贵的产品,用户在选购投影机时需要格外注意,对于投影机的一些基本参数和基本含义应该有所了解,下面就来为大
夫妻间那些事儿,教你如何享受性福 夫妻间那些事儿
夫妻间那些事儿,教你如何享受性福——简介夫妻间那些事儿,教你如何享受性福。夫妻间那些事儿,教你如何享受性福——方法/步骤夫妻间那些事儿,教你如何享受性福 1、磨枪待战:磨枪并不是叫大家在上阵前先自慰。相反,在约战之前的一、两天,最
win7如何卸载ie9,教你win7怎么卸载ie9 win7 ie9卸载工具
win7如何卸载ie9,教你win7怎么卸载ie9——简介如何卸载win7中的IE9浏览器,在我们安装了别的浏览器之后,那么就可以不需要希望自带的浏览器了,下面小编就来分享怎么卸载系统自带的浏览器win7如何卸载ie9,教你win7怎么卸载ie9——方法/步