![为什么不能搜索到QQ空间 qq空间搜索](http://img.aihuau.com/images/31101031/31124023t01fee7cc64366c00f1.jpg)
大家可能注意到一件事情,在任何搜索引擎(如百度,Google,搜狗,yahoo等)搜索资料,却不会有关于QQ空间的地址链接。
其实,解决这个疑问,就得先了解一个词“蜘蛛协议”(点击进入百度百科了解)。互联网就像蜘蛛网一样,将世界所有用户用“蜘蛛丝”连接成一个整体,搜索引擎就是将大大小小的资料聚合起来,供广大网民搜索使用。搜索引擎用“网络蜘蛛(WebSpider)”进入每个网站进行抓取收录,存储页面。这就是常见的“××快照”。
但是,抓取的同时,带来一个问题,含有隐私的资料不想让“网络蜘蛛”抓取怎么办?就有了"robots.txt"。此文档是搜索引擎中访问网站的时候要查看的第一个文件。当一个网络蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的网络蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt放在网站的根目录下,内容一般有这几种:
a、允许访问
User-agent:* Allow: / Sitemap:http://www.***.com/sitemap.xml b、禁止访问
#All robots will spider the domain User-agent: * Disallow: Sitemap:http://www.***.com/sitemap.xml
更多的样式大家百度一下吧,这里就不赘述了
如果允许访问,网络蜘蛛就会对网站进行抓取,然而网络蜘蛛更喜欢有网站地图(sitemap)的网站,网络蜘蛛会按照地图规定抓取链接,有条不紊,也节约了时间,更快速的抓取。为了利于优化,以及收录率,各个站长千万不要小视这个网站地图这个细节。关于如何制作网站地图,可以在网上搜索各种网站地图制作软件。如果是wordpress站长,可以安装地图插件(具体可以咨询http://blog.leeviny.net),可以方便的让搜索引擎抓取。还可以根据意愿,那些不让搜索网络蜘蛛抓取的页面,添加规则至robots.txt中。
robots.txt的格式可以参照各大网站的样式,具体方法是输入网址然后/robots.txt。如baidu.com/robots.txt。直接保存放在网站的根部路即可。因为QQ保护个人隐私,所以在规则中禁止网络蜘蛛抓取。现在大家了解为什么搜不到QQ空间的任何资料了吧。点击QQ空间的robots.txt文件瞧一瞧吧。