百度蜘蛛模拟 百度蜘蛛是什么

functionimitateSpider($url){

$ci = curl_init();//初始化一个CURL的会话

$user_agent ="Baiduspider+(+http://www.baidu.com/search/spider.htm)";//这里模拟的是百度蜘蛛

//curl_setopt($ci,CURLOPT_PROXY,'74.125.71.99');

curl_setopt($ci, CURLOPT_URL, $url);

curl_setopt($ci,CURLOPT_HEADER,false);

curl_setopt($ci, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ci,CURLOPT_REFERER,'http://www.baidu.com');//这里写一个来源地址,可以写要抓的页面的首页

curl_setopt($ci, CURLOPT_USERAGENT,$user_agent);

$temp=curl_exec($ci);//执行CURL会话

curl_close($ci);

return$temp;

}

$url='www.google.com.hk';

$data=imitateSpider($url);

print_r($data);

baiduspider在爬取网页时,发送请求的User-Agent字段内容将更新。
百度蜘蛛模拟 百度蜘蛛是什么
目前的字段内容是
Baiduspider+(+http://www.baidu.com/search/spider.htm)
更换后的字段内容是
Mozilla/5.0 (compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

模拟蜘蛛的原理其实很简单,就是修改User-Agent
当然也可以修改成不同浏览器或者移动设备。对于蜘蛛模拟还可以做一样事情,那就是当蜘蛛过来的时候,呈现的内容是符合蜘蛛口味,比如一些关键词的堆砌(SEO优化),对于浏览器或移动设备访问(人),呈现的内容是另外一种正常的文章,为的是用户体验。比如我用IE来模拟火狐访问,就是修改为火狐的信息使用这个:navigator.userAgent查看
Mozilla/5.0 (Windows NT 5.1; rv:14.0)Gecko/20100101 Firefox/14.0.1

  

爱华网本文地址 » http://www.aihuau.com/a/25101017/331901.html

更多阅读

百度云盘离线下载是什么意思?以及如何使用? 百度云盘离线

百度云盘离线下载是什么意思?以及如何使用?——简介百度网盘提供的离线下载功能,今天自己很好奇所以自己尝试一下。到底是什么功能以及好不好用?下面会详细的和大家分析,希望对大家有所帮助吧~~百度云盘离线下载是什么意思?以及如何

特百惠公司介绍 特百惠杯子是什么材质

特百惠公司介绍一、公司特点:特百惠是美国的一家专门生产家居用品的公司,成立于1938年,至今已有70多年的历史。二、创始人:特百惠的创始人是伊尔特百先生,早在杜邦公司时,发现了一种化工原料,有六大特点:无毒、无色、无味、无嗅、至清、可

百度图+是什么_百度图加_百度图加号 百度医生预约加号凭证

百度新产品越来越多,近日打开百度产品大全,看到一款叫“百度图+”的产品,点击开看了看,是百度联盟开发的一款广告展现形式。百度图+ 百度图+有三种展示形式,贴片样式、右上展开样式、icon浮层样式。百度图+展现样式 安装方法:登录百度联盟

有趣名字 度娘是什么意思 有趣的灵魂是什么意思

度娘是什么意思?请教下度娘是什么意思?百度为什么叫度娘?百度为什么叫度娘而不是度爷?百度度娘刘冬是谁?百度度娘刘冬是谁?听说百度度娘刘冬度娘素颜照很火,度娘让我自然而然又想到了另外一网络新鲜术语:“坑爹”。坑爹与度娘两者似乎有

声明:《百度蜘蛛模拟 百度蜘蛛是什么》为网友倍儿棒分享!如侵犯到您的合法权益请联系我们删除