搜索引擎爬虫 搜索引擎爬虫的分类

  根据不同的应用,爬虫系统在许多方面存在差异,大体而言,可以将爬虫划分为如下三种类型:

  1. 批量型爬虫(Batch Crawler):批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。至于具体目标可能各异,也许是设定抓取一定数量的网页即可,也许是设定抓取消耗的时间等。

  2.增量型爬虫(Incremental Crawler):增量型爬虫与批量型爬虫不同,会保持持续不断的抓取,对于抓取到的网页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。

搜索引擎爬虫 搜索引擎爬虫的分类

  3.垂直型爬虫(Focused Crawter):垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于健康网站来说,只需要从互联网页而里找到与健康相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页内容是否属于指定行业或者主题。从节省系统资源的角度来说,不太可能把所有互联网页面下载下来之后再去筛选,这样浪费资源就太过分了,往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓墩无关页面,以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。

  本文由:pic单片机 www.zoopen.com.cn发布。

  

爱华网本文地址 » http://www.aihuau.com/a/5591871/711253499.html

更多阅读

谷歌搜索教程。搜索引擎使用高级教程 谷歌363搜索引擎入口

谷歌搜索教程。搜索引擎使用高级教程——简介搜索引擎已经是网民不可分割的一部分。学会了搜索技巧,可以让您搜索时间大大减少,并找到目标结果更加精确。谷歌搜索教程。搜索引擎使用高级教程——工具/原料谷歌浏览器谷歌搜索教程。

seo搜索引擎优化如何去选取关键词? seo网站关键词优化

seo搜索引擎优化如何去选取关键词?——简介 关键词是用户在搜索引擎搜索框中输入的文字。用户通过关键词,找寻自己想要的信息。这个关键词就相当于用户找资料向搜索引擎的一个指令。在做SEO的时候,为了做到我们提供的内容、产品最先最

常用中文搜索引擎大全 中文搜索引擎大全

一、主要搜索引擎?1、百度??百度是中国互联网用户最常用的搜索引擎,每天完成上亿次搜索;也是全球最大的中文搜索引擎,可查询数十亿中文网页。现在很多人常说的就是“有事找度娘”。?2、搜狗?搜狗是搜狐公司于2004年8月3日推出的全球首

搜索引擎的使用技巧 搜索引擎收录的技巧

搜索引擎就是帮助我们来方便地查询网上信息的,但是当你输入关键词后,出现了成百上千个查询结果,而且这些结果中并没有多少你想要的东西,面对着一堆信息垃圾,这时你的心情该是如何的沮丧。不要难过,这不是因为搜索引擎没有用,而是由于你没

美国的本地搜索引擎 越南本地搜索引擎

google虽然很强大,但google的数据量太大,只有哪些比较大的公司才能够排在前面,很多中小公司被湮灭在数据的海洋里,那么还有什么办法可以帮助我们找到很多的中小公司呢?实际上世界上除了google,还有很多不同的本地的中小搜索引擎,他们的搜索

声明:《搜索引擎爬虫 搜索引擎爬虫的分类》为网友街角祝福你分享!如侵犯到您的合法权益请联系我们删除