一、搜索引擎的历史二、搜索引擎的技术现状三、站内搜索和公网搜索四、中文分词和检索五、搜索的未来
今天来讨论搜索引擎,很有意思的是徽剑作为技术背景的从业人士,曾经也参与了搜索引擎的开发,开发过一套基于互联网的情报系统,就是当年百度李彦宏也曾经干过的事。后来一直也在关注搜索技术。现在徽剑手上还有两套搜索引擎系统的方案。
需要指出的是,由于考虑到读者群体,徽剑在这篇文章中基本上以原理为主,对于一些涉及细节的东西,除了关键的地方以外,一般都会略去不说。希望讨论搜索引擎这个话题的可以联系徽剑,或者加入QQ群21423628 搜索技术研究与实践,这里主要讨论搜索技术、分词、数据检索挖掘、技术开发等系列问题,特别是前沿问题,刚建立的,人不多。不过这个群不欢迎所谓的SEO人士。在徽剑看来,所谓中国的SEO基本都是糊弄人的,这个群里面发现一个清理一个。徽剑在这里推荐英文好的朋友可以去阅读一篇文章《The Anatomy of a Large-Scale Hypertextual Web Search Engine》,是讲谷歌雏形的东西.一些主要的技术都提到了。不妨可以把徽剑的本文和那篇文章对照起来阅读,相信你对搜索引擎会有更深的认识。一、国内搜索引擎的历史首先让我们来看看搜索引擎的历史:
最早的计算机是用于计算弹道轨迹的,但随后人们就把它用于信息检索,其实搜索引擎就是一种信息检索。而计算机检索系统也就是搜索引擎,我们可以这么说,计算机出现后不久,就出现了搜索引擎。
按照IT历史研究人员的说法,计算机信息检索可以分为三个阶段:
首先是早期的脱机检索:其特点是不对一个检索提问立即作出回答,而是集中大批提问后进行处理,且进行处理的时间较长,人机不能对话,
1954年,美国海军首先采用IBM-701型计算机建立了世界上第一个科技文献检索系统,实现了单元词组配检索,检索逻辑只采用“逻辑与”,检索结果只是文献号。
1958年,美国通用电器公司将其加以改进,输出结果增加了题名、作者和文献摘要等项目。1964年,美国化学文摘服务社建立了文献处理自动化系统,使编制文摘的大部分工作实现了计算机检索。同年,美国国立医学图书馆建立了计算机数据库,即医学文献分析与检索系统,不仅可以进行逻辑“或”、“与”、“非”等种运算,而且还可以从多种途径检索文献。第二阶段是联机信息检索,从60年代中期到70年代初。由于计算机分时技术的发展,通信技术的改进,以及计算机网络的初步形成和检索软件包的建立,用户可以通过检索终端设备与检索系统中心计算机进行人机对话,从而实现对远距离之外的数据库进行检索的目的,即实现了联机信息检索。 出现了美国的DIALOG系统、ORBIT系统、BRS系统、欧洲的ESA-IRS系统等。
第三个阶段是网络化联机检索阶段,此阶段是从70年代初到现在。由于数据通信网都可为情报检索传输数据。用户可借助通讯网络直接与检索系统联机,从而实现不受地域限制的联机信息检索。像美国的DIALOG信息公司已成为全世界最为著名的联机检索服务机构。
到了上个世纪90年代,联机检索正式从科研、教育等大型机构,走向了大众的日常生活。让我们来看看报道:
“90年初当时万维网还未出现,为了查询散布在各个分散的主机中的文件,曾有过Archie, Gopher等搜索工具。随着互联网的迅速发展,基于HTTP访问的web技术的迅速普及,在1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线,它还支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据库查询。这就是早期的目录导航系统。
1994年7月,Lycos推出了基于robot的数据发现技术,并支持搜索结果相关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。 1995年,一种新的搜索引擎工具出现了——元搜索引擎,第一个元搜索引擎是华盛顿大学的学生开发的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 1995年12月才登场亮相的AltaVista推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎, 同时AltaVista还支持搜索新闻群组(Newsgroups),搜索图片等具有划时代意义的功能。同时期还有inktomi,HotBot等搜索引擎。 1997年8月Northernlight 公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。 1998年10月,Google诞生。它是目前最流行的搜索引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。 1999年5月,Fast(Alltheweb)公司发布了自己的搜索引擎AllTheWeb,它的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。它曾经是最流行的搜索引擎之一,后在2003年2月被Overture收购。”以上就是国际的搜索引擎发展历史。下面来看看中文搜索引擎发展历史。
1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序(PolyRankTM)核心技术。北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务, 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。2003年7月,北京天网时代科技有限公司完全收购了北大天网,开展搜索相关业务。
百度中文搜索由前Infoseek工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索,图片,Flash,音乐等多媒体信息的检索。
二、搜索引擎的技术现状
前面说了搜索引擎的历史,这里来说一下搜索引擎的技术。
很多人对搜索引擎的技术的了解,大多从所谓的SEO而来,什么链接了、PR了等等,更多的是隔靴搔痒。没有真正明白搜索引擎是什么。那么这里让我们来从技术架构上看看搜索引擎到底是什么眼的东西。
先来看一张徽剑绘制的图:
这个图里面就详细说明了搜索引擎的架构。让徽剑来一一解释。
首先,搜索引擎的工作原理是由一个网络蜘蛛程序进行抓取互联网上的信息,然后建立索引数据库,等用户查询时由检索器按照用户的关键词进行检索,将检索结果返回给用户。任何搜索引擎都有三大部分,即数据来源搜索系统、查询显示系统、搜索引擎管理系统。
数据来源搜索系统顾名思义就是不断寻找数据,它的核心部分是网络蜘蛛程序,下面的图是一个其结构的说明:
蜘蛛机器人系统的工作原理是,最初根据人工干预系统在检索索引数据库里面存放的的种子链接,开始抓取网页,简而言之就是蜘蛛机器人会把你网站上的网页数据全部下载过去,交给抓处信息处理系统处理,这里有一个关键就是它是按照检索索引数据库里面提供的链接来寻找网页的,在下载这些网页的同时,会识别在网页中的超链接,也就是从被抓取网页上链接到新的网页的地址,蜘蛛机器人会把这个超链接提交给检索索引数据库,由人工干预系统制定规则,决定哪些链接可以成为新的被抓取的网页地址。
这里很多人有一个误区,以为网络蜘蛛机器人会不断按照网页上的超链接自己延伸过去,其实不然,每个蜘蛛机器人都是按照人工指定的规则抓取一定页面,一般而言这个是按照URL来的。超出部分的链接会提交给检索索引数据库,让下一批搜索的网络蜘蛛机器人去查找。否则一个蜘蛛机器人按照所有链接抓过去,那还不抓遍全互联网啊。
在网络蜘蛛机器人系统里面,真正起指挥作用的是人工管理系统制定的规则和检索索引数据库。它可以决定什么样的网站抓的勤一点,或者干脆不抓。
抓取信息处理系统也叫预处理系统,它是负责对网络蜘蛛抓取过来的网页数据进行处理,它负责分析抓取来的网页,它要判断这个网页几项要素:
一是这个网页的核心内容是什么,也就是这个网页的“关键词“什么?二是这个网页的重要性权重如何,也就是说在同样“关键词“的网页比较,谁更符合这个“关键词”。在第一个要素里面,预处理系统需要通过对网页上的内容进行分析,而这里的“关键词”不是我们日常理解的词语,它是由语义分析学习系统按照一定规律制定的“最小语境含义表达单位(语境根)”,它可以是一个字,一个词,甚至一个短语,就是说它是表示某个含义的最小单位。通过根据“最小语境含义表达单位(语境根)”和网页文字进行比较,判断出这个网页的“关键词“。
这里有两点是很关键的,“最小语境含义表达单位(语境根)”和网页文字进行比较时,是按照一定层次来进行比较的,首先会比较网页代码头部里面的关键词,其次是网页标题,然后会比较明显的标记的文字。这也是为什么SEO说标题和某些“关键词”突出显示很重要的缘故。
还有一个是网页文字相关性,其实也就是“相关词”,举例来说一个“关键词”是“电脑”页面上,同时出现内存、硬盘等相关内容的页面,肯定比一个同时只出现萝卜白菜的页面更符合这个“关键词”。所以徽剑提醒那些所谓的SEO人士,注意这个“相关词”。这个“相关词”通常是判断网页有没有所谓的SEO作弊的关键一点。如果“相关词”提取得好的话,对于识别作弊者来说是很容易的,举例来说,很多SEO作弊者都喜欢在页面上堆砌一堆词,这堆词没有连续表达的意思,比如“北京机票上海机票天津机票”这样堆砌,这样的一句话甚至一段话都没什么常见的意义的话,而“相关词”有判断连续表达的一些用语,比如“订北京机票”的“订”,这种常见的“相关词”,那很容易把这个作弊识别出来。
更多关于“最小语境含义表达单位(语境根)”和“相关词”的制定,请看本第四节“中文分词和检索”里面详细说明,这里回到话题,这个“关键词“其实是从网页内部来判断网页与“关键词”符合的程度,徽剑把这叫“内部投票”,其实还有一个大家都知道的外部投票,那就是外部链接。
事实上,判断“相关”不仅有网页的“相关词”,还有网站的“相关词”,一个电脑网站里面的的电脑相关“关键词“页面,肯定会比体育网站页面的权重更大。这也是内部投票。
很多人都喜欢做大量友情链接,特别是跟PR值较高的网页链接,之所以有PR值,有关文章指出“直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。PageRank处理了这两方面因素,并通过网络链接递归地传递。”
这就有点像逻辑上的传递律,跟一个重要的相联系,肯定也有点重要。事实上,预处理系统首先判断的是蜘蛛机器人抓过来的这个链接文字,然后才是对网页进行判断分析,这是因为链接描述文字是一个“对外宣传关键词”,是吸引访问者点击过来的关键点,通常链接描述文字比网页本身更精确地描述该网页,所以搜索引擎会对这个相当关注。这也就是所谓的“外部投票”。
结合了“外部投票”和“内部投票”,抓取信息处理系统会按照一定公式针对不同“关键词”得出一个数值,这个数值就是未来查询时,,这个页面用来与其他“关键词“符合的页面比较的权重。数值越大就说明越符合,排名就越靠前。
下面再看,经过预处理后的网页,会将其内容打包压缩保存在缓存数据库系统里面,这个保存是按照前面预处理系统分析的结果保存的。下面说一下缓存数据库系统。这个数据库系统很大,大到需要几万、几十万台服务器来存储的。它不是使用我们常见的各种数据库,而是按照一定编码记录在硬盘上,其实也就是一个自己开发的数据库系统。它的最大特点是索引系统极其发达,它是根据“最小语境含义表达单位(语境根)”来进行排序的,
徽剑在这里指出一个很多人的误区,很多人以为这个数据保存在数据库里面了,然后网民在搜索时是到这个里面去检索里面的压缩数据。其实这是大错特错,早期和一些小的搜索引擎确是是这样,但是搜索引擎的核心技术不是在查询上面,而是在分析部分,也就是刚说的预处理部分上面,网民查询时,查询系统检索的是预处理系统分析的结果,用个比喻,这个预处理就是图书馆将书分类放置的过程,这个网页就像一本书,图书馆的查询系统只是帮我们将这本书找到,它知道书名和大致内容,但是不知道具体内容。当我们在搜索引擎里面打开快照时,就是把这本书“网页“给找出来了。搜索引擎建立了大量的目录,然后帮你按目录。
如果不这样,试想下,面对海量的数据,什么遍历查询算法有这能力?一秒钟检索1000G的数据,而且还是几百万人、几千万人同时来的,这要什么样的硬件?不可能。
事实是那些已经检索好了,只是调用下而已。比如说搜索引擎数据库是10000G,而索引是1G的话,当搜索时,查询的是这个1G的索引而已。而且这个索引一开始就是按照“最小语境含义表达单位(语境根)”来排序的,所以找起来很简单。很多人总以为搜索引擎对查询要求很高,徽剑告诉那些一知半解的人,相对于其他部分而言,搜索引擎里面其实最没技术含量的就是查询。懂点数据源里的人都会,不要什么高水平,因为一切都是现成的。“最小语境含义表达单位(语境根)”越是完善,越是符合网民的查找习惯,查询就越是简单。
至于这个数据库如何开发,这属于技术细节问题,在这里就不讨论。下面来看网民的查询部分。
搜索过程是这样的,首先网民在搜索引擎的web页面上输入查询的关键词,web网页接口会将查询关键词,提交给查询分析系统,这个查询分析系统根据“语义学习分析系统“生成的“最小语境含义表达单位(语境根)”,来分析网民查询的关键词。这里有两种情况,一是网民查询的关键词正好在“最小语境含义表达单位(语境根)”库中就有,那么问题非常简单,分析系统就按照“最小语境含义表达单位(语境根)”的排序直接从缓存数据库中调出结果,交给查询处理系统,处理系统则按照前面的预处理系统分析的权重加以排列,最后生成网页发送给网民。
假如一旦“最小语境含义表达单位(语境根)”库中没有对应的,怎么办,一般而言这种情况出现在网民查询了一个很长的句子。这种情况也不复杂,查询分析系统一旦发现“最小语境含义表达单位(语境根)”库中没有,那么分析出查询关键词里面包含有那些词是“最小语境含义表达单位(语境根)”库中有的,按照“文字上尽可能多符合”的原则,找出在数据库中的那个“最小语境含义表达单位(语境根)”的结果。
假如网民搜索了几个关键词,,那更好办,查询系统进行一次“交”或者“并”的运算就可以了。
有人会说,会不会出现“最小语境含义表达单位(语境根)”库中间完全没有相关的情况,徽剑的回答是只要你不是在某种语言搜索引擎中搜索外语关键词的话,就可能不会出现,至于为什么,见后面第四节。
至于人工干预系统一听都明白,就是利用人的智能修正某些目前程序无法处理的地方,或者提高程序的效率。
三、站内搜索和公网搜索前面我们说明目前搜索技术的体系,下面我们来看一下商业应用,在是商业应用上面,其实有两块,一是公网搜索,二是站内搜索。公网搜索就是像百度、谷歌这样的搜索引擎。而站内搜索就是网站自己的搜索。
我们先来看公网搜索,目前在中国,百度在举了绝对优势,尽管徽剑无法了解谷歌和百度内部对搜索技术细节的安排,但是对比中文搜索结果,徽剑发现了一些端倪。
首先谷歌在收录速度方面比百度要快,徽剑以为这是谷歌比较有钱,买的服务器多,蜘蛛机器人多的缘故。
其次是谷歌在网民搜索习惯上明显不如百度,百度很多时候有明显的人工修正迹象。比如相关搜索安排等很多地方。这种修正某些方面方面(比如为了赢利修改搜索结果)让更多的人有批评百度,但是抛开涉及为了盈利部分不算,百度很多人工干预还是符合了中国网民的习惯。
特别指出的是,根据徽剑的观察,百度和谷歌在“关键词”的部分基本不相上下,毕竟这块目前更多靠统计学的做事。而“相关词”方面的百度的成绩远远超过谷歌,因为徽剑发现,谷歌对于外部投票看重部分超过百度,百度更多在内部投票部分做了文章,
很多人都在比较谷歌和百度的技术,其实就目前而言,谷歌和百度搜索技术上看不出来有太大差别,所不同的是两者如何运用技术,谷歌更多想依赖纯技术,而百度则对技术做了更多人工干预。要知道目前而言,计算机的智能还很低,根本就无法对汉语这种高度灵活的文字加以很好的理解。一个是一台机器在作战,一个是一台机器加一个人,谁更厉害?所以谷歌的下风也是肯定了的。
至于搜狗,尽管张朝阳说他看不起百度的技术人员,但是徽剑以为搜狗还是给自己多加点服务器,把数据量和时效性加上来再说。
近年来公网搜索还出现了一种所谓的垂直搜索,就是行业搜索,只搜索一个行业。就徽剑看来,这种模式基本都会玩完,道理很简单,搜索引擎本来就是在海量信息中找数据,像百度、谷歌这种,肯定是什么结果都会有,所有的垂直搜索能搜到的,它们都会有。至于有人以为垂直搜索会更准确一点,在徽剑看来这是胡扯,因为假如你是像百度、谷歌那样通过蜘蛛机器人抓特定网站的网页的话,那你在来源上没有任何优势,你抓特定网站,谷歌、百度不光抓你抓的,还抓了你暂时没来得及抓的,资料肯定比你全面,除非你能掌握他们无法搜索的来源,而且还要这个来源是不错的,你才有机会。通过WEB方式抓数据的垂直搜索肯定会关门。还有一种垂直搜索网站,他们采用合作方式,通过特定接口直接查询特定网站的数据库,这种机会会比前一种大一点,但是也好不到哪里去,道理很简单,这些合作的网站为什么要单独跟你合作,而不同时也与百度、谷歌合作?
所以徽剑以为,除非某些特殊情况下,比如迅雷的视频和下载搜索,确实有很大机会,道理很简单,因为这些资源的检索需要特殊的模式,比如迅雷下载,及时原下载点失效,只要迅雷保存了这个下载点的资源资料,就可以从网上多个点下载,而这个下载数据的资料需要特定的数据检索系统(也就是对比下载资源的二进制数据),这样一来,迅雷的下载才能超过百度。百度要是想介入,就得重新开发一套系统,而那些没有核心技术其他所谓垂直搜索网站,基本没戏。
下面来看一下,站内搜索,对于这块,徽剑是非常看好的,因为这块其实就是站内数据挖掘,将站内资源进行二次整合,但是就目前而言,这些站内搜索技术都很差,连腾讯都不例外,大多只是简单的利用SQL语句进行数据库检索,技术上的低就造成了实际价值被掩埋。
这种情况的解决一来需要管理层有足够认识,二来需要有更多精通搜索技术的技术人员(不是那种会写SQL语句的)才会有新的天地。
四、中文分词和检索
下面来看中文分词和检索,也是前面说的“语义学习分析系统“,它是整个搜索引擎的核心。道理很简单,常见搜索引擎其实就是对语言的检索,能否理解和明白搜索内容,就成了关键的因素。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。中文这种特殊性表现在两方面,一是无法准确将句子中的词提拆分出来,二是中文没有太严格的语法,很多时候可以倒过来顺过去说。
什么是“语义学习分析系统“,狭义讲就是分词系统,其实就是找出大量网民最常用的“词”,然后建立一个“词典”。徽剑这里之所以不用“词典”,是因为拆分技术发展的趋势已经不是“词”,“字”、“词”、“短语”都有可能,所以这里说的“最小语境含义表达单位(语境根)”就是指在特定语境中最小的语言运用单位。
“最小语境含义表达单位(语境根)”和“相关词”的制定问题,受不同分词方法影响,这个方式有很多种,
原始的分词大多采用的是建立词库,然后进行遍历对比,这种是效率低,如果词典里词很多的时候,运算就比较慢。词如果很少呢,分词效果又不行。二是很多时候容易出错,比如徽剑曾经碰到一次,在一个服务器上发表帖子,内有一句“四口交换机”,结果服务器提示里面有“口交”不当用语。
我们来看一段叙述,讲的是不使用分词的搜索引擎中文识别技术:
“如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引‘雅‘字,然后再索引‘虎‘字。搜索过程中,也是先找‘雅‘字的所有文档,再找‘虎‘字的所有文档,然后做交叉‘与‘运算,即包含这两个字,而且位置连续的文档才会做为符合要求的结果。这种方式是最基本的索引方式,对于大数据量搜索引擎来说这样无疑是对硬件和算法的极大挑战。还有另外一种选择:n元组合索引方式。拿“中国人”来说,先索引‘中国‘, 再索引‘国人‘。搜索过程中,也是先找包含‘中国‘的所有文档,再找‘国人‘的所有文档,然后做交叉‘与‘运算,即包含这两个单元,而且位置连续的文档才会做为符合要求的结果。这样以两个字做为索引单元。以上两种方式,都可以不需要分词,也能实现搜索引擎的索引和搜索。但是这里存在一个不可忽视的问题:准确度。一个很常见的例子:和服,如果按照上面两种方式,都会查到包含‘主板 和“服 务器”‘的文档; “北大” 也会得到‘东 北大 学‘。对于大数据量的搜索引擎来说,每个搜索次都会有成千上万个结果,这里还要增加许多错误,估计用户体验会极差。”
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。
分词结合搜索引擎,表现在:
,一是找出语言的“最小语境含义表达单位(语境根)”,按照检索习惯进行分词,建立对应的数据库。这个的好坏决定了查询的响应速度。因为如果直接对上号的更多,那么查询时就不需要进行过多处理。对于大型搜索引擎来说,每天几亿次以上的查询,这可是节省不少时间。二是找出语言的“最小语境含义表达单位(语境根)”相互间的关系,也就是前面说的“相关词”。这个的决定了准确率。要知道,站内投票的意义远大于站外投票。能否准确判断“相关词”,是识别“关键词”真实与否、重要与否的关键,
徽剑自己在闲暇无事的时候也搞了个分词系统方案。基本上是以HNC理论为出发点,结合吸取了语境思想,利用数学中的筛法建立起来的一种“实用主义“分词方案。方案有这么几个特点:
一是搜索引擎不需要太精确的分词,因为查询时本身就是模糊的。太精确化的分词在搜索引擎这块没有必要。
二是统计规律如果跟语境结合,加入更多的约束条件,统计规律也是非常有效的。三是汉语不应该拆分成最小的单位,语言的运用在不同语境是有一个最大的“不可拆分块“,,比如换句话说就是我们讲话是以词组为单位,而不是词为单位,比如“实用主义”在单独运用时是一个“不可拆分块“,不能拆分为“实用”、“主义”。这跟HNC理论的“字义基元化,词义组合化”的“语境根”概念是差不多的。所以徽剑管这叫“最小语境含义表达单位(语境根)”,它可以是字、词、短语、甚至句子,关键是看上下文的语境。四是既然目前的人工智能有限,干嘛不用人的智能?这是典型的实用主义,但是确实很有效的做法。
五、搜索的未来
未来的网络,信息越来越多,搜索引擎作为一个有效的整合工具,将如何发展?目前中文搜索引擎面临的问题有这么几点:
如百度、谷歌等大型搜索引擎如何解决汉语分词问题?谷歌现在提出了所谓的统计学分词,基本上是笑话百出。谷歌在中文分词技术方面一直很差,否则也不至于抄搜狗输入法的字典了。网民对于搜索结果准确程度要求越来越高,谷歌百度如何应对?百度靠人力而不是技术比谷歌“更懂一点中文”,假如谷歌也来个大力发展编辑的潜力,百度又有多少胜算?还有大量的钻空子的所谓垂直搜索,整个表单提交到搜房就成了房地产搜索引擎,整个表单提交到IT168就是数码搜索引擎?你当VC是傻子啊。百度、谷歌也开始做了你们将来怎么活?麦田写过一篇文章《垂直搜索不靠谱,说说搜评网等等》,其中大部分观点徽剑是非常赞成的。有一段话“垂直搜索网站认为自己先行一步,百度船大难掉头的想法,非常之幼稚――其实主要是目前垂直网站压根没有明确的、大的收入模式而已;但凡要是某类垂直搜索真的有大的收入之可能,比如卖火车票的吧,百度分分钟钟在首页搞一个“火车票搜索”,别的垂直搜索100%靠边站。百度做个“火车票搜索”,有难度吗?”
百度没难度,谷歌做这个也没难度,搜狗买服务器的钱可能紧张,但是改几个页面的费用还不成问题。
徽剑实在想不明白,在互联网上这么多人都喜欢钻空子呢?目前的垂直搜索引擎除了迅雷外,基本都是没技术的,数据挖掘在美国等地越来越吃香,但是这已经不是简单的搜索,为什么就没有人往这块想一想。比如说把专业搜索和数据挖掘结合起来,比如企业情报搜索,多想一想如何研究点技术,多好。
徽剑这里举一个例子,比如建设一个搜购网,专门收集各种采购信息,为客户定制,每天帮客户找采购信息,这多好。
至于像所谓的宜搜网搞了个手机搜索,徽剑以为那是胡说八道,假如百度、谷歌开发了手机搜索,一个小小的宜搜网招架得住吗?
未来中国搜索引擎的出路哪呢?现在有答案吗?