Google的IPO 会激起人们对搜索引擎的兴趣,还会有新式的Web 搜索。
毫无疑问,今年是搜索引擎年。Google的IPO 将聚敛起巨大的资金,并产生许多纸面富贵的富翁。尽管投资界并不认为这次IPO 标志着一次新繁荣的开端,但它显然会吸引足够多的眼球,引发一场新的搜索引擎热。总之,Google不仅使很多人一夜致富,而且它已经是一家在挣大钱的公司了。
AltaVista 是第一家知名的纯粹搜索引擎公司,但自从它的所有者Digital Equipment 公司被Compaq收购后,它就逐步无力支撑下去了。因为Compaq公司把它置于次要地位,采取完全自生自灭的态度。就这样丢掉了一只会下金蛋的鸡,真是遗憾。
再来看Google. 它花了四年时间确立了在搜索引擎世界的统治地位。Google独特的网页分级(page-ranking)系统一直工作得非常好,但最近这套技术不灵光了。网页分级的概念是采用蛮力分析方法寻找网页中的参考链接。比如你要找一个关于屋顶瓦的网页,输入“屋顶瓦”,Google会查看哪个网页被其它网页指向得多,即互相链接,由此确定最恰当的网页。在头几年里,Google 搜出结果的适用性令人惊异,但在以后的一两年里,Google不得不放弃网页分级系统。观察家相信这是由于5 百万个博客网页建立了互相的链接,于是搜索引擎被这些博客网页堵塞了。在用户的搜索结果表里,博客网页排名居前,而真正想要的东西却排在五页以后。
随着所谓“Google清洗”(Google washing)的进行,问题越来越糟。这一过程可以使博客们聚集起来互相链接,于是查询的结果稀奇古怪。例如,如果输入“miserable failure ”(不幸的失败),返回结果第一位的是乔治布什的传记。Google并没有修正这个问题,可能为了宣传目的而默认这种行为。
Google抛弃了促使其成为最佳的网页分级系统,于是竞争就出现了,现在涌现出了十几个新的搜索引擎。但是,有哪个能真正赶上Google吗?看来不那么容易。我认为,即使Google停步不前,要赶上它至少也要花五年时间。
Google最大的优势在于它拥有一个巨大的服务器场。实际上,整个Web 搜索都保存在本地的Google服务器里。因此,当你在查询结果里发现一个有用链接时,可以直接链接到该页,或者到Google的缓存里。当原始页面由于当机、繁忙或更改而无法连接时,缓存可以作为替代。任何缺乏这种能力的挑战者要与Google竞争都会遇到麻烦。
寻找更好的搜索引擎
但是否还有更新的搜索方式可以提供更准确的搜索结果呢?总有些像Ask Jeeves这样骗人的玩艺儿,它号称能理解简单的英语。微软正在尝试建立这样一个引擎。但实际上语法分析后还是要进行搜索。
还有一种可能性是将人工智能用于搜索而重现往日风采。虽然搞AI的专家们把人工智能讲得头头是道,但却从来没派上什么大用场。我最喜欢举的一个例子是一种能读文章并产生摘要的自动系统。我听说这东西已经开发了20多年,但一直没有什么结果。
有些人认为,可以改变搜索结果的表达方式,从而提高搜索质量。他们相信简单的搜索列表过于线性化了。我看到的第一个非线性搜索引擎是Kartoo(www.kartoo.com)。虽然它采用了Flash ,但活干得并不好。还有一个比较新而且不那么花哨的虚拟引擎是Mooter(www.mooter.com)。两个都值得一试。
有一些Web 语言专家称整个搜索过程都应该推倒重来,应该模仿图书馆使用的杜威十进分类法,采用网页自我分类方法。但实际上多年以前这种自我分类法就暴露出了问题。因为它的分类机制是采用Meta标记,而不诚实的网站会在页面的标记描述里做手脚。这些标记很快就成了鸡肋,现在几乎没有哪个搜索引擎还会注意它们。
很难说搜索引擎技术的下一个飞跃将是什么。但今年搜索引擎获得了如此广泛的关注,涌现一些新东西应该不足为奇。