搜索引擎国内外现状 近十年我国搜索引擎研究现状分析
[关键词]搜索引擎;计量分析;超星发现;研究现状
[中图分类号]G254.928[文献标志码]B[文章编号]1005-6041(2017)01-0049-05
1 引 言
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统[1]。自从1990年加拿大麦吉尔大学的师生开发出最早的搜索引擎Archie后,搜索引擎在互联网时代得到了迅猛的发展,现在所有互联网用户,几乎都离不开搜索引擎的帮助。因此,对于搜索引擎的研究一直都受到学术领域的密切关注,本文即是通过文献计量的方法�λ阉饕�擎的研究现状进行研究,希望能对相关研究人员提供一些借鉴。
2 数据源及统计工具
本文统计分析主要以中国知网(CNKI)和超星发现系统中的期刊、学位论文、会议论文及图书为基本数据源,因为中国知网是世界上全文信息量规模最大的中文数据库,其对于期刊、学位论文和会议论文的收录量明显高于其他数据库。而超星发现平台的图书数据则来源于目前世界最大的中文电子图书数据库――超星数字图书馆。利用这两个数据库的四种主要文献类型作为统计源,可以更加全面真实地反映搜索引擎的研究现状。本次分析以2006―2015年为时间节点,跨度时间为10年,以“搜索引擎”作为关键词进行分析。分析工具主要采用超星发现平台,该平台除了有强大的后台数据支持,还可以利用分面聚类、引文分析、知识关联分析等方式,实现高价值学术文献发现、纵横结合的深度知识挖掘、可视化的全方位知识关联功能[2]。这些功能完全契合了本次研究的目的,能够全面地反映搜索引擎的研究现状。
3 统计数据聚类分析
3.1 学术趋势研究
通过科研成果的年产出量,可以判断出该研究领域的学术研究趋势和学术关注度。在科研领域,期刊论文、学术专著、学位论文及会议论文四种科研成果最受关注,因此,笔者将以上四种文献类型科研成果近十年来关于搜索引擎研究的年产出量进行统计,并绘制出趋势折线图。由于期刊论文的年产出量较其他三种类型在数量级上有较大差别,故将其折线图与其他三种类型分开绘制。
从期刊论文的趋势图(图1)可以看出,近十年来“搜索引擎”一直是一个很热门的研究内容,年发文量都超过了1 300篇。2006年之后,关于搜索引擎的期刊论文年发文量逐年增加,并在2010年达到了峰值,之后开始逐年下滑。可以看出,近十年,关于搜索引擎的研究已经度过了研究高峰期,进入了平稳发展研究期。
为了证实上述观点,笔者对所有关于搜索引擎的期刊论文进行了回溯统计,发现最早一篇关于搜索引擎的论文发表于1996年,之后逐年增加。2003年年发文量超过1 000篇,之后年发文量迅猛增长,在2008―2012年,搜索引擎相关研究进入迅猛发展期,年发文量超过2 000篇。2012年以后,相关研究年发文量虽然出现明显的下滑趋势,但是数量上仍然超过了1 300篇,这从一个侧面证实搜索引擎已经不再是一个新生事物,关于搜索引擎的研究也由原来的普遍研究转向为纵深研究。
从学位论文、会议论文和学术专著的曲线图(图2)可以看出,学位论文的趋势曲线图与期刊论文的曲线图保持一致。主要原因学位论文的作者都是硕士和博士研究生,而研究生更加偏好追踪学术研究热点,但其研究成果较期刊论文要稍显滞后,所以学位论文曲线的峰值出现在2011年,再一次证明关于搜索引擎的研究于2010年左右达到高潮,之后热点开始降低。会议论文作为研究热点的风向标,一直引领着学术研究的方向,因此,其论文产出一般早于期刊论文和学位论文,从图2中的会议论文曲线中也验证了这一点,即2006年至2009年论文产出量较高,同时也表明学术界在此期间开展了多次相关的学术会议。而学术专著的科研产出在相关研究领域初期,一般会滞后于学位论文的产出。但是发展到一定阶段后,其科研产出曲线应该与学位论文的曲线保持一致。从图2的学术专著曲线中可以看出,同样于2010年科研产出量达到了峰值,再次验证,2010年为搜索引擎的研究高潮期。
3.2 相关关键词分析
通过统计搜索引擎相关研究文献的热门关键词,可以清晰该研究领域的发展方向和研究热点,同时,亦可以根据统计结果了解该领域的潜在研究内容和方向。利用超星发现平台对与搜索引擎相关的关键词按照出现频次从高到低进行排序,排除“搜索引擎”和“搜索”两个关键词,出现频次超过100次的关键词有30个,如表1。
从表1中可以看出,出现频次最多的关键词是“信息检索”,表明搜索引擎最直接的用途即是信息检索,而相关的研究也最普遍。排在第二位的是“Lucene”。Lucene是一个开放源代码项目,可以为应用程序添加索引和搜索能力,它于2000年发布第一个版本后,便在搜索引擎领域引起了巨大反响,关于它的研究也一直是搜索引擎领域的热点。另外关于搜索引擎类型的研究也比较活跃,如“元搜索引擎”“垂直搜索引擎”。关于搜索引擎的相关技术研究也是该领域的核心内容,如“中文分词”“主题爬虫”“信息抽取”“PageRank”“链接分析”等。另外,搜索引擎与其他领域的交叉研究也越来越受到研究者的关注,如“网络营销”“电子商务”等。 3.3 核心作者分析
通过个人发文量及单篇论文被引次数可以得到搜索引擎领域的核心研究作者,通过对该领域核心作者所发表的论文进行研究,可以梳理出该领域的大致研究脉络。利用CNKI数据库对近十年与搜索引擎相关的学术论文的个人发文总量进行了统计,作者发表相关论文的总被引次数也可以从一个侧面反映出该作者在该领域的地位。笔者对搜索引擎领域发文量较多的作者按被引总次数进行了统计排序,得到表2。
从统计结果可以看出,发文总量超过10篇的作者共有10位,其中,吕学强和刘奕群的发文量皆超过了20篇,说明这两人在搜索引擎领域的研究比较深入。而从总被引次数来看,马少平、刘奕群和张敏的论文被引次数皆超过了400次,远远高于其他几位作者,因此,从发文量和总被引次数结合来看,马少平、刘奕群和张敏三位作者可以认定为该领域的核心研究作者。另外,崔志明的�l文量只有10篇,但是被引次数却有248次,表明该作者在搜索引擎领域也有很深的研究造诣。当然也有很多发文量较少,但是被引次数很高的研究作者,这一点将会在后文做详细分析。
3.4 核心研究机构分析
通过对搜索引擎研究领域的核心研究机构所发表的研究成果进行分析,也可以得到该领域的研究脉络和方向。利用超星发现系统对相关研究机构的发文量进行统计(如表3)可知,北京邮电大学、北京大学和武汉大学三所高校在搜索引擎研究领域的发文量遥遥领先,发文量都在380篇以上,说明这三个机构在该研究领域表现突出,起到了引领作用。发文量超过200篇以上的研究机构有12所。表明该研究领域现在仍然非常受关注。核心研究机构与核心研究作者都有着密切的关联[3]。核心研究机构里的研究人员很有可能就是核心研究作者。如王斌教授就来自中国科学院。当然,也有的一些研究机构的发文数量不多,但是质量很高,比如马少平、刘奕群、张敏、茹立云这四个核心作者就都来自清华大学,表明清华大学也是搜索引擎研究的一个核心研究机构。这些研究机构与搜索引擎这一研究内容的紧密程度,可以由一张相关性气泡图表示,如图3。
3.5 学科及核心期刊分布统计
搜索引擎在很多学科领域都是非常重要的研究对象,因此有必要对其所属学科分布进行分析。根据CNKI中各学科期刊收录的相关文献量的统计结果,可以得到图4。从图中可以看出计算机软件及计算机应用学科对于搜索引擎的研究贡献度最大,该学科的相关文献收录量已经达到了40%。而信息经济与邮政经济、图书情报与数字图书馆、互联网技术三个学科也贡献了37%的相关文献,从总体来看,凡是与信息相关的学科,对于搜索引擎的研究都非常重视。
期刊收录相关文献的数量,也可以从另外一个侧面反映出该研究领域与哪个学科关系更紧密。所以笔者对于收录搜索引擎相关文献最多的15种核心期刊按论文收录量进行降序排列,并绘制柱形图,得到图5。该图再一次证明,计算机和图书情报领域对搜索引擎研究的重视程度。另外,通过对核心期刊的统计,发现《计算机工程与设计》《图书情报工作》《计算机工程》三种刊物的论文收录量是最多的。研究人员如果想了解搜索引擎研究的热点,可以首选这三种期刊。另外,从图中也可以看出哪些期刊更愿意接受搜索引擎的相关研究成果,这对于研究人员投稿也有一定的参考作用。
3.6 高被引论文及高被引图书分析
每个研究领域都有其经典文献,而对于什么是经典文献,至今学术界也没有一个明确定义。但所有经典文献都有一个共同的特点,即在学术界影响力较大,被广泛认可[4]。对经典论文与图书的确定,被引用率是一个非常重要的风向标,因此,笔者对搜索引擎研究领域被引次数最高的10篇论文和10本图书进行了统计,如表4和表5。
从表4可以看出,被引次数最多的是谢平和邹传伟发表的《互联网金融模式研究》,其被引次数达到了1 980次,这一数字遥遥领先于其他论文,确定了其经典论文的地位,同时也再次印证了信息经济学科领域与搜索引擎研究的紧密关系。另外几篇论文也从侧面印证了技术研究、互联网金融是搜索引擎研究领域的核心研究内容。另外,还可以看到,在这10篇高被引论文当中,有一篇硕士学位论文的被引次数竟然排在了第二位,应该引起相关研究人员的关注。
从表5可以看出,高被引图书所涉猎的研究内容较为集中,主要是搜索引擎相关技术和基本原理。徐宝文与张卫丰所著的《搜索引擎与信息获取技术》被引次数达到了612次,远超其他图书,研究人员在进行图书的资料收集时,这本著作应该作为首选。从出版社来看,高被引图书有3本来自人民邮电出版社,科学出版社和电子工业出版社各自出版了2种相关图书,研究人员在搜集相关研究资料时,对这些出版社的图书应该给予重视。从出版时间来看,高被引图书大多是在2007年左右出版的,因此,对2005―2008年出版的搜索引擎相关的图书进行研读,会更容易获得高质量的信息。4 总结与建议
搜索引擎在多个学科领域都是非常重要的研究内容,相关研究于2010年左右达到了高潮期,现在对搜索引擎的研究已经进入了平稳发展期。对搜索引擎的核心技术研究和多种类型搜索引擎的开发是该领域的主要研究内容。北京邮电大学、北京大学、武汉大学和清华大学为该领域的核心研究机构。而马少平、刘奕群、张敏等人为该领域的核心研究作者。计算机软件及计算机应用、信息经济与邮政经济、图书情报与数字图书馆、互联网技术四个学科对于搜索引擎的研究贡献度最大。《计算机工程与设计》《图书情报工作》《计算机工程》三种刊物的论文收录量最多。人民邮电出版社出版的搜索引擎相关图书质量更高,2005―2008年间出版的相关图书更应受到研究人员的重视。
根据近十年来的学术趋势图可以看出,2010年以后,搜索引擎的研究成果发表量虽然很大,但有明显的下降趋势,这表明2010年以后,在搜索引擎研究领域没有新的热点出现,因此,需要在已有研究的基础上寻找新的突破口,比如现在大数据、云计算、人工智能、虚拟现实等新技术迅速发展,如果研究人员将这些技术融入到搜索引擎的研究之中,可能会引起新一轮的研究热潮。另外多召开一些质量和级别较高的学术会议,加强学术研讨,也会对搜索引擎的研究有很大的刺激作用。当然,如果能从国家的层面出台一些相关的评价体系、激励政策或指导意见[5],也会对搜索引擎的研究起到一定的推动作用。
[参考文献]
[1]王继民,李雷明子,郑玉凤.基于日志挖掘的移动搜索用户行为研究综述[J].情报理论与实践,2014(3):134―139.
[2]超星发现系统核心功能[EB/OL].[2016-10-25].http:∥ss.zhizhen.om/about/about.html.
[3]李 爽,王玉香.2006―2015年阅读推广研究现状分析[J].河南图书馆学刊,2016(4):106―108.
[4]姚小鸥.什么是经典性文献[EB/OL][2016-10-25].http:∥blog.sciencenet.cn/blog-531888-788772.html.
[5]马志杰.我国搜索引擎评价研究的现状、问题及对策[J].图书馆学研究,2013(4):11―17.
更多阅读
国内关于幻方的书籍 书籍装帧国内外现状
在上世纪开始国内开始研究幻方的热潮兴起,出版了不少这方面的资料,但散见于民间,不易见到.因为其通俗易懂不用很多的数学理论来支持,所以有很多民间的学者研究,这在丛多科学领域是不多见的(其它还有的是初等数论,本人就知这两个,因
未来十年我们该投资什么 未来十年投资机会
http://forum.home.news.cn/list/98-0-0-2.html未来十年我们该投资什么当经济复苏从争议及概念性的东西变成了投资者寻找机会,并进行投资选择的时候,复苏与否已经变得不是那么重要了。因为投资者的下一步决定是介入何种资产,而非犹豫不
日本年末年初四大音乐颁奖礼的介绍以及近十年的获奖名单_加里 电影节颁奖礼吴京获奖
声明:1、此文为本人收集、整理并翻译的,本人保证此文是本人所作,不会影响到他人的权利。2、此文只是本人的翻译习作,不代表本人的观点,本人翻译的目的只是为了方便各位网友更好地了解这几大颁奖礼的情况,在此无意引起骂战。3、敬请欣赏一
《拔刀斋》论坛近十年回顾 爱国宽容回顾论坛
最早的拔刀还是留言版,把当时收藏的东西贴出来看看,感触很深。拔刀斋论坛:http://hfsword.com/bbs/index.php拔刀斋自序 余弱冠之年, 求学燕园。课余师一美籍华人习唐手,剑道。听其述纽约大都会博物馆,日本正仓院等珍藏之东西方之名刀绝剑
纳斯达克指数近十年走势分析 沪深300指数走势分析
纳斯达克始建于1971年,是一个完全采用电子交易、为新兴产业提供竞争舞台、自我监管、面向全球的股票市场。纳斯达克是全美也是世界最大的股票电子交易市场,它不但是成长速度最快的市场,而且每天在美国市场上换手的股票中有超过半数的交