对全世界的新闻数据进行收录,既要让结果简单易读,且形式丰富,又要让用户搞清楚某一事件于历史上的来龙去脉。这就是新闻搜索能实现的事。
本刊记者 李洋
在互联网时代,全家人围坐在电视机前看《新闻联播》的景象已经一去不返了。随着传播技术和手段的不断提升,媒体渠道的泛滥,信息正在变得越来越碎片化,人们阅读新闻的途径也不一而足。越来越杂乱的新闻需要一个统一归纳的入口,这便是新闻搜索引擎存在的意义所在。 但传统的新闻搜索引擎常会暴露一些缺陷。当用户输入某一关键字查找与之相关的新闻线索时,通常会获得一堆杂乱无章的多条新闻链接。这些结果是按照时间进行排序的,用户很难了解到某一事件历史上的来龙去脉。除非这位用户对该领域的事件事先已有所知晓,否则将很难在众多条类似新闻中找到头绪,而且由于结果都是近期发生的事件,很容易得到一个以偏概全的结论。 微软亚洲研究院正在研究一项有趣的新闻搜索技术。这项技术想要达到的目标是,对全世界的新闻数据进行收录,既要让结果简单易读,且形式丰富,又要让用户搞清楚某一事件于历史上的来龙去脉。当用户查找某一新闻关键字时,系统会为其按照时间轴线索列出事件发展的关键新闻点,并以多媒体的形式予以展现。 比如,当我们搜索“空难”字样时,系统会把世界范围内互联网上有记录的空难事件全部显示出来,按照时间顺序排列。也就是说,搜索出来的新闻结果并不仅局限于刚刚发生的事件,也不是以一条条的形式独立出现,而是被组织成小专题的形式,以图片、视频、内容摘要等形式展现在时间轴的各个节点上。用户可以点击进每一个小专题进行详细查看里面包含的新闻报道。 而针对每个事件节点,系统将配有具有代表性的图片和文字介绍,点击进去便能够看到来自世界各大主流媒体的不重复性报道。 这实现起来并不十分容易。微软亚洲研究院的李明镜研究员,从2004年起便开始带领手下的组员进行此项研究。据他称目前仍有大量工作需要完善。 首先,系统要检测世界各地主流新闻媒体的网站,不断抓取其内容并进行存储。而与普通网页不同,新闻内容的更新频率往往更快速。对此,系统有一项重复检测的技术,在抓取新内容源之后,查看新的内容是否与旧版本重合。这样,便能够避免冗余新闻内容的出现。 此外,系统要对新闻内容进行自动数据挖掘、相关性排序和时间检测,提取出一条新闻的时间、地点、人物等要素,并在此基础上建立索引。 而对搜索结果按照有意义的方式进行组织,则是另一个要点。系统通过内部的数学模型,对时间和内容上比较接近的事件进行切割,并按新闻的重要程度重新组织。这些新闻内容并不局限在文字层面,系统还将抓取与之相关的视频、音频及图片等多媒体信息,使用户可以从各个角度快速了解某个事件的情况。甚至,系统还能够根据事件中的地理信息,从地图的角度为用户呈现某事件发生的地理脉络。 对于一些重要事件,往往会有多家媒体跟进,因此系统还要分析多个网站之间的重复性问题。与此同时,随着用户产生内容的增多,个人博客和一些论坛的信息,往往能够从不同的视角弥补官方新闻的缺陷。微软的研究员们计划在未来对个人博客和论坛内容进行检测和索引,并将其内容与官方信息相对应,去伪存真,留下有意义的信息。 在未来,这项技术还有望实现各个事件之间的自动标识功能,通过算法帮助用户更准确、更快速的获得满意的新闻结果。