百度搜索页面下的新闻新闻搜索的脉络-爱华网

对全世界的新闻数据进行收录，既要让结果简单易读，且形式丰富，又要让用户搞清楚某一事件于历史上的来龙去脉。这就是新闻搜索能实现的事。

　　本刊记者李洋

　　在互联网时代，全家人围坐在电视机前看《新闻联播》的景象已经一去不返了。随着传播技术和手段的不断提升，媒体渠道的泛滥，信息正在变得越来越碎片化，人们阅读新闻的途径也不一而足。越来越杂乱的新闻需要一个统一归纳的入口，这便是新闻搜索引擎存在的意义所在。

　　但传统的新闻搜索引擎常会暴露一些缺陷。当用户输入某一关键字查找与之相关的新闻线索时，通常会获得一堆杂乱无章的多条新闻链接。这些结果是按照时间进行排序的，用户很难了解到某一事件历史上的来龙去脉。除非这位用户对该领域的事件事先已有所知晓，否则将很难在众多条类似新闻中找到头绪，而且由于结果都是近期发生的事件，很容易得到一个以偏概全的结论。

　　微软亚洲研究院正在研究一项有趣的新闻搜索技术。这项技术想要达到的目标是，对全世界的新闻数据进行收录，既要让结果简单易读，且形式丰富，又要让用户搞清楚某一事件于历史上的来龙去脉。当用户查找某一新闻关键字时，系统会为其按照时间轴线索列出事件发展的关键新闻点，并以多媒体的形式予以展现。

　　比如，当我们搜索“空难”字样时，系统会把世界范围内互联网上有记录的空难事件全部显示出来，按照时间顺序排列。也就是说，搜索出来的新闻结果并不仅局限于刚刚发生的事件，也不是以一条条的形式独立出现，而是被组织成小专题的形式，以图片、视频、内容摘要等形式展现在时间轴的各个节点上。用户可以点击进每一个小专题进行详细查看里面包含的新闻报道。

　　而针对每个事件节点，系统将配有具有代表性的图片和文字介绍，点击进去便能够看到来自世界各大主流媒体的不重复性报道。

　　这实现起来并不十分容易。微软亚洲研究院的李明镜研究员，从2004年起便开始带领手下的组员进行此项研究。据他称目前仍有大量工作需要完善。

　　首先，系统要检测世界各地主流新闻媒体的网站，不断抓取其内容并进行存储。而与普通网页不同，新闻内容的更新频率往往更快速。对此，系统有一项重复检测的技术，在抓取新内容源之后，查看新的内容是否与旧版本重合。这样，便能够避免冗余新闻内容的出现。

　　此外，系统要对新闻内容进行自动数据挖掘、相关性排序和时间检测，提取出一条新闻的时间、地点、人物等要素，并在此基础上建立索引。

　　而对搜索结果按照有意义的方式进行组织，则是另一个要点。系统通过内部的数学模型，对时间和内容上比较接近的事件进行切割，并按新闻的重要程度重新组织。这些新闻内容并不局限在文字层面，系统还将抓取与之相关的视频、音频及图片等多媒体信息，使用户可以从各个角度快速了解某个事件的情况。甚至，系统还能够根据事件中的地理信息，从地图的角度为用户呈现某事件发生的地理脉络。

　　对于一些重要事件，往往会有多家媒体跟进，因此系统还要分析多个网站之间的重复性问题。与此同时，随着用户产生内容的增多，个人博客和一些论坛的信息，往往能够从不同的视角弥补官方新闻的缺陷。微软的研究员们计划在未来对个人博客和论坛内容进行检测和索引，并将其内容与官方信息相对应，去伪存真，留下有意义的信息。

　　在未来，这项技术还有望实现各个事件之间的自动标识功能，通过算法帮助用户更准确、更快速的获得满意的新闻结果。

百度搜索栏下的新闻百度搜索页面下的新闻百度搜索框推荐的新闻

爱华网本文地址 » http://www.aihuau.com/a/9101032201/440746.html

百度搜索页面下的新闻新闻搜索的脉络

更多阅读

如何在百度搜索word文档 word文档如何搜索

百度搜索红包活动百度手机助手红包活动

百度搜索手写怎么设置百度手写搜索设置无效

如何清除百度搜索记录精如何清除搜索记录

如何删除百度搜索记录如何删除百度历史记录

声明:《百度搜索页面下的新闻新闻搜索的脉络》为网友的飞起分享！如侵犯到您的合法权益请联系我们删除

更多阅读

如何在百度搜索word文档 word文档如何搜索

百度搜索红包活动 百度手机助手红包活动

百度搜索手写怎么设置 百度手写搜索设置无效

如何清除百度搜索记录 精 如何清除搜索记录

如何删除百度搜索记录 如何删除百度历史记录

声明:《百度搜索页面下的新闻 新闻搜索的脉络》为网友的飞起分享！如侵犯到您的合法权益请联系我们删除

百度搜索红包活动百度手机助手红包活动

百度搜索手写怎么设置百度手写搜索设置无效

如何清除百度搜索记录精如何清除搜索记录

如何删除百度搜索记录如何删除百度历史记录

声明:《百度搜索页面下的新闻新闻搜索的脉络》为网友的飞起分享！如侵犯到您的合法权益请联系我们删除