娱乐化生活、web2.0时代,简单的搜索早已不能满足我们的需求,我们正急于迎接一场搜索理念的变革,一个全新搜索时代的到来。
本刊记者 黄婷婷
小琦在收音机里偶然听到一首动人的歌曲,但是主持人并没有报出这首歌的名字,于是他马上抄笔记下歌词,希望通过网络搜索获得这首歌的信息,在百度(www.baidu.com.cn)的歌词搜索里输入这句歌词后,他很快得到了想要的结果。关于通过音频内容文字来搜索音频的概念,我们很快会联想到如小琦一样的搜索经验,似乎将音频与文字挂钩的技术早已不算是什么新鲜玩意,那么为什么日本产业技术综合研究所日前发布的一个音频搜索网站会得到业界如此广泛的关注呢? 不仅仅是歌曲 同样是小琦,这次当他想通过在节目里听到的字句来搜索一段相声的时候却出了问题,搜索答案五花八门,却找不到他想要的。 通常,我们使用最多的音频搜索都是针对于某一首歌曲的搜索,而它的歌词与歌曲的发布往往是同步的,整合这些数据并不需要多大的技术支持,因为这些内容都已经是现成的。然而除了歌曲,官方的一些朗诵、彩铃、评书、对白等作品,以及随着web2.0时代的到来,网络上涌现的大量草根族作品,如一段用录音笔随手录下的讲话、自我娱乐的博客音频等等,各种以声音为载体的信息也都通过网络这种渠道传播开来。如何在这样浩繁的数据库里查找所需的片断,成为困扰互联网搜索的难题。我们会通过其他的渠道如电视、广播等获得相关的信息,当我们被某一个信息吸引的时候,我们就有了获得它本身甚至更多边缘信息的需要。如果我们手里只掌握这个音频本身内容中的若干字句,没有它的名字、作者,乃至更多的信息,怎么搜到我们想要的?于是我们发现,寻常意义上的简单音频搜索已很难满足我们的需求了。 除了那些本身已有歌词文字可考的歌曲文件,更多的声音文件需要有一个后台将他们的内容转化为文字,方便用户的搜索操作。于是日本的这个名为Podcastle的网站经过多年探索,终于在6月上线,真正实现了通过内容文字进行音频搜索。这项服务采用声音识别技术,将声音数据全部自动转换成文字,收集到数据库中,使人们方便地进行音频检索。比如在网站搜索栏中输入日文“”,就能搜索到出现“”这个字的音频资料。 前人的脚印 其实早在一年前,波士顿初创公司EveryZing便推出了一款与前者设计原理异曲同工的视频和音频搜索引擎——PodZinger,这是一款播客搜索引擎,它采用了BBN技术公司开发的一种语言系统,可将音频内容转换成文本,而且准确率在80%以上,足以体现音频的主要内容,能指导用户迅速在文件中找到某个搜索目标词出现的地方,并总结出音频内容的核心意思。 之前《互联网视频革命的第一枪》这篇文章曾对PodZinger的强大功能作过阐述,Podzinger可以在网络上抓取视频、音频文件,利用语音识别技术深入分析其文件内容,根据用户搜索需求提交相应结果。它有一种软件能够“听”视频文件中的语音,并转换成可供搜索引擎使用的文本。搜索结果中的每个词语都可以点开并载入音频剪辑,在指定的词汇点上开始播放。这无疑是一种革命性的突破。Podzinger的文本记录对于搜索者而言远比传统搜索引擎根据“元数据(Metadata)”搜索结果所显示的音频和视频剪辑更具有相关性。 EveryZing公司首席执行官TomWilde当年也曾如此骄傲地介绍这款产品:这么高的准确度可以带来许多新搜索功能,比如提供视频和音频的完整文本,以及直接跳到话语中某个词或者词组被说出的位置。这项技术还可以让公司提供与特定内容有关的有针对性广告,就好像Google(www.g.cn)推出的基于网页中文本的广告一样。 语音识别的难题 语音识别这个概念,我们并不陌生,从孤立词到大词汇量连续语音的识别(LVCSR),再到语音库检索,语音识别技术一直在向前发展,只是语音识别似乎离我们还有些遥远。“今后5年内,互联网搜索将更多地通过语音来完成。”今年的2月23日,比尔·盖茨在美国卡内基·梅隆大学发表演讲说道,这已数不清是他第几次在公开场合提及语音识别了。 对于中文而言,语音识别技术的实现较之英语面临着更多的困难。当南方人把“牛奶”念成“留来”的时候,究竟是机器识别错了,还是人错了?微软中国研发集团下属微软亚洲研究院语音识别组组长宋言哥平提出过这样一个问题。而不仅仅是南北口音的偏差,每个人都有独有的发音习惯。这就造成了语音输入很难规范的问题。其次,噪声也是一种不可抗的难题。“这很好理解,机器无法像人那样分辨出人声和噪声。”宋言哥平解释道,“同时,不同场景有不同噪声,训练的情况也不能匹配真实环境,这使语音识别在噪声中比在安静的环境下难得多。” 克服这些难题尚需时日,这也是为何中文音频搜索进展缓慢的一个关键原因。如今日本的音频搜索网站已经上线,中国的用户也期待着可以更快享受到这种先进搜索技术带来的更多便捷。 告别简单搜索时代 在信息疯狂膨胀的年代,对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。如今娱乐化风潮的涌起,使信息的需求早已不是以往单纯的纯文本而已,而是更大规模地扩展到音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音频、视频文件已经不足以满足用户的需求。 于是出现了这种通过将音视频内容转换成文字的搜索方式。 然而在简单搜索之外,还不仅仅是这种运用语音识别系统完成的搜索服务技术正在流行。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的新一代搜索市场。今年的4月份,在北京举行的国际万维网大会上,两位Google的工程师展示了下一代的图片搜索。新的图片搜索不再只是由图片相关的文字来判断图片的内容。Google将使用计算机分析图片中的内容,并关联关键字的排名。实际上,这就相当于图片搜索中PageRank。 在早些时候,《互联网周刊》上也报道过这样的消息:新一代图片搜索技术已经可以像人一样,“看”到一幅图片的兴趣中心,判别它是人物肖像照或是风景照、摄于室内还是户外。甚至,在人的协助下,计算机还能够在许多张合影中找寻到同一张人脸。这些听起来不可思议的事情,已经在微软的实验室里变成了现实,甚至有些技术已应用到部分产品当中。 搜索技术已经迎来了一个新的时代,在各种新型搜索服务的帮助下,我们的各种需求都将慢慢得到满足。科技,正在向着更加人性化的一面发展,一切,都在为人类生活得更好而努力着。