PMCAFF(pmcaff.com)是在中国非常流行的产品经理社区。汇集160000+会员,8000+业界大咖,致力于为产品人提供专业的产品沙龙、课程培训、求职招聘等服务。
本文由PMCAFF会员凯撒撰写,未经许可,禁止转载。
●●●
▍PMCAFF产品经理社区的咖友提问:怎么做才能做出一款类似Google这样全球性的搜索产品?
你眼里的360搜索和百度搜索体验效果是怎样的?
1.单纯做独立搜索引擎产品来说,如果360搜索没有其他360子产品的引流,能否比现在更好?
2.百度搜索是否就真的没有优点可提?
3.综合以上,在符合国内网络环境下,如果给你足够的技术、资金、政策支持,怎么做才能做出一款类似google这样全球性的搜索产品?【不是在国内一家独大】
▍凯撒 知名第三方支付公司 营销
第三个问题有意思,想要做出和Google一样的搜索产品,先想清楚Google比百度好在哪儿?
1、Google有可开关的“安全搜索”
什么意思?这是让用户根据自己喜好和可接受度来打开或关闭的。而百度,什么都不说,先主动帮你和谐了一些内容,遇到某些敏感词的时候,再和谐一些内容,然后这样告诉你:根据相关法律法规和政策,部分搜索结果未予显示。但从来不会告诉你是哪个法律和政策。而Google 移除有版权问题的搜索结果的时候,会告诉你所以的法律,移除了多少结果,申诉渠道。
2、两者所抓取的网页数量差距比较大
Google是可以搜到几乎整个互联网的网站,而百度大多是局限于国内(至于为啥,你们都懂的)。其他的搜索,诸如繁体内容、外文内容、视频、图片、学术等,两个差距相差也比较大。
比如,可以试试Google的以图搜图比百度要精准得多,返回的结果也更多。这个比的就是抓取的网页数量的能力问题了。

由于抓取的内容具有多样性,所以Google这点上真的是用心,加上也有能力,去针对不同文化不同内容做出更细致的筛选。例如,Google可筛选不同地区不同文字的网页,百度这点弱了。
还有,Google也可以对图片设置安全搜索、使用权限搜索,选项更多(如:视频按不同画质搜索等)。
3、Google够专注
除了 YouTube,哥不去做别的内容。而百度有百度百科、百度知道、百度文库、百度贴吧等生产或搬运的服务。这些网站在百度搜索中权重很高,百度既在做裁判,又在做运动员,是原创内容的恶梦,同时这也是百度搜索质量差的原因。
4、强行推广哪家强
百度给我的感觉是,它总想让人停留在百度所提供的内容上面,不想跳转到第三方网站,即使内容是搬运第三方的。
举个例子,我们在百度搜索APP,显示的是百度应用的内容,首页经常没有Google play和苹果商店,而谷歌的搜索页面有Google play和苹果商店(并有打分),也有豌豆荚等第三方商店页面。
这告诉我们什么?似乎百度是有这一套“停留在百度所提供的内容上面,不跳转到第三方网站”的潜规则,以方便用户之名,其实都是在硬推自己的东西。例如,搜文字内容,经常是百度百科而不是维基百科,互动百科等其他来源。
不要一说到百度的时候就开始嘴炮!其实搜索引擎的搜索质量是有量化标准的!
我还在搞SEO的时候,有简单学过一个叫Cranfield评论体系的东西,这里简单的聊一下
Cranfield评价体系有3个环节组成:
抽取代表性的查询词,组成一个集合
针对查询样例的集合,从检索系统的语料库中寻找对应的结果,进行标注(这块依旧是人工来完成的,也难怪养活了不少做SEO的人- -)
把查询词和带有标注信息的语料库输入检索系统,对系统反馈的检索结果,使用预定义好的评价计算公式,用数值化的方法来评价:检索系统结果和标注的理想结果的接近程度有多少
Cranfield评价系统在各大搜索引擎公司内有广泛的应用。
首先需要解决的问题是如何建一个查询词集合。我了解过,查询词可分为3类:寻址类查询(Navigational)、信息类查询(Informational)、事务类查询(Transactional)。
而这三块查询内容好像是有比例的,这个具体是多少,好像各大搜索都不一样对应的比例分别为
Navigational : ≈12%
Informational: ≈60%
Transactional : ≈28%
通常,这是从线上用户的Query Log文件中自动抽取的。除了上述查询类型外,还可以考虑Query的频次,对热门query(高频查询)、长尾query(中低频)分别占特定的比例。搜索在抽取Query时,往往Query的长短也是一个待考虑的因素。
因为短query(单term的查询)和长Query(多Term的查询)排序算法往往会有一些不同。构成查询集合后,使用这些查询词,在不同系统(例如对比百度和Google)或不同技术间(新旧两套Ranking算法的环境)进行搜索,并对结果进行评分,以决定优劣。当然还有MAP, DCG法, P@N方法, 等等等。
说了这么多,其实做搜索的在网页检索结果进行评估,主要是围绕精确率和召回率来做的,涉及的是这么几点:
相关性:query与结果说的是否一致?
需求强度:关键词匹配
丰富度:是否详细
时效性
便捷性:时间成本
权威度
这6个方面在不同特征的query下,关注的重点有不一样,不同维度适用的query范围有所不同。
本文来自PMCAFF产品经理社区(www.pmcaff.com),不代表PMCAFF观点和立场,未经许可,禁止转载。
●●●
最酷的产品经理都在读20个顶尖产品经理都在用的APP
微信充值页面为啥长这样?(多图)
知乎真的一天不如一天了吗?