主题:【原创】百度和Google,谁更强大,为什么? -- 邓侃

大河奔流 导读 复 167 阅 312280

/ 12 首页 上页 下页 末页

O 【原创】百度和Google,谁更强大,为什么? 151 邓侃 字6246 2008-07-20 22:07:24
O GG代表的不是技术,而是一种文化优势。 唐吉氏 字183 2010-04-03 16:19:47
O 路过花之 suqier 字227 2010-04-03 00:45:07
O 【文摘】google 相关,一个美国军人讲的故事 4 dongdream 字1759 2010-02-06 02:53:22
..O 假的。TB能有这手法,就不存在国资对外贱卖了。 1 唐吉氏 字0 2010-04-03 16:16:20
O 杯具了~!哥的留下是为了姐,哥依然迷恋着姐~! 洗具人参 字22 2010-02-02 06:44:19
..O 谁会用百度啊,当心被诈骗! 8 dhczw80 字1404 2010-02-04 06:21:39
...O 有这种事情要适当的爆发出来。 天涯睡客 字14 2010-02-06 07:53:09
O 百度的掌门真的是技术大牛吗 cdcdcdd 字56 2010-01-30 19:57:20
O 开放的还是比封闭循环好 2 大熊甲 字310 2010-01-25 18:25:33
O 呵呵,简直不敢相信 1 稻香村 字286 2010-01-19 22:20:25
..O 对mp3的搜索是法律问题 草纹 字69 2010-01-20 04:53:50
..O 个人体验与统计数据 6 邓侃 字824 2010-01-19 22:34:02
...O 编制索引的广度和速度? leqian 字99 2010-01-22 12:28:37
...O 呵呵,我觉得不需要什么统计数据 稻香村 字137 2010-01-19 22:45:29
2008-07-20 22:07:24
主题:1706541
邓侃
邓侃`26546`http://farm4.static.flickr.com/3523/3889195049_ef5beec4f2_o.jpg`70`2033`8810`128616`从五品上:朝请大夫|游骑将军`2008-07-18 00:29:07`
1 【原创】百度和Google,谁更强大,为什么? 151

判断一个搜索引擎的质量的标准是什么?是准确性(Precision),还是完备性(Recall)?都对,但是都不完整。其实,搜索引擎作为一个产品,它的质量好坏归根结底还是看顾客对它的接受程度,也就是市场占有率,而市场占有率是通过流量(Traffic)来评估的。

有人问,假如我们提高了Precision和Recall,是不是就可以赢得更多流量呢?下面的表格是2004年5个搜索引擎的性能对比,Google不比 Alta Vista好多少,比HotBot稍差,比Scirus差得就更远了。但是同期Google在全球搜索引擎的市场占有率是45%以上,而表中其它搜索引擎的市场占有率没有哪一家超过5%。所以,结论是,Precision和Recall,与搜索引擎的市场占有率没有必然联系。

Table 1. 2004年5个搜索引擎的Precision和Recall比较

(Courtesy of Shafi & Rather )

Alta Vista, Google, HotBot, Scirus, Bioweb

Precision 0.27 0.29 0.28 0.57 0.14

Recall 0.18 0.20 0.29 0.32 0.05

有人争辩说,Precision和Recall只关心被搜索引擎找到的结果中,正确的结果占的百分比,以及被找到的正确结果,占所有正确的结果的百分比,这两个性能指标并不能准确反映用户的满意程度。其实,所谓正确的结果中,也有更正确和不那么正确之分,所以更准确地反映用户满意程度的指标是结果的排序。Google凭借PageRank技术,给找到的结果打分并排序。而PageRank的打分,看来比较符合用户的期望,所以Google成功了。

我的偏见是,把扩大搜索引擎的流量,完全寄希望于提高引擎本身的技术性能,这个思路是危险的。比较百度和Google,在技术性能方面,没有强有力的证据表明百度比Google强多少。假设技术性能决定流量,那么百度最多只能和Google平分市场份额。但是事实上,在中国搜索引擎市场,百度占了市场份额的70%以上,远远把Google抛在后面。因此百度的领先,反证了技术决定论的不成立。

另外一个原因是,当今世界技术进步的速度很快,即便是PageRank这样的技术,很快就被很多公司效仿。极端一点讲,搜索引擎方面似乎已经不存在什么技术是哪家公司的独步秘笈。搜索引擎技术,已经成为大路货(commodity),你能做,我也能做。

百度的成功,我看主要因素有两条。一是闭循环系统,二是人力因素。

在说明闭循环系统之前,先看看什么是开循环。Google基本是一个开循环,用户通过Google查找信息,Google返回若干结果,每个结果是一个指向其它网站的链接。用户点击链接,就离开Google,访问其它网站了。但是百度有意成为一个闭循环系统,用户在百度查找信息,百度多半会返回百度知道,百度百科,百度贴吧等等百度其它产品的内容。而这些其它百度的产品,多半会附带搜索服务,而所用的搜索引擎,无一例外统统用的是百度自己的搜索引擎。换句话说,百度的搜索引擎把用户流量带给百度的其它产品,而其它产品又把流量反过来输送回百度搜索引擎。当然,如果百度知道等等其它产品的质量很差,用户也不一定会听从百度引擎的疏导,但是目前看起来百度知道,百度百科,百度贴吧等等产品相当受用户欢迎。即使在Google查找信息,也经常被引导到百度知道,百度百科这些产品上来。

百度第二个成功的诀窍是人力因素。提到人力因素,或许会有人想到Social search engine这样的技术,它是依靠用户打分以及跟踪用户使用搜索引擎的行为,来提高搜索引擎返回结果的质量。百度也依靠人力,但是目的不是提高搜索质量,而是从事两种事情。一,编辑整理内容。二,生成新内容。下面这张表,分析了百度各个产品吸引的用户流量。除了搜索引擎以外,其它高流量产品都有人力参与的成份。譬如图片,mp3,知道,音乐掌门人,视频,新闻和百科,都有编辑整理的痕迹。而图片,贴吧,知道,音乐掌门人,视频,百科等等,内容本身也是由百度用户自己生成的。用专业术语讲,就是“用户生成的内容(User Generated Content)”。百度要维持一支相当规模的内容编辑队伍,这一点恐怕是其它搜索引擎公司所不具备的。百度花了大力气,像Wikipedia那样发动群众生成内容,这一点也是其它搜索引擎公司所不具备的。

Table 2. Baidu traffic breakdown

(Courtesy of Alexa.com)

搜索, 图片, 贴吧, mp3, 知道, Hi, 掌门人, 视频, 新闻, 百科

流量 49% 12% 12% 6% 6% 3% 3% 2% 1% 1%

对比Google的图片和百度的图片。Google的界面仅仅是一个简单的搜索输入框,而百度不仅有输入框,而且还有一些目录,包括爆笑趣图,精品推荐,美女明星,卡通动漫,精美壁纸,电影电视,风景名胜。每个目录下面是由人力收集和编辑的图片。做法不复杂,但是却占了百度流量的12%,可见深受用户欢迎。对比一下Google.cn,它的图片只占总流量的6%。可见有没有编辑,效果大不一样。

Table 3. Google.cn traffic breakdown

(Courtesy of Alexa.com )

搜索 图片 新闻 视频 地图

流量 91% 6% 1% 1% 1%

百度的音乐掌门人产品更有意思,做法是由用户自愿做掌门人,编辑音乐专集。其实编辑的工作也很简单,不过是把各处收集来的音乐放在一起,加上一些评论和图片。但是就这么个简单的产品,却很受用户欢迎,不仅反应在音乐掌门人的流量占到3%,而且从各个专集的反馈来看,用户的反应也是很热烈的。

综合这两条看,百度的成功,功夫在局外。有人说,如此说来,百度胜之不武么。我的偏见是,百度的做法,不仅可以容忍,而且要发扬光大,最好围绕搜索引擎,形成一个信息生产和消费的循环系统,信息的生产满足了消费者的部分需求,而消费者的需求不会就此停滞,更进一步的需求增长反过来刺激更大规模的生产。

譬如是否可以把音乐掌门人的做法,扩张到图片领域,发动用户去编辑画报。内容可以是图片新闻,或者连环画等等。更进一步,有没有可能让医学院的学生们利用课余时间,开设网上健康咨询。让车行的师傅,开设网上车辆诊断。

要发展这些业务,有很多问题需要解决,一,如何让这些掌门人有实际的商业回报,二,如何建立可以追踪网上行为责任的法律体系,三,如何把个体的掌门人组织起来,形成规模效应,为更多用户服务。

首先要让每个用户设立个人账号,这就是以博客为核心的个人空间。为了促进每个网民更多参与,更多贡献,需要创造一个大生产大协作的群体,而社交网的蓬勃发展给了我们非常好的提示。仔细研究一下Facebook和MySpace,它们最热门的功能无非是照片上传和组建社区。有人问,Flickr和Yahoo group不是已经有类似的功能了吗,如何解释Facebook和MySpace比Flickr和Yahoo group更成功?原因不仅是把这些功能整合起来,为用户提供更简便的操作环境。而且个人--小群体--大社区这样的社交网络,迎合了个人对于加入某个组织的渴望。

其次,既提供给每个网络工作者宽松的工作氛围,又保障整个信息生产体系严密。在以后的章节中,我将把博客和社交网,与OO(Object-oriented)的编程范式做类比,但愿能给大家一点启发,如何去营造这样的既宽松有严密的生产体系,完成比Wikipedia更复杂的工程。

第三,接下去我将讨论eTrade和PayPal那样的网络交易系统,不仅让掌门人有商业回报,而且必要时可以追踪法律责任。

在这个网络信息大生产大协作的体系中,搜索引擎将扮演什么角色?首先是收益者,有了更多更好的信息,带给搜索引擎的将是更多的流量。同时,一个激进的观点是,搜索引擎不仅会成为沟通生产者和消费者的媒体,而且还可能成为协调投资行为的股票市场。当然这个观点需要实践的检验。


关键词(Tags): #互联网#搜索引擎#Google#百度资深推荐:晨枫,老马丁,
老马丁 荐,爱莲 选转。
2008-07-20 22:07:24
2010-04-03 16:19:47
2819244 复 1706541
唐吉氏唐吉氏`47041`http://picture.ccthere.com/0,1002/47041_22015202.gif`70`136`103`3200`从六品上:奉议郎|振威校尉`2009-11-09 21:03:49`
2 GG代表的不是技术,而是一种文化优势。

汉语是弱势语言,你听说过正宗老美检索汉语的(还有什么斯瓦西里语之类)?不是和您对着干,这么比更本没道理。现在唯一能比得,就是退到1970S,检索俄语和英语的文献生产量,来对比谁的技术更好。


2010-04-03 16:19:47
2010-04-03 00:45:07
2818144 复 1706541
suqier
suqier`19775`http://i558.photobucket.com/albums/ss25/suqier_hz/10032701.jpg`70`1236`4362`73492`从二品:光禄大夫|镇军大将军`2007-10-06 02:52:07`
2 路过花之

点看全图

点看全图

点看全图


2010-04-03 00:45:07
2010-02-06 02:53:22
2708159 复 1706541
dongdreamdongdream`46119`/bbsIMG/face/0000.gif`70`4658`43`19004`从五品上:朝请大夫|游骑将军`2009-10-28 00:34:35`
2 【文摘】google 相关,一个美国军人讲的故事 4

转贴一段,这个事有点意思,另外,也推荐这个blog给大家

晚饭

外链出处

也许是美国军人家庭纪律严明,整个晚饭桌上,主人一方主要就是老头一个人说话,客人一方就变成了我主说,谷主偶然插些话。晚饭的过程中,老头突然看着我,问道:你怎么看Google要退出中国这件事情?有那么一秒钟,饭桌上一点声音都没有。

然后我说:我完全不知道Google这么做的动机是什么,不过显然不是因为Google自己冠冕堂皇说的中国的互联网审查。中国的互联网审查从Google进入中国的第一天起就在那里,Google要是因为这个退出中国,那早该退出了。Google自己也一直说:尽管有互联网审查,Google在中国的存在也使得人们可以获得更多的信息,因此洁版的Google也比完全没有Google在中国强。

老头说:也许是这一次忍无可忍了呢?特别是来自中国的黑客攻击了Google,特别是那些持不同政见者的帐户。

我于是问道,这也是我一直有的一个问题:你真的觉得那些黑客是政府支持的?(中国黑客犯下过不少“大案”,Google的事情当然媒体上报道的比较多,我还知道一些根本没有被报道,但破坏性更大的中国黑客进入系统的事情)。

老头觉得有可能,然后说了一个故事,以及他的一个猜想。他说他有一个朋友在中国谈一个大买卖,在等总部的一封重要邮件,这个邮件左等右等就是不来。他担心这个邮件可能被中国的安全部门截留了,后来只能自己飞到东京,跟总部谈妥之后,告诉总部再发一封邮件,里面如此如此说。这封邮件,他也永远没有收到。后来在谈判中,对手很明显掌握了假的底线,所以他的朋友在谈判中就占了便宜。所以老头的猜想就是,黑Google的人可能是有政府背景的,但完全未必是因为政治上的考虑,而是出于商业上的考虑。这件事情和最高层没有任何关系,可能只是一些中层官员们,为了在商业上给Google的对手一些优势,所以干了这些事情。老头悠悠的说:中国的政府机构很多时候看重的其实是商业利益。

这些故事和猜想的真伪是完全无法验证的,只是如果中国的安全部门真的中了美国人的“蒋干盗书”之计,那也太给中国人的老祖宗丢脸了。


2010-02-06 02:53:22
2819237 复 2708159
唐吉氏
3 假的。TB能有这手法,就不存在国资对外贱卖了。 1

2010-04-03 16:16:20
2010-02-04 06:21:39
2704406 复 2699929
dhczw80dhczw80`31963`/bbsIMG/face/0000.gif`70`0`13`216`正九品上:儒林郎|仁勇校尉`2009-02-19 02:59:57`
3 谁会用百度啊,当心被诈骗! 8

今天看到的搞笑新闻,全是百度竞价排名闹的,骗子网站都排第一。

http://baoliao.haixiachina.com/article/2010/0204/mzmhpbbrjlvev3uwjb6ik3cggg.html

购买机票被骗汇款1758元

  张小姐向记者说起时仍哭笑不得。张小姐因过年不能回家,让家人来深过年,得知东方航空有航班从老家宜昌飞往深圳,张小姐在百度搜索引擎里输入了关键字“东方航空订票电话”,置顶的网站(shhktjjp.com)是百度的“推广链接”,看起来也很像东方航空的官网,订票电话 “400-735-2892”,张小姐对其权威性深信不疑。

  拨打该订票电话,张小姐订了两张由宜昌到深圳的机票,对方让她汇款1758元到一个工行账户中。汇款之后之后对方又致电张小姐,告知她机票需要激活,让她再到工商银行柜员机去进行进一步操作。张小姐才怀疑自己上当受骗。

  张小姐马上致电东方航空查询订票信息,才发现票根本没有订到,她只能再订了两张机票。

  “百度投诉中心电话是假冒”

  气愤难平的张小姐决定向百度公司投诉,她在百度搜索引擎中输入“百度投诉中心电话”。置顶网站只介绍百度投诉中心,没有留电话,但排名第二的网站则有明确的投诉电话:“089-88808-8385”,并且注明:人工服务。

  张小姐打过去后,对方非常友善地接受了张小姐的投诉,表示道歉并愿意赔偿损失。但赔偿损失的方式是让张小姐再去工商银行的柜员机,在他们指示下进行操作,并提示张小姐需要告知账户密码等资料。

  “马上觉得手法熟悉,跟那个订票网站如出一辙。”她说,连假冒百度投诉中心的电话在百度搜索排名里都能排上第二位,堂而皇之,让她无语。

  之后张小姐的反应是立即报警。警方给她做了笔录,表示会进一步调查核实,然后再决定处理方式。


2010-02-04 06:21:39
4 有这种事情要适当的爆发出来。

否则流毒无穷。


2010-02-06 07:53:09
2695135 复 1706541
cdcdcdd
2 百度的掌门真的是技术大牛吗

据说回国创业前就是搜索方面最顶尖的专家之一了,真的假的?


2010-01-30 19:57:20
2010-01-25 18:25:33
2684270 复 1706541
大熊甲
大熊甲`19068`/bbsIMG/face/0000.gif`70`6220`2961`91404`正五品上:中散大夫|定远将军`2007-08-22 23:57:40`
2 开放的还是比封闭循环好 2

百度这么干,商业上可以理解,是成功的策略,但是是成功的中短期策略。具体没接触过,但是如果百度内部没有技术赶超的长期策略,那是非常悲哀的。

开放的系统,用户面向的是广阔的、不断拓展的空间,是进取的;而闭循环系统,用户只有依赖百度的智慧了。

初创岁月,没有一点权变是不行的;但看不见差距,不对自己诚实,那是危险的。


2010-01-25 18:25:33
2010-01-19 22:20:25
2671585 复 1706541
稻香村稻香村`52001`/bbsIMG/face/0000.gif`70`86`-485`-4762`从九品上:文林郎|陪戎校尉`2010-01-18 08:48:21`
2 呵呵,简直不敢相信 1

[在技术性能方面,没有强有力的证据表明百度比Google强多少]

您真的使用过这俩搜索引擎么?

搜索mp3,百度很牛;搜索容易被gfw误伤的词汇方面,百度占优。

其他方面,给个google不行的理由?尤其涉及专业性较强的和外语方面。

写这么长的文章,在最核心的问题上面打马虎眼,会搞得所有的劳动都没有意义。


2010-01-19 22:20:25
2672234 复 2671585
草纹
3 对mp3的搜索是法律问题

不是技术问题。在海外未经授权的歌曲mp3是没法子免费获取的......


最后于2010-01-20 05:04:53改,共1次;
2010-01-20 04:53:50
2010-01-19 22:34:02
2671629 复 2671585
邓侃
邓侃`26546`http://farm4.static.flickr.com/3523/3889195049_ef5beec4f2_o.jpg`70`2033`8810`128616`从五品上:朝请大夫|游骑将军`2008-07-18 00:29:07`
3 个人体验与统计数据 6

个人体验固然重要,但是有失于个人偏好导致偏见的可能性。

说一个产品比同类产品好,需要公认的客观而且全面的指标,然后通过统计给各个指标分别打分。

搜索mp3,百度很牛;搜索容易被gfw误伤的词汇方面,百度占优。

其他方面,给个google不行的理由?尤其涉及专业性较强的和外语方面。

说百度占优,或者说Google不行,得有经得起质疑的数据做证据。

这篇文章起头就说明,目前的precision和recall这两个指标,不够全面。这是对指标的质疑。

即便以这两个不全面的指标去比较百度和Google,也看不出百度领先Google体现在什么地方。

所以,“在技术性能方面,没有强有力的证据表明百度比Google强多少”,是个人的结论。我没有说Google一定比百度强,而是谨慎地认为,没有证据说百度比Google强,也没有证据说Google比百度强。直白一点讲,两者半斤八两,难分高下。

既然是个人的观点,当然有出错的可能。欢迎大家斧正,但是个人体验是靠不住的,需要有扎实的证据。


2010-01-19 22:34:02
2010-01-22 12:28:37
2677845 复 2671629
leqian
leqian`26516`/bbsIMG/face/0000.gif`70`8663`3034`114468`正二品:特进|辅国大将军`2008-07-15 04:22:34`
4 编制索引的广度和速度?

比如说国内某大学的bbs, 百度能搜到的往往比google更多且更新快, 至少以前是这样. 现在没试过, 不太清楚.


2010-01-22 12:28:37
2010-01-19 22:45:29
2671652 复 2671629
稻香村稻香村`52001`/bbsIMG/face/0000.gif`70`86`-485`-4762`从九品上:文林郎|陪戎校尉`2010-01-18 08:48:21`
4 呵呵,我觉得不需要什么统计数据

您就在这里开三个题目,然后google或者baidu之,让大家看看效果,

高下自然可知。

这个问题不必然需要涉及广大人群的体验统计,而成为葫芦案子。


2010-01-19 22:45:29
帖内引用

/ 12 首页 上页 下页 末页