收藏本站 收藏本站
积木网首页 - 软件测试 - 常用手册 - 站长工具 - 技术社区
积木学院 > 电脑技术 > 软件技术 > 正文

Google、雅虎搜索技术大比拼

来源:互联摘选 日期:2004-10-15 12:43
【导语】在搜索界,人们大多谈论到相关性,但本文将主要介绍搜索引擎背后所采用的技术,以及各家搜索引擎之间潜在的区别。本系列文章将围绕占据搜索板壁江上的“四大”引擎展开,他们分别是Google、雅虎、 MSN和ASK Jeeves。本文首先对Google和雅虎的搜索技术作以解析和比较。

  Google搜索技术分析

  Google可谓目前最知名的搜索引擎,自它出现后,就被认为是搜索结果最具相关性的搜索引擎。Google主要按照其PageRank运算法则计算搜索结果的相关性,排列搜索结果顺序。PageRank的原理基本可归纳为,导入链接多于对手网站的网站被认为是较好的网站,其在搜索结果页面的排名就高。网络管理员很快就明白了该原理,于是不断为网站增加链接数量,直至超过对手网站,希望以此获得较高的Google排名。Google当然也采取了相应措施,对其排名运算法则进行了修改。目前的PageRank运算法则包含多种权重因素,判断网站的权威性和相关性。

  Google的工作原理为,首先由一个名为Googlebot的机器人在网上寻找网页,然后被其索引进Google数据库,最好按照运算法则排列顺序。

  Google采用数千台服务器计算排名顺序。这些服务器对数百个权重因素进行分析,既有网页上的也有网页以外的因素,如导入链接等。计算过程将由数百个运算法则完成,每个权重因素对应一个运算法则。运算法则对网页权衡后分别赋予一定值,并将这些值存储起来备日后使用。

  当用户发出搜索请求后,另外一组运算法则对网页的值进行计算,然后,按照相关性程度排列搜索结果。

  可以想象,支持这样一整套处理程序肯定需要相当庞大的能源。此外,基于Google返回搜索结果的速度分析,不可能有太多的数据存储于服务器硬盘上。因此,我们可以大胆假设大部分Google索引数据实际存储于存储器内,或者至少是面向用户的那部分存储器。

  对此,您可以对照Google返回搜索结果的时间。譬如,Google为“search engine”(故意使用拼写错误的单词)返回的搜索结果有68,900个,此外还在页面右侧附加有许多赞助商广告链接,并提出正确的拼写建议,所有过程用时0.36秒。

  对于一些比较普通的搜索请求,Google的返回速度更快。譬如,以“Hurricane Kathrina”或“MTV awards”搜索近期事件,每次用时均不足0.2秒。

  除了极高的相关性外,Google分散和冗余的性格也众所周知。每个缓存页面至少有2-3个副本,甚至更多。Google以2M为单位将整个索引库分隔为众多小型区域,存储于Google基础设施上。每个小区域之间互不联系。譬如,来自宠物网站的几个网页可能靠近某个博客网站,或者某个电子商务网站的页面。

  每个资料处理中心的运作都是独立的,但它们的处理任务可能出现交迭现象。这种情形类似于一间放满数千台和谐运转的计算机的房间。Google就像遍布北美各地数据中心的不断被复制再复制的相同的房间。

  由于数据中心各不相同,即使每台机器都独立运转,但最终目标却是一致的,因此就出现了每月的“Google Dance”现象。Google Dance是指Google更新所有数据中心的搜索结果的那段时间。也就是说,每个数据中心都分别被升级,因此在某个数据中心上曾经排名首位的网页,在另外的数据中心不一定出现在前30名。

  当然Google一直在不断调整网页排名运算法则中的各种权重因素。它们对PageRank的影响极小,但却不失其重要性。需要强调指出的是,变换运算法则中的不同因素将对网站排名造成重大影响。譬如,如果某网站的PageRank值较高,但关键字密度很低,那么当PageRank在运算法则中占有次要权重时,该网站的排名较高;反之,当运算法则首先考虑PageRank的权重时,那么该网站就有可能从搜索结果页面消失。

  移动PageRank在运算法则的中的权重位置很可能会是Google即将采取的措施。网站管理员还必须注意,影响网站排名的因素多达数百种,它们在最终排名中的运算顺序将极大地影响网站在搜索结果页面上的地位。

  据观察,Google每月一次的更新周期正在逐渐延长和更加趋于稳定。这种现象在以前是很少出现的,但大型更新活动的频率不断减少证明,这种现象在不断加强。

  笔者认为,Google可以被视作一个多层系列,每一层的存在都是基于前一层的运作。最上层是我们从浏览器中看到的页面,但如果没有较低层的支持,我们浏览的页面也不会存在。

  雅虎搜索技术分析

  虽然除了雅虎公司工程师外,无人确切了解雅虎的搜索技术,但我们仍然可以大胆猜测,雅虎搜索技术与Google的非常类似。

  雅虎 搜索引擎没有经过如Google或MSN的彻底系统的开发过程,因此它的运算法则与前者有着很大区别。当然雅虎搜索也有其本身特色,原因是雅虎搜索引擎基于多年前收购的多家搜索公司的技术而创建。

  2002年圣诞节前后,雅虎完成搜索服务商Inktomi的收购。此前,雅虎一直从Inktomi获得搜索结果,后期则与Google合作。事实上,在雅虎收购Inktomi之前,业界曾一度传言雅虎收购的对象可能是Google。

  继收购Inktomi后几个月,点击付费广告公司Overture收购了Altavista ,这是当时最强大的首批搜索引擎之一。之后数周,Overture又从FAST收购?a href=http://www.21cnbj.com/industrynews/se_doc/fast.htm title='AllTheWeb/Fast 简介' class=red>AllTheWeb.com。很显然,当时的Overture打算向算法搜索引擎转变。

  Overture一系列收购行动很快使人们猜测到雅虎可能收购部分或全部Overture技术。结果2003年7月,雅虎彻底收购了Overture。

  雅虎搜索直到2004年2月推出自主版本的算法搜索引擎后才开始被广泛关注。它集成了索引速度极快的Inktomi和Altavista爬行机器人,以及性能极佳的AllTheWeb和Altavista 排名运算法则。因此,雅虎搜索引擎是雅虎购买的所有先进技术和各种特色功能的集成。

  雅虎搜索与Google没有多少区别。据雅虎旗下网站的介绍,雅虎搜索也是利用多种权重因素分析网页,确定网页与搜索请求的相关性,然后将分析结果展示给搜索用户。

  当然,雅虎与其他搜索引擎一样,也投入了很长时间和大量精力改善其排名运算法则。雅虎搜索推出初期,网站首页在排名因素中可能占有很大比重,导入链接或站内其他页面却不被重视。

  然而,经过数月观察发现,雅虎搜索的排名规则发生了细微变化,此前搜索结果页面仅对首页排名的地方,变成多个站内网页。

  此外,雅虎还试图以异于Google的方式对导入链接进行重要性排名。譬如,当我们分别在Google和雅虎上对网站的外部链接进行检查时就会发现, Google返回的链接数量往往要低于雅虎。对此,Google的解释是仅显示“相关”链接,而雅虎则不论相关与否全盘显示给用户。

  因此,我们可以说Google和雅虎采用的技术几乎相同,返回的搜索结果类似。即使双方的搜索结果排名有所不同,这也是由多种原因造成的。比如,雅虎的更新频率可能Google。我们对多个新网站实际观察后发现,Google可在数天内完成的抓取和排名任务,雅虎则必须持续数月时间。

  也就是说,如果您最关注网站的排名状况,那么针对Google优化网站可同时在雅虎获得较好的排名,但网站真正出现在雅虎搜索结果页面可能需要更长时间。归根结底,雅虎和Google的搜索技术是相似的。

(出处:http://www.Gimoo.net)

推荐阅读

 

热点信息

 
强悍的草根IT技术社区,这里应该有您想要的!
Copyright © 2010 Gimoo.Net. All Rights Rreserved  京ICP备05050695号