第3章搜索引擎介绍 搜索引擎是一种非常有效和易于使用的互联网信息检索工具,利用现代互联网搜索引 擎本身就可以直接检索到各种各样的信息资源,同时掌握搜索引擎的使用方法也可以为我 们提供利用其他专业信息检索工具的必备技能。 自从1994年问世以来,搜索引擎逐渐成为人们获取互联网信息资源的主要方式,相关 搜索引擎网站也逐渐成为Web用户使用互联网时的首选访问站点之一,另外搜索引擎和实 时通信、电子邮件等服务也已经成为当今各大门户网站用来吸引用户访问的三大主要方式。 2015..23% 。 —2020年,中国搜索引擎市场规模从7075亿元增长到12046亿元,年复合增长率 1. 截至2020年12月,我国搜索引擎用户规模达7.占网民整体的77.手机搜索引擎 70亿, 8%; 用户规模达7.68亿,占手机网民的77. 9%①。这也充分说明了现代移动互联网信息资源检 索利用需求的广泛存在。 利用搜索引擎获取互联网信息资源也是网络用户常见的访问操作。本章首先主要介绍 搜索引擎在国外和国内的发展历史和现状,通过对此问题的了解,有助于我们认识搜索引擎 的特点,如为什么搜索引擎是现在这个样子,为什么该这样使用搜索引擎,这些都是我们需 要回答的问题;其次,本章还简单讨论搜索引擎的基本原理,以此来加深读者对搜索引擎的 了解,从而更好地帮助读者使用搜索引擎。事实上,有时候我们会觉得搜索引擎不是很好 用,其中的原因很复杂,但是有一点是肯定的,如果我们越了解搜索引擎,我们就越能有效地 使用搜索引擎。 3.搜索引擎的发展 1 搜索引擎这个名称比较古怪,来自它的英文名称:SearchEngine,言下之意,它是一种 检索信息的发动机。可以说,整个搜索引擎的发展历史就是互联网的发展历史,因为互联网 用户中一直存在着从大量网络信息中获取自己所需信息的需求,而且这种需求随着互联网 的快速增加而日渐迫切。 按照检索技术的发展过程,搜索引擎的发展经历过三个主要阶段:第一阶段时间跨度 大致为1990年到1998年,这个时期的搜索引擎主要着力于解决如何快速有效地从大量网 页中获取较为完整全面的搜索结果,开始使用爬虫等信息收集方式和使用Web目录等信息 ① 华经情报网丨2020年中国搜索引擎行业发展现状与背景研究.htps://baijiahao.baidu.com/s?id= 1700797452918714573. 38 组织方式,代表性的搜索引擎有Altavista等;第二阶段时间跨度大致为1998年到2004年, 此时的互联网规模已经相当庞大,检索结果是否完整似乎已经没有太大意义,相反,搜索引 擎开始努力地在命中网页的质量及其内容相关度的排序上来提高用户的满意度,基于网页 链接分析的算法逐渐被各大搜索引擎广泛采用,Google就是典型的代表;第三阶段时间跨 度为2004年至今,各大搜索引擎不断应用先进的技术来改进功能,如增加多媒体信息查询 功能、个性化搜索引擎功能等。 尤其是近年来随着机器学习等人工智能方法的不断应用,今天的搜索引擎在用户查询 意图理解和结果呈现等方面,都比以前取得了极为明显的进步,整体检索效果越来越好。 1.国外搜索引擎的发展历史 3.1 可以说,如果没有互联网,就没有搜索引擎。但是,在互联网出现之前,很多人所提出的 思想和见解却深深地影响了现代搜索引擎的出现和发展。 1945年,万尼瓦尔·布什(VannevarBush)在《大西洋月刊》(TheAtlticMothly)上 发表了一篇重要的文章AsWeMayThink(中文译名为《诚若所思》)。虽然(a) 那个年(n) 代还没(n) 有计算机,但是在这篇文章中,作者提到了类似于超文本的思想,同时还指出未来的世界会 出现一种独立于人类大脑以外的知识扩展体(MemoryExtension),该物体具有无限大的虚 拟空间,可以很好地扩展,同时还能提供有效的信息获取方法,作者称为Meme如图3. 所示。 x,1 1《 图3.大西洋月刊》上的《诚若所思》一文(截取于20224) 万尼瓦尔·布什大胆地预测了未来人类可能会面临的信息处理困境,这是他书中的原 话:“Thedificultysemstobe,notsomuchthatwepublishundulyinviewoftheextent andvarietyofpresentdayinterests,butratherthatpublicationhasbenextendedfar beyondpresentabilitytomakerealuseoftherecord.”含义为:“我们所面临的难题看起来 并不是我们从当前兴趣的深度和广度出发发表了不恰当的观点,而是我们现有能力根本不 39 足以利用这些发表的内容。” 然而,万尼瓦尔·布什并没有在技术上给出实现。20世纪六七十年代,美国康奈尔大 学(CornelUniversity)的杰勒德·沙顿(GerardSalton)教授在信息检索技术方面做出了很 多贡献,很多技术直到今天还在搜索引擎中得到广泛的应用,如空间向量模型、词频、倒文档 频率和相关度反馈等技术,他甚至还研发了SMART信息检索原型系统。 3.1.早期的搜索引擎 1.1 相对于其他类型的信息服务类型,互联网使用WWW服务的时间比较晚,所以早期的 互联网并不存在类似于今天的网页搜索引擎,但是仍然出现了很多类似的网络文件检索 工具。 1.Archie 1990年,加拿大蒙特利尔的麦吉尔大学(McGilUniversity)的三位学生AlanEmtage、 PeterDeutsch、BilWhelan发明了Archie,据称这个名称来自“Archive(档案文件)的(”) 缩 写。当时的互联网已经可以提供诸如FTP等文件下载服务,然而用户却缺乏一种直接检索 FTP文件所在地址的工具。Archie恰恰可以自动索引互联网上匿名的免费FTP文件信 息,并提供一种根据文件名称检索文件所在FTP地址的方法。因此,Archie被称为现代搜 索引擎的祖先。然而,客观地讲,它并非一个真正的搜索引擎。原因有两个:一是它只能检 索FTP文件资源,并不能获取诸如网页等其他类型的文件资源,因此它其实是世界上第一 个FTP搜索引擎;二是它没有机器人(Robot)程序,不能像今天的搜索引擎那样快速有效地 抓取互联网上的网页文章内容,相反,它使用的是一个基于脚本的文件名称收集器,并通过 正则表达式来匹配用户查询与文件名称来实现检索,并通过文件列表的方式提供信息检索 结果。 2.WorldWideWebWanderer 现代搜索引擎之所以可以检索网页信息,是因为它有一个被称为机器人(Robot)的程 序,所谓机器人程序是指可以连续不断地自动获取互联网上所有网页信息的一种程序。 WorldWideWebWanderer其实并不能算是搜索引擎,它只是世界上第一个机器人程序, 由美国麻省理工学院(MIT)的马泰·格雷(MathewGray)于1993年6月开发。它通过自 动遍历网络的方法来统计互联网上的服务器数量,所以可以追踪互联网的发展规模,直至后 来还可以专门用于获取互联网上网页的URL信息。所有遍历得到的信息都被存入自己的 数据库,名字叫Wandex。由于当时对于性能考虑得不是太多,所以这个机器人程序可以在 一天内连续对同一网页进行多达几百次的遍历,因而会造成被遍历系统性能的严重下降。 虽然马泰·格雷很快修复了这一问题,然而这次事故却给人们带来一个疑问:我的站点如 果被别的机器人程序遍历,是不是会引起性能的下降? 直到今天,搜索引擎在机器人设计方 面仍然存在着这样的挑战。 今天依然可以看到MIT网站上有关的网络统计历史数据,网址为htp: ed/popl/mkgrant, 2所示。 //www.mit. ueey/e如图3. 3.Veronica和Jughead 之所以把这两个搜索引擎放在一起,是因为它们的功能很相似,出现的时间也很接近。 40 图3.rdWinee截取于2022-4) 2 MIT 网站关于WoldeWebWadrr的信息( Veronica由美国内华达大学(UniversityofNevada)的系统计算服务小组(System ComputingServicesGroup)于1991 年开发。和Archie不同的地方在于,Veronica只对存 在于Gopher上的普通文本文件进行查询。随后出现的Jughead也具有类似的作用,据称这 个名称来自“Jonzy..sUniversalGopherHierarchyExcavationandDisplay”(Jonzy的统一 Gopher层次性挖掘和显示工具)。有趣的是,后人常常把Archie称为搜索引擎之父,而把 Veronica称为搜索引擎之母。 不过,这些工具都已经不复存在,然而人们依然可以在互联网上看到一些遗留下来的服 务,如图3. 3所示。 4.ALIWEB ALIWEB 是个划时代的搜索引擎,借助它人们首次可以对WWW 网页进行全文查询。 41 图3.ronica服务( -9) 3 某站点展示的几个大学所提供的Ve截取于2007 它是由马汀·考斯特(MartijnKoster)于1993年10月开发的,名称含义是“类似于Archie 的Web索引”(Archie-LikeIndexingoftheWeb),它相当于Archie的Web版本。但是, ALIWEB没有自己的机器人程序,相反它却要求愿意被ALIWEB收录的网站网管主动提 交自己网站的网页索引信息,这样做的好处在于克服了机器人程序带来的带宽消耗,同时网 管可以自主地描述网页内容。但缺点也是显而易见的,很多网管并不知道如何来做这个事 情,甚至都不知道是否需要这样做,所以ALIWEB的网页数据库规模一直不大。ALIWEB 的网址为htp://www.lwec今天依然还在运行,4所示。 aib.om, 主页界面如图3. 图3.截取于2022-4) 4 ALIWEB搜索引擎的主页界面( 虽然它很古老,但是它所提供的检索功能却非常强大,例如它在引号中提供的“子串部 42 分匹配(Substrings)”功能连Google和百度都不能提供(它们只能提供全词匹配)。 后来,马汀·考斯特并没有停止对搜索引擎技术的研究,他还成为机器人拒绝协议 (RobotsExclusion)标准的主要设计者。通过机器人拒绝协议,网站可以告知搜索引擎哪些 信息可以被搜索引擎机器人程序遍历,而哪些不可以遍历,据此人们就可以更好地在信息公 开性和保密性之间取得一种平衡。这个协议现在已经成为现代搜索引擎的标准之一。 马汀·考斯特的个人主页网址为htp://www.rhlscuk/, 5所示。 geni.o.如图3. 图3.截取于2022-4) 5 马汀·考斯特的个人主页( 3.1.基于爬虫的搜索引擎 1.2 爬虫(Crawler)是从搜索引擎机器人程序发展而来的。虽然两者在功能上很相似,但是 爬虫程序却可以通过分析遍历来的网页中含有的网页链接信息,自动获取下一步需要遍历 的网页,这个过程可以自动地持续地进行下去。爬虫是个非常形象的称呼,也有人称之为蜘 蛛(Spider),它们都是一个意思,Web单词本来的意思就是“蜘蛛网”,因此它们真像互联网 上的蜘蛛爬虫,自由地跑来跑去,抓取所能获得的各种网页信息①。 1994年在搜索引擎发展历史上发生了很多具有里程碑意义的事件,各种基于爬虫的搜 索引擎纷纷出现,彻底改变了人们获取互联网信息的习惯。 1.JumpStation、TheWorldWideWebWorm 和RBSE 最初产生的著名搜索引擎有三个:一是英国苏格兰大学(ScotlandUniversity)开发的 JumpStation,它可以自动收集网页的标题等信息,但是随着网页数量的增加,该搜索引擎却 不能很好地适应这种变化,性能变得很差,最终停止了运行;二是美国科罗拉多大学 (UniversityofColorado)的奥利弗·麦克布莱(OliverMcBryan)开发的TheWorldWide ① 爬虫程序要想抓取所有的互联网网页信息,需要有个假设前提,那就是互联网的所有网页都相互链接。事实上 这并不可能。不过,探讨这个问题意义不是很大,尤其在互联网网页数量规模已达万亿级的今天,人们更关心的是能否 快速地找到一些最想要的信息资源而非全部的信息资源。 43 WebWorm,字面意思是“万维网蠕虫”,它可以自动收集网页的标题和URL等信息,而且 它也是第一个解析超文本信息的搜索引擎;三是美国航空航天局(NASA)开发的RBSE,意 思是基于存储库的软件技术设备(TheRepository-BasedSoftwareEnginering)。它是第一 个能够索引Web网页正文的搜索引擎,也是第一个能够在搜索结果排列中引入查询词语相 关度概念的搜索引擎。与前两种搜索引擎不同,它不再简单地只根据找到匹配网页信息的 先后次序来排列搜索结果,而是利用网页链接分析重新设计新的结果网页排序算法,因此可 以把用户最想要的相关网页放置在搜索引擎结果的最前面。 现在这些搜索引擎都早已停止了服务,但是后来的搜索引擎基本上都采用了基于爬虫 的网页信息获取方法。 2.Excite Excite是一个非常有代表性的搜索引擎,它是由美国斯坦福大学(StanfordUnversity) 6名本科生在1993年2月研发的一个项目Architext发展而来。最初这些学生认为可以通 过对网页中的词语关系进行统计分析来提高搜索的效果,因此他们在引入风险投资后就研 发了Architext系统。到了1993年中期,他们发布了一个供网络管理员可以在自己网站上 使用的查询软件版本,称为ExciteforWebServers。到1999年,Excite被一个名叫@Home 的宽带运营商以65亿美元收购,因此搜索引擎也改名为Excite@Home 。从此,Excite@ Home开始侧重于宽带市场,在搜索引擎方面也就没有更新的技术出现。好景不长,Excite @Home于2001年10月破产,2002年5月被InfoSpace公司以1000万美元收购。今天, Excite仍然还在运营,不过它已经改用Dogpile来提供元搜索引擎服务。Excite主页网址 为htp://www.exiec6所示。 ct.om,检索界面如图3. 图3.xcite搜索引擎检索“SEO” 截取于2015-3) 6 在E的相关结果( 其中,它还专门提供了黄页(YelowPages)检索和白页(WhitePages)检索,前者是指 电话号码检索,后者是指电子邮箱检索。 Excite搜索引擎有两点非常引人注目:一是在商业上,它最早提出“免费让人搜索,用 44 广告收入来补贴”的搜索引擎盈利模式,这在当时是比较新的理念;二是在技术上,Excite一 直以概念搜索闻名。所谓概念搜索,是指搜索引擎可以理解用户检索词语的语义含义,并进 行自动语义扩检①来推荐更多的查询内容。当然,受限于技术的发展,这种概念检索的功能 并非十分强大。图3.xcite中查询“Apple” 在窗口的右边显示了一组扩 7展示了在E的界面, 展的查询词语,如AppleStore(苹果用品商店),甚至还有Banana等水果类词语。 图3.e所提供的概念检索(截取于20103) 7 Excit 3.WebCrawler WebCrawler是美国华盛顿大学(UniversityofWashington)计算机科学系的学生布赖 恩·平克顿(BrianPinkerton)于1994年4月20日创建,虽然它最早只是从一个非正式学 术研讨会上的小型项目发展而来,最初亮相时只包含来自6000个服务器的网页内容,但它 却是世界上第一个可以对遍历网页的全部文字内容进行索引和检索的搜索引擎②。在此之 前,搜索引擎只能提供网页URL和网页摘要来供用户查看查询结果,其中网页摘要一般来 自人工评论或者是由程序自动抽取网页正文的前若干词语组成。 1995年,美国在线收购了WebCrawler。1997年,Excite又把WebCrawler买走,此时 的美国在线就开始使用Excite作为它自己搜索项目NetFind的技术提供商。随着Excite 的风光不再,今天的WebCr已改用Dogpe来提供元搜索引擎服务,主页如图3. rawleil8 所示。 4.Lycos Lycos的名字来自拉丁文单词Lycosidae(狼蛛),狼蛛和一般蜘蛛最大的区别就是不结 网,而是直接追随猎物捕食。这个形象有力的名称表达了Lycos遍历网页的强大能力,事实 上,它也是搜索引擎历史上的代表作之一。它由美国卡内基-梅隆大学(CarnegieMelon ① 扩检是指扩展检索,意即对当前检索词语的语义进行分析,找到更为一般的或者与此相关的其他检索词语提供 给用户做进一步查询时使用。 ② 在当时,强大的全文索引能力引发了巨大的访问流量,据称当时的华盛顿大学校园网络几乎因此崩溃。 45 图3.r搜索引擎的主页界面(截取于2015 8 WebCrawle-3) University)的博士生迈克尔·墨登(MichaleMauldin)于1994年7月在匹兹堡创建,和其 他美国搜索引擎不太一样的地方在于,它是早期唯一诞生于美国东部的搜索引擎,而其他的 搜索引擎则都在西部的硅谷创建。 从技术上看,Lycos能够提供网页结果排序、查询词语的前缀匹配、邻近位置词语查询 和自动网页摘要等一系列功能。在1994年10月,用户通过当时最为流行的航海者浏览器 查询“Surf①”相关结果时,Lycos是排名第一的搜索引擎结果。正如Lycos名字暗示的那 样,Lycos遍历网页的能力非常强,这是它的最大特点,而这一点在互联网刚开始发展的年 代无疑非常吸引人。据报道,1994年7月20日,Lycos就可以遍历54000篇网页,到了 1994年8月则达到39.4万篇,1995年1月达到150万篇,1996年11月更达到6000万篇网 页,超过了当时任何一款搜索引擎所能收集的网页量。 但是,客观地讲,Lycos的搜索引擎技术并不是最好。不过,Lycos在商业上却做得不 错,如很早就开始投资做社区网站,网络广告也经营得不错,这些成功掩饰了Lycos技术的 不足。Lycos后来似乎意识到了这一点,它收购了一家广受好评的搜索引擎Hotbot,而 Hotbot后台使用的是Inktomi搜索引擎的技术,Lycos希望通过此次收购来提升自己的技 术水平。但是,这也使得Lycos一直需要维持着两个搜索引擎的技术平台。可能是 Inktomi的技术确实比较先进,直到最后它全面改用Inktomi的搜索技术。不过,由于受到 Yahoo!和Google的竞争,Lycos逐渐衰落,最终在1999年4月停止了服务,改由Fast搜索 引擎来提供服务,主页如图3. 9所示。 5.Infosek Infosek也诞生于1994年。Infosek的起点比较高,因为它所使用的搜索技术来自于 美国马萨诸塞大学(UniversityofMasachusets),而在全美高校中,马萨诸塞大学的信息 ① Surf是指冲浪,这里意指所谓的网上冲浪,通常上网的用户也被称为“冲浪者(Surfer)”。 46 图3.s搜索引擎的主页界面(截取于2015 9 Lyco-3) 检索技术名数一流。但是在设计完成之后,设计师还是发现它无法适应如此多的互联网网 页处理要求,因此聘请一位名叫威廉·张(WiliamIChang)的中国台湾设计师进行了改 进,改进后的技术平台被称为Ultrasek 。该平台较前者(.) 而言,不仅在处理速度上,而且在检 索结果的相关度方面,都比较优秀。事实上,后来的Infosek也确实因为相关度算法好而 闻名。同时,它还允许网站管理者提交自己的网页来进行实时索引,该项功能非常吸引人, 不过, ek也同时成了搜索造假者(r)①的天堂,很多网站管理者利用此 InfosSearchSpamme 项功能来恶意提升自己网站的搜索结果排名和被搜索的次数。 Infosek不断增强用户界面的友好性,同时提供大量附加服务以吸引用户使用。最为 重要的是,1995年12月,noek连说服带花钱, tcp公司不再使用Yaho! Ifs让网景(Nesae) o 作为默认的搜索服务提供商,也就是说,当用户单击航海者浏览器的搜索按钮时,默认弹出 Infosek的搜索引擎。但是,随着1999年被迪士尼(Disney)公司收购,Infosek最终沦落 为Go.om网站做娱乐方面的索引和搜索服务,从此在技术方面的革新越来越少。在2001 c Infosertur 年2月, ek终于停止了自己的搜索引擎,改用Ove的搜索服务。有趣的是,百度 创始人李彦宏也曾经在Infosek从事过技术工作,但于1999年回国创立了百度。更为有趣 的是,那个当时改进Infosek的工程师WiliamI.Chang就在工作中认识了李彦宏,并于 noek的网址为h//go. 2006年12月6日加盟了百度,成为百度首席科学家。Ifstp:com, 现在已经完全关闭了搜索服务,原先的搜索引擎主页如图3. 10所示。 6.AltaVista AltaVista可以被看成早期搜索引擎中的Google,它不论是在软件功能上还是硬件条 件上都达到了那个时代的顶峰,在很多方面对现代搜索引擎都产生了深刻的影响。 ① 所谓搜索造假者,是指一些恶意的网站管理者通过故意修改网页内容来设法提升自己网页在搜索引擎命中结 果中的位置,或者使得用户在输入一些常见词语进行检索的时候,可以很方便地找到那些网站管理者自己的网页。显 然,这种行为并不公平,而且会极大地影响搜索引擎自身的声誉。 47 图3. ek搜索引擎的主页界面(截取于20103) 10 Infos- AltaVista由美国数字设备公司(DigitalEquipmentCorporation,DEC)研发,于1995 年12月面世。从硬件条件来看,DEC公司本身就是生产计算机设备的公司,凭借DEC强 大的Alpha芯片运算能力,AltaVista可以运行在当时最为先进的计算机上,因此运行速度 非常快。从软件功能上看,AltaVista搜索引擎的功能也非常多,如AltaVista第一个允许 用户使用句子来进行自然语言查询,第一个支持和实现了布尔查询,能对不同格式的文档、 多媒体信息甚至多国语言的网页进行查询。同时,AltaVista还是第一个允许用户自主增删 网页索引信息的搜索引擎,更新的信息最快可以在24小时内上线。另外,AltaVista还能查 询有链接指向某个特定网页的所有其他网页,该功能称为链入检查(InboundLinkCheck), 这个功能有助于网站管理者了解自己站点受人关注的程度,显然,这种被其他网页建立的链 接越多,自己网页的受欢迎程度相对也就越高。在界面上,AltaVista还提供了大量的易用 帮助提示信息以方便用户使用。 1997年,AltaVista发布了一个图形演示系统LiveTopics,它采用一个图形化的界面来 整理搜索引擎的返回结果,从而方便用户找到所需内容, 11所示。 界面如图3. 这些技术都令人刮目相看。然而,由于管理混乱和竞争者的不断增多,进入21世纪以 后AltaVista逐渐走了下坡路。2003年2月18日,Overture收购了AltaVista,随后 Yahoo!又收购了Overture,AltaVista因此成为了Yahoo!搜索系统的实验平台,也为 Yahoo!推出自己的搜索引擎打下了必要的技术基础。AltaVista的网址为htp://www. alaistcom,今天只能打开Yho!的搜索界面, 12所示。 tva.ao原先的搜索引擎主页如图3. 7.Inktomi Inktomi的正确念法是Ink-to-me,它来自美洲印第安人传说中的一个蜘蛛魔法师,据 说给人类带来了文化和知识。Inktomi是由美国加州大学伯克利分校(Universityof California,Berkeley)计算机教授埃里克·布鲁尔(EricBrewer)和他的博士生保罗·高瑟 (PaulGauthier)于1996年1月创建。他们是研究并行处理的专家,也希望以Inktomi来证 48 图3.s系统的界面 11LiveTopic 图3.a搜索引擎的主页界面(截取于2015 12 AltaVist-3) 明他们所提出的并行算法是有效的。但是,此时的互联网搜索引擎已经群雄并起,要想和它 们正面交锋,难度很大。所以,nti创建者决定只做技术提供商, Ikom并在1996 年5月20 日 开始为Hotbot提供服务。事实证明,Hotbot很受欢迎,它声称每天能遍历1000 万篇以上 的网页,同时还大量运用cookie来储存用户的设置信息以提供个性化的查询服务。在商业 运行模式上,i还提出了很多直到今天依然还在沿用的概念,如St(付费 InktomearchSubmi 提交)、IndexConnect(付费索引)、WebPortalSolution(Web门户解决方案)和Enterprise Search(企业搜索)等。到了1999 年,Inktomi达到了鼎盛,成为诸如Yahoo!和微软MSN 搜索引擎在内近一百多个大网站的搜索后台技术提供商。 随后,Hotbot被Lycos收购,Yahoo!也转用Google作为搜索技术提供商,这对 Inktomi是个巨大打击,不断流失的客户和影响力开始使得Inktomi走向下坡路。Inktomi 于2002 年12 月23 日还是被当年抛弃它的Yahoo!以低价收购。在此之前,Yahoo!一直在 49 使用Ala作为后台技术提供商。现在该服务已经关闭①,关闭前的最后主页如图3. tavist13 所示。 图3.13Inktomi搜索引擎的主页界面(截取于2007-9) 3.1.基于分类目录的搜索引擎 1.3 前文所述的搜索引擎多是采用爬虫方式来获取网页信息,同时在检索界面上多采用输 入检索关键词的方式来获取网页结果,通常我们称这种方式为全文检索(Ful-text Retrieval),因为网页只要在任何位置上含有用户的检索词语就可以被命中。与此相对的, 还有另外一种有效的信息检索形式,那就是Web目录(WebDirectory),也称为“分类目录” 或者“网页目录”。它采用层次性的目录组织体系,将所收集的网页分门别类地归入不同的 子目录,用户按照目录提示可以逐层定位找到自己所需的内容。采取此类方法实现的搜索 引擎和信息检索站点也有很多。 1.VirtualLibrary 发明WWW访问方式的蒂姆·伯纳斯·李于1991年利用WWW方式组织过一个 Web目录站点,称为虚拟图书馆(VirtualLibrary),于是它被看成世界上最早的Web目录 站点。不像一般的商业站点,这个站点是由一群志愿者维护的,志愿者分别根据自己所了解 的学科知识领域给出相应目录下的推荐网页结果,所以体系不大,但是收录的网页质量却较 高,主页如图3. 14所示。 2.Galaxy 1994年1月,Galaxy在美国得克萨斯大学(UniversityofTexas)创建,最早的名称是 ① Inktomi的最终失败从一方面反映了搜索引擎必须要正视的问题,那就是究竟应该直接面对用户树立品牌还是 甘当幕后英雄。事实证明,要想取得市场的成功,搜索引擎必须及时转型,尽快走到台前。后来的Google和百度则采取 了正确的转型路线,成为现代搜索引擎的巨头之一。 50 图3.VirtualLibrary)( -4) 14 蒂姆·伯纳斯·李创立的虚拟图书馆(截取于2022 EINetGalaxy。在创建之初,Galaxy主要面向电子商务的大型目录指南服务。1995年 4月,Galaxy由一个研究项目转变为一个商业项目,1997年被网络安全公司CyberGuard收 购,1998年9月,eGuraay卖给美国健康网(c1999年5月,o/ Cybrad又把GlxAHN.om),FxNews公司介入Galaxy。直到2000年5月,几经变故的Galaxy终于成为一个独立的站点, 由TradeWave公司负责。 Galaxy是一个著名的Web目录搜索引擎,这个目录体系首先按照主题分类,各主题目 录再依字母顺序排列,大主题下分有小主题,因此是个较为综合全面的Web目录体系。同 时,在内容上包含了较多的学术性和专业性知识,内容非常丰富。同时,Galaxy除了可以提 供Web网页检索功能外,还能提供当时还在流行的Telnet和Gopher环境下的信息检索功 能。其实1994年互联网的规模还很小,小到似乎没有必要去建立Web目录,而事实上 Galaxy创建的一个主要原因也就是提供一种Gopher信息的目录检索功能,而Gopher采用 的层次型菜单结构非常需要同时也非常适应Galaxy所提供的目录体系。它的网址为 htp://www.aay.om,主页如图3. glxc15所示。 目录型搜索引擎近几年的发展都受到了很大的影响,目前Galaxy已经停止服务。 3.Yaho ! Yahoo!(雅虎)和Google、Bing① 已经成为全球三大著名搜索引擎。事实上,它是这三 者当中资格最老的一个。 20世纪90年代初,美国斯坦福大学电机研究所攻读电机工程博士学位的美籍华人杨 致远(JeryYang)和大卫·费罗(DavidFilo)与其他学生一样,开始喜欢上刚出现的互联 网。不过,他们都有一个特殊的爱好,那就是经常将自己收集到的一些较好的网页内容链接 在自己的个人网页上。渐渐地,他们自己的网页在斯坦福大学内部开始小有名气,人们称呼 ① 微软公司早期推出的搜索引擎也很著名,如MSNSearch、LiveSearch等,2009年微软公司推出了Bing(中文名 称是“必应”),并同时停止了原有的那些搜索引擎服务。 51 图3.y搜索引擎的主页界面(截取于2015 15 Galax-3) 他们的网页为“杰里和大卫的万维网向导”(Jery&David..sGuidetotheWorldWide Web)。根据这些已有的经验和前期的基础,杨致远和大卫·费罗于1994年4月使用学校 的工作站创建了一个网页目录查询系统,称为Yahoo!①。刚开始,这个网页目录就已经收 集了超过1000个不同站点的网页信息。较基于爬虫的早期搜索引擎而言,Yahoo!所收集 的网页内容能够含有人工编撰的说明信息,可以极大地方便用户的使用,而基于爬虫的搜索 引擎只能通过采集网页URL和标题之类的简单内容来作为网页内容的提示信息,显然不 论是在网页体系的组织上,还是在网页内容的说明上,都难以做到和Yahoo!同样的效果。 事实上,Yahoo!的成功离不开它的幸运。当时有一家著名Web浏览器公司网景 (Netscape)生产一种称为航海者(Navigator)的Web浏览器软件,该软件非常流行,人们都 在使用它去访问Web网络。为了增强网络信息检索的快捷性,该浏览器的创始人马克·安 德森(MarcAndresen)看中了Yahoo!,并且在1995年1月把航海者浏览器上一个最为重 要的网络检索按钮默认指向了Yahoo!目录。可以说,借助航海者浏览器的平台,Yahoo!很 快在互联网上树立了名声。1995年4月,Yahoo!还吸引了曾经给Apple、Oracle和Cisco投 资过的Seuoia公司接近200万美元的投资。此时,Yahoo!已经成为互联网上的一个重要 的门户站点 q 。 然而,通过人工组织方式获取的Web目录结构不可能适应网络快速增长的发展要求, 因此,Yahoo!先后使用了诸如Altavista和Inktomi等搜索引擎来为自己提供基于关键词的 ① 关于Yahoo!这个名称的来历也是众说纷纭,很多人认为它是“另一个层次性的民间先知”(YetAnother HierarchicalOficiousOracle)的缩写词,这可能借鉴于UNIX系统中一个表示网络查询技术的缩略语YACC(Yet anothercompilercompiler,另一个编译器代码生成器)。但是,根据杨致远等人的说法,Yahoo的“Ya自杨致远的姓, 他们曾利用韦氏词典设想过Yauld、Yammer和Yardage等一系列可能的名字。之所以选中Yahoo,是因为在《格利佛游 记》中Yahoo是一种粗俗和不懂世故的人形动物,它具有人的种种恶习,他们反其意而用之,认为在强调平等权利的互联 网上大家都是乡巴佬,为了增加褒义色彩,又在后面加上一个感叹号,于是就有了Yahoo!。来(”) 52 全文检索服务。2002年10月9日,Yahoo!开始不再使用Web目录作为主要搜索工具,而 是使用另外一家后起之秀Google来为自己提供关键词查询服务,并成为真正的全文搜索引 擎。正如当年Yahoo!借助航海者成功一样,Google最终也借助Yahoo!成名,并敢于和 Yahoo!抗衡。此时的Yahoo!只能通过收购的方式来获得较快的发展,2002年12月23日 收购Inktomi搜索引擎,2003年7月14日收购包括Fast和Altavista在内的Overture公 司。直到2004年,雅虎中国在中国内地终于推出了自己独立研发的搜索引擎“一搜”。 2004,雅虎中国推出独立的搜索门户网站一搜网,“一搜天下小”是当时的广告语。后来又改 名为雅虎全能搜,2013年雅虎中国正式关闭并退出了中国市场。雅虎搜索引擎的主页如 图3. 16所示。 图3.16 雅虎搜索引擎的主页界面(截取于2022-4) 不过,Yahoo!的Web目录仍然还是一个重要的网络信检索工具,它的设计结构经过不 断的调整,已经非常成熟和易于使用。Yahoo!的Web目录网址为htp://busines.ahoo. com,网页如图3. y 17所示。 当然,这个Web目录也渐渐地融入了更多的特点。尤其是随着名声的增大,Yahoo!早 已开始对收录的商业站点收费,2007年的收录报价是每年299美元。但是,对于那些真正 著名的站点而言,Yahoo!还是采用免费收录的方法。 受限于发展不利,Yahoo! 于2016年最终被Verizon收购,并于2017年1月更名为 Altaba。 4.ODP ODP是OpenDirectoryProject(开放目录项目)的简称,是由瑞奇·斯克伦塔(Rich Skrenta)于1998年和合伙人一起创办的。这个目录体系结构不仅可以提供一种Web网页 目录的检索方法,而且这个目录体系的内容还是由全球各地的志愿者集体编撰而成,至今已 经成为全球最大的Web目录,因此那些本来需要等待被Yahoo!目录收录的网站现在终于 找到了新的地方。更为重要的是,人们还可以免费地下载整个目录体系,以供自己的科学研 53 图3.o!的Web目录主页界面(截取于2015 17 Yaho-3) 究。1998年11月,网景(Netscape)公司收购了ODP 。随着网景公司自己在同年同月被美 国在线(AOL)以45亿美元收购,ODP后来归入了AOL的名下。ODP的网址为htp: www.dmozog,主页如图3. // .r18所示。 图3.截取于2015-3) 18 ODP的Web目录主页界面( 2017年3月,该网站停止服务,原有的历史内容转移到htp://dmotosnt/,并不再 更新,界面如图3. zol.e 19所示。 5.专业的Web目录站点 如果读者细心,就会发现上述这些Web网页目录的结构有时科学性并不强,如图3. 20 显示了部分hao123中文分类目录的内容。 54 图3.截取于2022-4) 19 ODP的Web目录主页界面( 图3.ao123中文Web目录的截图( -3) 20 部分h截取于2015 显然,“商城”属于“购物”,无论如何将两者并列作为同一个目录下的子内容项并不合 适,更不必说“影视”是否应该放入“视频”目录下了。 但是我们要注意,这些Web目录并不在意科学性,相反,它们更加在意易用性。一般的 Web用户可能并不十分了解目录的层次结构,他们往往希望能够在最短的时间内找到自己 所要的目录项,所以这些目录往往是集中了最为流行常见的目录项,并且以一种极为方便和 直观的方式来展示目录结构,尽可能使用一级目录来呈现最常见的分类。 然而,对于那些诸如图书馆员等从事专门信息资源管理的专家而言,他们可能并不满意 这样的结构,为此还有一些更为专业的搜索引擎Web目录。 克伦·施耐德(KarenG.Schneider)创办的“图书馆员Internet索引”(Librarians.. InternetIndex,LI)就是一个专门面向图书馆员的专业Web目录站点,该目录的结构具有 较为完善的组织,科学性强,质量较高。一般而言,那些具有收费收录(PaidInclusion)服务 的Web目录,通常都不具备这些特点。2010年1月,它和“互联网公共图书馆”(Internet PulcLirrIPL) p2, tp://www.poisbje主页如图3. bibay,合并为il网址为hilrg/dv/uct, 21所 示。该网站现已被关闭,但还能提供服务,只是不再提供数据(.) 更新。 55 图3.2的Web目录主页界面(截取于20224) 21ipl 6.主题Web目录 上述这些综合Web目录还有很多。不过我们也应该注意到它们所面临的共同问题,如 果目录小,价值不大,难以吸引用户使用,如果目录大,相关的人工整理成本太高,维护困难。 所以,与综合Web目录不同,主题Web目录采取了不同的设计策略,它只面向诸如商业和 经济等特定领域,从而取得了目录规模和运转成本之间的一个平衡。通常人们把这些主题 Web目录也称为垂直Web目录(VerticalWebDirectory)、面向局部的Web目录(LocalyOrientedDirectory)。 1995年成立的Looksmart也是一家Web目录站点,早期曾经通过增加网页收录数量 和规模来和Yahoo!目录竞争。虽然早期并不十分成功,但是2002年Looksmart发明的一 种新型的盈利模式为它的快速增长提供了基础。在此之前,几乎所有的Web目录站点都是 采取较为固定的付费收录策略,如每月只需付多少钱可以收录到哪个目录中等。然而, Looksmart采取了按单击付费(PayPerClick)的收费方法①,也就是说,用户单击该收录网 页次数越多,相应的收录费用也就越高,这对被收录网页而言,显然是一种很好的激励措施, 愿意为较高的点击率而支付更多的费用。 在内容上,Looksmart不仅在自己的目录结构中收录网页索引,而且还根据主题分门别 类地收录不少很有价值的内容资源,应该是个很不错的主题Web目录。然而,这些收录的 内容相关性却因为各种原因而逐渐变差,后来在很大程度上又损害了Looksmart的声誉。 而且在商业上发生了一连串的失败,给Looksmart带来了越来越多的不利影响。1998年, Looksmart以2000万美元收购一家非盈利的Web目录站点Zeal来扩展自己的目录规模, 但是到了2006年3月28日,Looksmart却关闭了这个Zeal目录。2002年3月,Looksmart ① 按单击付费(PayPerClick)的搜索引擎盈利模式最早是由Goto搜索引擎提出的,它允许网站管理者实时进行 查询结果的排序,客户可以花钱购买排序的位置,通过拍卖的形式将相关网站放在前面,但同时明确标出这个查询结果 是付费的。这种方式给它带来了巨大的收益。2001年,Goto更名为Overture。 56 还试图通过收购WiseNut搜索引擎来获得发展,结果也不理想。不过,最大的问题还不止 这些。Looksmart曾经通过加盟诸如MSN等门户站点,通过付费收录方式来获利。然而, Looksmart一直以来建立的良好信誉却随着这个合作而逐渐变差,而且Looksmart在商业 上也逐渐越来越依赖于微软的MSN搜索引擎。到了2003年,微软公司宣布放弃与 Looksmart的合作,对于Looksmart来说,这无疑是个致命的打击。后来,Looksmart开始 改用一个称为Furl的社会化书签(SocialBookmarking)管理站点来期望获得新的访问流量 增长,现在它主要为广告商提供按单击付费的搜索网络平台服务。 近年来,随着Web用户对日常生活信息检索需求的快速增长,很多专门提供生活信息 分类目录的网站逐渐受到人们的关注,如国内的“( tp://www.58.om )、 58同城”网址为hc 国外的cragls网址为htp:cagls.r等,它们都可以提供较为完整的生活 isit( //www.risitog) 信息分类目录,同时为了提高易用性,大部分目录只有一级,用户只需单击一次即可看到相 关下级记录信息。 尤其在电子商务领域,基于分类目录的商品检索方式发展更为成熟,不仅能提供越来越 灵活的商品类目组织体系,而且形成了和关键词检索进行有效结合的新型检索提示方法,如 图3. 22所示。 图3. 22 结合分类体系的即时类别提示 同时,由于商品属性具有较强的通用性,因此商品分类目录检索直到今天依然还在使 li 用 st, 。 如淘宝的商品分类目录检索, tps:toactomeag/makt 网址为h//www.abo.om/bh/pere 综上所述,Web目录确实具有不少优点,所以在搜索引擎领域中一直都是一个不可或 缺的角色。连Google公司都曾经利用ODP目录推出了自己的Web目录站点,不过已经在 2011年7月份宣布关闭该服务。 然而,这种方式并非现代搜索引擎的主流。由于Web网页目录需要大量的人工编撰工 作,所以维护成本很高,缩放性很差。而且网页目录规模通常都不大,相对于关键词查询而 言,可以认为虽然关键词查询可能查准率不高,但具有更高的查全率,而网页目录查询则具