超文本文献检索系统和方法
翻译:星期八
MP3搜索客
摘要
一个搜索引擎为检索提供恰当对询问索引文件与超链接符合指向那些文件。分度器攀登超文件数据库和找到超文件信息包括超链接指向对和各超链接船锚文本文件的地址。信息被存储在一个被倒置的索引文件, 也许并且被使用计算文件链接传染媒介为各超链接指向一个特殊文件。当询问被输入, 搜索引擎发现所有文件传染媒介为文件有询问期限在他们的船锚文本里。询问传染媒介并且被计算, 并且询问传染媒介和各文件链接传染媒介的小点产品被计算。小点产品与一个特殊文件相关被求和确定相关性等第为各个文件。
Inventors:
Li; Yanhong (Scotch Plains, NJ)
Assignee:
IDD Enterprises, L.P. (New York, NY)
Appl. No.:
794425
Filed:
February 5, 1997
Current U.S. Class:
707/5; 707/10; 715/501.1; 715/513
Intern'l Class:
G06F 017/30
Field of Search:
707/2,4,5,10,501
参 考
U.S. Patent Documents
5408655
Apr., 1995
Oren et al.
395/600.
5418948
May., 1995
Turtle
395/600.
5446891
Aug., 1995
Kaplan et al.
395/600.
5488725
Jan., 1996
Turtle et al.
707/5.
5835905
Nov., 1998
Pirolli et al.
707/3.
其它参考
Yuwono 等。"查寻和等第算法为找出资源万维网", IEEE, 页164-171 1986 年。
Cheong, 华氏春, 互联网代理: 蜘蛛、流浪汉、经纪和Bots, 章节4, 1995 年10月。
Croft 等, "检索模型为合并的电子文件链接," 超文件'89 行动, 页213-224, 1989 年11月。
Harman, 唐娜, "排列的算法," 情报检索, 章节14, 页363-371 1992 年。
Bichteler 等, "对书目联结的联合的用途和Cocitation 为文件检索," 美国社会学报为情报学, 页278-282 (1980 7月) 。
Dunlop 等, "超媒体, 和自由文本检索," 信息处理& Managment, 卷29, 第3, 页287-298 (1993) 。
Frei 等, "对语义链接的用途在超文件情报检索," 信息处理& 管理, 卷31, 第1, 页1-13 (1995) 。
主要稽查: 黑色; 托马斯G 。
辅助稽查: Loomis; 约翰C 。
律师、代理或企业: 马歇尔、O'Toole 、Gerstein 、Murray & Borun
声明
我要求:
1. 标注文件方法, 方法包括:
获得超链接名单指向各个文件, 各超链接包括一个或更多期限;
标注各个文件以期限在超链接指向那个文件, 一定数量的超链接, 每个包含一个特殊期限, 也许指向文件; 并且
标注超链接的数量包含特殊期限指向文件以那个文件。
2. 方法要求1:
一个特殊期限也许出现在超链接指向一定数量的文件; 并且
文件的数量有特殊期限在超链接指向那些文件被标注以那个期限。
3. 方法要求2 分度法包括创造文件目录:
各个期限;
文件的数量有那个期限在超链接指向那些文件;
一个文件标识符为各个文件有那个期限在超链接指向那个文件; 并且
超链接的数量包含期限指向各个辨认的文件。
4. 方法要求1:
一个特殊期限也许出现在超链接指向一定数量的文件; 并且
文件的数量有特殊期限在超链接指向那些文件被标注与一个文件标识符为各个文件有特殊期限在超链接指向那个文件。
5. 方法要求4 各个文件有一个特殊期限在超链接指向那个文件被标注以文件的数量的反面有特殊期限在超链接指向那些文件。
6. 方法要求1:
期限也许出现一定数量的次在超链接指向文件; 并且
各个期限出现在超链接的次数被标注以文件指向由超链接。
7. 方法要求1 期限是阻止的词。
8. 用具包括手段为执行方法要求1 。
9. 一种computer-readable 存储设备包括一套指示为执行方法要求1 。
10. 排列文件方法根据与询问的文件的相关性, 询问包括至少一个期限, 并且超链接包含期限和指向对应的文件, 方法包括:
比较词在询问与词在超链接获得相关性等第为各超链接; 并且
求和相关性等第为各超链接指向一个特殊文件获得一个被求和的相关性比分为那个文件。
11. 方法要求10:
一定数量的超链接, 每个包含一个特殊期限, 也许指向文件; 并且
超链接的数量包含特殊期限指向文件被标注以那个文件。
12. 方法要求11:
一个特殊期限也许出现在超链接指向一定数量的文件; 并且
文件的数量有一个特殊期限在超链接指向那些文件被标注以那个期限。
13. 方法要求12 包括创作名单名单标注:
各个期限;
文件的数量有超链接指向那些文件;
一个文件标识符为各个文件; 并且
超链接的数量包含那个期限指向各个文件。
14. 方法要求10:
一个特殊期限也许出现在超链接指向一定数量的文件; 并且
文件的数量有特殊期限在超链接指向那些文件被标注与一个文件标识符为各个文件有特殊期限在超链接指向那个文件。
15. 方法要求14 各个文件有一个特殊期限在超链接指向那个文件被标注以文件的数量的反面有特殊期限在超链接指向那些文件。
16. 方法要求10:
期限也许出现一定数量的次在超链接指向文件; 并且
各个期限出现在超链接的次数被标注以文件指向由超链接。
17. 方法要求10 期限是阻止的词。
18. 方法要求10:
询问由询问传染媒介代表询问传染媒介包含一个维度为各个期限在询问; 并且
各个文件由文件链接传染媒介代表为各超链接指向文件, 各文件链接传染媒介包含一个维度为各个期限在对应的超链接指向那个文件。
19. 方法要求18 比较词在询问与词在超链接包括计算询问传染媒介的小点产品以文件链接传染媒介为那超链接。
20. 方法要求19 求和相关性等第为各超链接指向文件包括求和小点产品被获得使用文件链接传染媒介使一个特殊文件获得被求和的相关性比分为那个文件。
21. 方法要求20 被求和的相关性比分为各个文件被比较获得文件等第。
22. 方法要求18 维度为一个期限在询问传染媒介与文件的数量的反面有关有各自超链接包含那个期限指向那些文件。
23. 方法要求18 维度为一个期限在文件链接传染媒介与文件的数量的反面有关有各自超链接包含那个期限指向那些文件。
24. 用具包括手段为执行方法要求10 。
25. 一种computer-readable 存储设备包括一套指示为执行方法要求10 。
描述
发明的领域
当前发明特别与搜寻关系与超文件文件检索, 和数据库分布的结束宽区域网络系统和方法譬如万维网。
艺术的背景
超文件是提供访问信息一个独特和不连续的方法使用结和链接的数据库系统。结, 即文本或文件, 包含文本、图表、音像、录影、动画、图象, 等当链接连接结或文件到其它结或文件。最普遍的超文件或超媒体, 系统是万维网, 链接各种各样的结或文件一起使用超链接, 因此允许文本非线性组织在网。
超链接是一个关系在二船锚之间, 称头和超链接的尾巴。顶头船锚是目的节点或文件和尾巴船锚是链接开始的文件或结。在网, 超链接由强调或突出一般辨认某些文本或图表在尾巴船锚文件。当用户回顾尾巴文件"点击" 被突出的或"船锚文本" 材料, 超链接自动地连接用户的计算机与或"点对" 顶头船锚文件为那特殊超链接。
超文件系统一般运作得很好当用户已经发现一个尾巴文件附属对事项利益对那名用户。超链接在尾巴文件由一般回顾了材料在超链接的顶头文件文件的作者创造。因而, 用户点击在超链接有材料在顶头文件有一些切中要害对船锚文本在超链接的尾巴文件的高把握。
作为互联网和网的大众化增长, 能力发现相关的文件变得越来越困难。如果用户无法发现第一文件附属对事项利益, 用户当然不会能使用超链接发现另外的恰当文件。而且, 一个唯一相关的文件的地点不能导致其它文件如果相关的文件的作者未创造超链接到其它相关的网站。信息的扩散有导致, 因此, 协助用户在找到信息各种各样的查寻引擎的发展。众多的查寻引擎譬如激发, INFOSEEK, 和雅虎| 现在供给网的用户。
通常搜寻引擎作为用户询问作为输入和试图发现文件与那次询问有关。询问通常是以描述事项利益对用户的几个词的形式。多数查寻引擎经营由比较询问与文件收藏品的索引为了确定如果一个或更多的内容那些文件匹配询问。因为查寻引擎的多数偶尔使用者不想要键入长, 具体询问和倾向于搜寻在普遍的题目, 也许那里是正切地至少与询问有关的数以万计文件。当搜索引擎标注了一件大文件收藏品, 譬如网, 它是特别可能的, 有与询问的一些相关性文件的一个非常大数字将被发现。多数搜寻引擎输出, 因此, 文件名单到文件由他们的程度切中要害排列对询问的用户并且/或者文件有相对地低切中要害不被辨认对用户的地方。因而, 搜索引擎确定相关性等第的方式用极端重要为了限制用户必须回顾满意文件的数量用户信息需要。
几乎查寻引擎所有等第技术取决于询问期限频率在一个指定的文件。当其它相关因素是相同, 更高期限的频率在一个指定的文件, 更高这个文件相关性比分对一次询问包括那个期限。因素不同于期限频率, 譬如这样的文件频率, 即多少个文件包含期限, 也许并且被考虑到在确定相关性比分。一旦各种各样的因素譬如期限频率或文件频率被确定了为一次特殊询问, 各种各样的模型譬如传染媒介空间模型, 机率模型, 模糊逻辑塑造, 等被使用开发数字相关性等第。看见, Harman, D., "排列的算法," 章节14, 情报检索, (Prentice 霍尔1992) 。
例如, 在传染媒介空间模型, 用户询问Q 代表作为各个询问期限的传染媒介(夸脱) 代表如同询问传染媒介的维度。
Q=
文件在数据库由传染媒介并且代表各个期限或关键词(dt) 在文件代表作为一个维度在传染媒介。
D=
相关性比分然后被计算作为Q 和D 小点产品。
各个维度的价值的演算为传染媒介Q 或D 也许被衡量用各种各样的方式。最普遍的期限衡量的惯例是:
重量(t)=TF*IDF.sub.t
那里TF 是一个被测量的期限的期限频率在文件或询问, 和IDF.sub.t 是期限的相反文件频率。相反文件频率是多少个文件反向在整体文件收藏包含期限, 即: ## EQU1 ## 使用一个相反文件频率保险, 破烂物词譬如"," "," "和," 等没有高重量。另外, 当询问使用多个用语, 并且那些期限的当中一个出现在许多文件, 使用IDF 衡量给更低的等第文件包含那个期限, 和更高的等第对文件包含其它期限在询问。
有期限的正常化的版本衡量, 考虑到一个文件的长度包括一个特殊期限。假定被做是期限更加频繁地出现在一个文件为指定的相当数量文本, 更加可能的文件是相关的与一次询问包括那个期限。那个假定不能是真实的, 然而, 在许多情况下。例如, 如果询问是"Java 讲解," 文件(电话它J), 包含100 条线以各条线包括词组"Java 讲解," 会得到一个非常高的相关性比分, 被搜索引擎会输出作为最相关的文件的当中一个对用户。那个文件, 然而, 会是无用的对用户因为它不提供关于"Java 讲解的信息。" 什么用户真正地需要是一个好讲解为Java 编程语言譬如发现在太阳的Java 讲解站点(http://Java.sun.com/tutorial) 。不幸地, 词组"Java 讲解" 不发生100 次在太阳的站点, 并且因此多数查寻引擎不正确地会发现太阳的站点较不恰当, 和因而有更低的相关性等第, 比文件J 。
文件譬如文件J 也许不包括在一个传统数据库因为各个文件在一个传统数据库被选择或被创作为它的内容而不是某些关键词的重复。在网, 任何人能是出版者, 没有选择或筛选在文件之外譬如J 。实际上, 某些人民故意地起草他们的文件以便文件将被检索在被排列的名单产品的上面由考虑到期限频率或正常化的期限频率的查寻引擎。例如, 网站也许被设计以便文本为第一五条线包括工作"性。" 网站也许是低质量或与性无关, 但搜索引擎可能被唬弄入高度排列站点由于词"性的" 高频率在站点。
长度正常化也许并且有其它问题在超文件环境里。文件包含媒介其他比文本也许使它难准确地计算文件的相关的长度。
传统查寻引擎使用关键词不能还检索相关的文件包含那些关键词同义词。因而, 许多查寻引擎也许需要一个广泛的分类词词典, 也许太昂贵或难修造, 为了发现文件包含词"律师" 当用户包括唯一词"律师" 在询问。传统查寻引擎无法还发现是在语言除询问语言之外由搜索引擎用户输入的相关的文件。翻译工具是一种可能的解答, 但他们也许是难和昂贵修造。
另外, 传统查寻引擎也许无法辨认与询问是相关的非原文材料。例如, 网站包含Mozart 的Mozart 的音乐图片或例子不可以由搜索引擎视为相关当那个搜索引擎可能只寻找词"Mozart" 在文件之内文本。
发明的总结
标注文件方法包括获得超链接名单指向各个文件, 各超链接包括一个或更多期限。各个文件被标注以期限在超链接指向那个文件。一定数量的超链接, 每个包含一个特殊期限, 也许指向文件。超链接的数量包含, 特殊期限指向文件被标注以那个文件。
一个特殊期限也许出现在超链接指向一定数量的文件, 并且文件的数量有特殊期限在超链接指向那些文件被标注以那个期限。分度法也许包括创造文件列出各个期限、文件的数量有那个期限在超链接指向那些文件, 一个文件标识符为各个文件有那个期限在超链接指向那个文件, 和超链接的数量包含期限指向各个辨认的文件。
文件的数量有一个特殊期限在超链接指向那些文件也许被标注与一个文件标识符为各个文件有特殊期限在超链接指向那个文件。一个特殊期限的分度法在超链接指向文件也许是以文件的数量的反面有特殊期限在超链接指向那些文件。
期限也许出现一定数量的次在超链接指向文件, 并且各个期限出现在超链接的次数被标注以文件指向由超链接。
期限也许是阻止的词。当前发明的方法也许执行在用具, 也许被存放作为computer-readable 套指示。
与其它当前发明符合的方面, 排列文件方法根据与询问有至少一个期限的询问的文件的相关性, 并且超链接包含期限和指向对应的文件的地方。方法包括比较词在询问与词在超链接获得相关性等第为各超链接, 和求和相关性等第为各超链接指向一个特殊文件获得一个被求和的相关性比分为那个文件。
询问也许由询问传染媒介包含一个维度为各个期限在询问的询问传染媒介代表。各个文件也许由文件链接传染媒介代表为各超链接指向文件, 各文件链接传染媒介包含一个维度为各个期限在对应的超链接指向那个文件。比较词在询问与词在超链接包括计算询问传染媒介的小点产品以文件链接传染媒介为那超链接。求和相关性等第为各超链接指向文件包括求和小点产品被获得使用文件链接传染媒介使一个特殊文件获得被求和的相关性比分为那个文件。被求和的相关性比分也许然后被比较获得文件等第。
维度为一个期限在询问传染媒介也许与文件的数量的反面有关有各自超链接包含那个期限指向那些文件。同样, 维度为一个期限在文件链接传染媒介也许与一定数量的文件有关反面有各自超链接包含那个期限指向那些文件。
其它特点和好处在超文件文件检索系统和方法是固有被要求和被透露或将变得明显对those.skilled.in.the.art 从以下详细的描述与伴随的图画一道。
图画的简要的描述
图1 是一个分布的计算机网络的结构图包括当前发明的超文件检索系统;
图2 是当前发明的分度法和检索系统的结构图;
图3 是二个超文件文件图;
图4 是超文件文件系统的例子包括超链接的表示法在那些文件之间;
图5 是当前发明的分度法过程的流程图; 并且
图6 是当前发明的检索过程的流程图。
更喜欢的具体化的详细的描述
图1 是一个典型的分配超文件系统的结构图包括客户计算机10 被连接到服务机12, 13, 14, 15, 和16 。虽然客户计算机10 被显示被连接直接地到服务器12, 它也许间接地被解救到服务器12 通过服务提供者或通过所有一个或更多其它服务器。服务器13, 14, 15, 和16 包括文件文件17, 18, 19, 和20, 各自地。文件17, 18, 19, 和20 包含文件可利用对网络的用户。服务器12 包括一个索引文件21 依照下面较详细地被谈论。服务机12 穿程网络寻找所有超文件文件居住在文件17-20 其它服务机13-16 为了修造索引文件21 。
图2 描述分度法和检索系统30 的一般结构当前发明。一名用户从系统30 外面输入询问32 通过用户界面34, 典型地将居住在用户的计算机, 譬如客户计算机10 (图1) 。用户的询问然后被传达通过网络给分度法和检索系统30, 一般居住在服务器, 譬如服务器12 (图1) 。系统30 包括检索引擎36, 索引文件38, 和一个索引引擎40 。检索引擎36 的操作和索引引擎40 和索引文件38 的创作下述。索引引擎40 创造索引文件38 由攀登一个文件数据库42, 譬如那被发现在万维网。文件数据库42 也许包括文件17-20 (图1) 。索引文件38 创造了由索引引擎40 也许采取各种各样的形式与当前发明符合, 但也许包括链接文件44, 一个被倒置的文件46, 和文件传染媒介文件48, 下面详细被描述。检索引擎36 使用索引文件38 为了确定相关性等第为文件, 并且产品搜寻结果在49 通过用户界面34 。
图3, 各自地, 是文件A 和文件B 图, 是尾巴船锚和头船锚超链接由箭头50 代表。文件A 有一个地址"URL1" 并且文件B 有一个地址"URL2 。" 地址也许是以通用资源定位符标准的形式(URL), 是类型统一资源识别符(URI) 为顶头和尾巴船锚地址。URL's 典型地是在格式譬如:
http://www.w3.org/hypertext/book.html
任意地, URL 也许被磅标志和字符序列跟随称片段标识符为了辨认一个片段在文件之内, 即:
http://www.w3.org/hypertext/book.html#Chapter1
提供A 有标题52, 一抽象54, 和文本或媒介56 。同样, 文件B 有一个标题58, 一抽象60, 和文本或媒介62 。
文本或媒介也许包含船锚文本譬如船锚文本64 在文件A. Document A 并且包含命令66, 起指示作用对于超链接50 。命令66 的表示法超链接50 被显示用超文本标记语言标准(HTML) 并且包括命令"href" 和然后辨认顶头船锚的地址, 在这种情况下, 文件B 地址"URL2." 命令66 然后包括声明"好讲解在Java," 哪些辨认超链接50 的船锚文本。由辨认词组"好讲解在Java" 作为船锚文本在命令66, 那个词组因此在下面划线在文本56 文件A 。当文本譬如船锚文本64 在下面划线, 它使文件警觉A 的读者对超链接的存在。当用户然后点击船锚文本64, 命令66 指向文件B, 因此指示用户的计算机寄发消息到地址URL2, 请求文件B 的拷贝。
文件著者A 必须, 当然, 创造命令66 和辨认船锚文本64 。通常, 作者的这样文件将描述, 在那位作者的观点, 顶头船锚文件(在这种情况下文件B) 以船锚文本的词(在这种情况下, 船锚文本64) 。所以, 如果有做链接命令对文件B 使用船锚文本64 的许多作者象文件著者A, 用户寻找Java 讲解然后是高度可能感兴趣对信息在文件B 。
图4 是一个简单的超文件系统的表示法有只四个文件, 提供A 、B 、C, 和D 。系统被显示在图4 有只三超链接, 超链接50, 并且被显示在图3, 和超链接68 和70 。船锚文本"好讲解在Java" 在文件A 是尾巴为超链接从文件A 对文件B, 依照被显示在图3 。文件C 包含二套船锚文本"Java 讲解" 和"太阳的Java 站点。" 船锚文本72 在文件C 指向文件B 通过超链接68 。船锚文本74 指向文件D 通过超链接70 。超文件系统被显示在图4 将被使用下面在描述超文件系统包括索引引擎、检索引擎, 和索引文件由索引引擎创造。
图5 描述索引引擎40 的操作图2 。在块100, 索引引擎攀登各个文件在数据库。攀登数据库可能被完成用各种各样的方式, 但通常使用所谓的"蜘蛛" 节目。看见, Cheong, F.C. Internet Agents 。蜘蛛, 流浪汉、经纪, 和Bots, (McMillan 1997) 。蜘蛛节目开始由获得各种各样的网址和寄发消息到那些地址请求文件位于地址。那些地址也许辨认服务器、文件被存储在文件在那台服务器, 或小组文件。在获得文件或文件由URL 辨认, 蜘蛛节目然后回顾那些文件寻找超链接命令辨认另外的地址。蜘蛛节目记录那些地址和然后寻找文件居住在那些地址。
当攀登各个文件在块100, 系统并且获得超链接信息在块102 关于各个文件。这样的超链接信息也许包括文件、词在船锚文本超链接在文件, 和任一个文件URL 的URL 指向超链接有那船锚文本。系统也许并且收集各种各样关于文件的信息包括它的标题和可能文件的文本。系统也许并且创造摘要, 如果需要。
在块104, 系统创造词条在文件有一个格式的一个或更多链接文件:
< doc.ID, 船锚文本>
那里doc.ID 是一个标识符为各顶头提供超链接有对应的船锚文本。doc.ID 也许是以URL 的形式或也许是被标注有点与文件的URL 的其它标识符。箱子104.A 依照提到是链接文件的例子, 在图2, 被创造为文件的数据库被显示在图4 。因为数据库在图4 有三超链接, 有三个词条在文件104.A 。系统也许并且存放期限出现在船锚文本里为一个特殊链接的次数。在例子被显示, 各个期限只出现一次在一个特殊链接。
虽然图5 表示, 攀登文件在块100 发生在链接文件被创造在块104 之前, 它是可能的使一些链接文件是被创造的预先的精整攀登所有文件在数据库。实际上, 一旦数据库整个地攀登了, 它也许是中意更新链接文件和其它索引文件由retraversing 文件为了确定如果任何另外的文件增加了来数据库, 或如果任何超链接增加了来文件。
在块106, 船锚文本为各种各样的超链接也许阻止。抽去是使词降低的过程从各种各样的形态形式到一个被简化的词根。在抽去期间, 词通常使情形厚脸皮, 即。"讲解" 和"讲解" 被认为同样。"太阳的" 将阻止"太阳," "文件" 将抽去"提供," 等。
控制然后通过阻拦108, 创造一个倒置文件以词条在格式:
< 期限, doc 。>
那里期限是词从超链接和doc. 的船锚文本被提取是标识符为顶头提供那超链接。一个倒置文件依照被创造在块108 被显示在文件108.A 。因为船锚文本"好讲解在Java" 有四个词, 那超链接结果在四个词条在文件108.A 。
在块110, 倒置文件由期限排序, 并且文件频率被计算。文件频率被定义作为文件的数量有一个特殊期限在超链接里船锚文本指向那些文件。例如, 在数据库图4, 期限"Java" 出现在三超链接船锚文本, 那些三超链接指向一共计二个不同文件。所以, 文件频率为期限"Java" 是二。期限"好" 看来在只一超链接, 点对只一个文件, 因此文件频率为期限"好" 是一个。
控制下张通行证阻拦112, 创造决赛倒置文件依照被显示在112.A 。词条在最后的倒置文件是在格式:
< 期限, DF, doc1, lf1, doc2, lf2, 。.., doci, LFi >
那里"期限" 是一个期限在船锚文本, DF 是文件频率为那个期限, doci 是文件标识符为文件i, 并且LFi 是链接期限频率为doci 。链接期限频率被定义当超链接的数量指向船锚文本包括特殊期限的doci 。例如, 期限"好" 看来在只一超链接, 点对文件B, 因此期限的链接期限频率"好" 为文件B 是一个。期限"Java" 看来在二超链接, 点对文件B, 因此"Java" 链接期限频率为文件B 是二。当前发明的检索引擎的一具体化将依靠这个文件发现文件与用户询问有关。
索引引擎在箱子114 也许并且引起在哪里词条在文件链接传染媒介文件是在格式的文件链接传染媒介文件:
doc.id, v.sub.1, v.sub.2, 。.., v.sub.i
那里doc.id 是标识符为一个特殊文件, 和v.sub.i 是超链接的传染媒介表示法被发现在链接文件。各传染媒介v.sub.i 将是在格式:
< w(t.sub.1), w(t.sub.2), 。.., w(t.sub.i) >
那里w(t.sub.i) 是重量期限i 在指定的船锚文本为超链接由传染媒介代表。维度各文件链接传染媒介(w(t.sub.i)) 由TF.sub.i 计算* IDF, TF.sub.i 是期限频率期限i, 即多少次期限出现在指定的船锚文本, 和IDF 是倒置文件频率(1/DF) 为特殊维度在链接传染媒介附属的期限。它也许是中意划分文件频率由文件的总数获得一个正常化的文件频率当计算维度。它也许并且是中意使用相反文件频率的对数当计算维度。
文件114.A 是引起了在块114 文件链接传染媒介文件的例子。因为文件B 有二超链接指向它, 有二传染媒介为文件B 被输入在文件114, 与文件一起B 标识符。因为第一超链接的船锚文本指向文件B 有四个分明词"好讲解在Java," 第一传染媒介为文件B 有四个维度。因为第二超链接指向文件B 有只二个词在船锚(Java, 讲解), 第二传染媒介被标注以文件B 有只二个维度。
如下所述, 文件链接传染媒介文件114.A 被使用在计算相关性比分谈到一次特殊询问。而不是自动地创造文件链接传染媒介文件, 它也许是中意创造文件链接传染媒介文件只收到询问后。因而, 唯一的词条在链接导航需要被创造是那些附属对文件有询问期限在超链接船锚文本指向那些文件的文件。
在第一传染媒介为文件B, 第一三个维度是"一个" 从期限"好," "讲解," 和".on." 只出现在船锚文本里指向一个文件, 并且他们只出现一次在船锚文本。因而:
TF*IDF=1*1=1 。
期限"Java," 然而, 有一个期限频率一个和文件频率二, 和有因此一个相反文件频率0.5 。因而, TF*IDF 为"Java" 是0.5, 做最后维度在第一传染媒介为文件B 相等到0.5 。残余的维度在第二传染媒介为文件B 和传染媒介为文件D 并且被计算根据TF*IDF 惯例。
链接文件104.A, 倒置文件108.A, 最后的倒置文件112.A, 和文件链接传染媒介文件114 是全部索引文件把被显示视为在图2 。虽然文件依照被显示在图5 更喜欢, 有许多分度法技术哪些可能被使用以当前发明的系统, 依靠船锚文本和链接频率为了标注文件。例如, 文件也许是压缩的或有各种各样的关系结构为数据在文件之内或在文件之间。
现在提到图6, 检索过程达到相关性排列由使用传染媒介空间模型和链接传染媒介投票。过程依照被显示开始在箱子120 从用户询问的输入在文件120A 。在箱子122, 系统然后搜寻被倒置的文件或最后的被倒置的文件和, 在箱子124, 发现所有文件被标注以询问期限。文件也许与询问有关如果那个文件有超链接指向它, 超链接包括一个询问期限在它的船锚文本里的地方。依照被显示在箱子里124.A, 系统寻找了二个文件、文件B 和文件D, 每个有一个或更多期限在询问在超链接里船锚文本指向那些文件。
控制下张通行证把126 装箱系统发现文件链接传染媒介为各个文件被辨认在箱子里124.A 的地方。文件链接传染媒介与根据各个文件内容的常规文件传染媒介被对比。系统也许发现文件链接传染媒介由简单地去文件链接传染媒介文件114 (图5) 或也许创造文件链接传染媒介从倒置文件和链接文件。箱子126.A 显示文件链接传染媒介, 与船锚文本一起, 为各超链接指向文件与询问有关。
当获得文件链接传染媒介, 系统, 在箱子128, 并且创造询问传染媒介依照被显示在箱子里128.A 。维度在询问传染媒介与TF.sub.q 是相等的* IDF 为各个期限在询问, TF.sub.q 是期限频率或次数期限出现在询问。IDF 是相反文件频率为期限依照被计算在箱子110 里图5 。TF.sub.q 是一个为"Java" 和"讲解" 在询问。IDF 依照早先被计算在箱子110 里图5 为"Java" 象被计算为"讲解" 你是0.5 和。
一次询问传染媒介和所有相关的文件链接传染媒介被发现了或计算, 控制通行证阻拦130 计算相关性比分为各个文件。相关性比分由发现计算各文件链接传染媒介小点产品以询问传染媒介。一个小点产品为传染媒介< a 、b 、c > 和< d, e, f > 被定义和: ## EQU2 ##
如果二传染媒介没有同样维度, 零输入为不是存在在那传染媒介的各个维度。例如, 第一传染媒介为文件B 代表和:
< 1, 1, 1, 0.5 > 。
在这样事例, 询问传染媒介会代表和:
< 0, 1, 0, 0.5 >
以便维度代表"讲解" 在各传染媒介和"Java" 在各次传染媒介比赛。询问传染媒介的小点产品以第一文件链接传染媒介为文件B 然后会被计算如下: ## EQU3 ## A 相似的演算为第二传染媒介为文件B 会导致小点产品1 。
在箱子131, 小点产品为所有文件链接传染媒介附属对一个特殊文件被求和获得"表决" 或被求和的比分为一个特殊文件。被求和的相关性比分为文件B 是小点产品的总和为各文件链接传染媒介关系文件B, 均等1.620 。相似的演算可能由发现做询问传染媒介的小点产品以唯一的文件链接传染媒介为文件D, 均等0.149 。
在箱子132, 被排序的结果输出依照被显示在箱子里132.A 。结果被排序以便文件更高被求和相关性等第是列出的在那些之上以更低的等第。而不是列出所有文件有一个非零相关性比分, 它也许是中意只列出一个被预先设定的数字, 即名列前茅100 个文件, 或只列出那些文件有相关性比分在某一门限之上。
过程此中被描述可能执行在一定数量的用具, 包括Sun SPARC 驻地以Solaris 操作系统。过程也许被存放在记忆在计算机系统作为一套指示。套指示也许并且被存放在computer-readable 记忆譬如盘, 并且指示可能被传达从一台计算机给另在网络。
在例子被描述, 超链接不指向文件A 或C, 因此每个他们的相关性比分是零的, 即使文件A 和文件C 包含词在询问, "Java" 和"讲解。" 一个常规索引和检索引擎能被使用与的组合hyperlinked 当前发明的基于的索引和检索系统。这个组合也许被使用在一条基于链接的相关性比分领带情况下, 或仅仅补充基于链接的信息。例如, 假设相关性比分为文件A 和C, 各自地, 是0.6 和0.8 根据常规和相关性等第。最后的相关性等第为询问运用常规等第打破基于链接的等第的平局会是文件B, 文件D, 文件C, 和提供A 。
其它原因使用组合等第也许是有很少超链接(譬如只一个链接) 指向文件。在这种情况下, 相关性比分根据这一个链接不也许是准确的, 因此门限可能被设置为基于链接的相关性比分。如果基于链接的相关性比分比门限低, 相关性等第其它方法也许与基于链接的相关性比分被使用或被结合。
由于当前发明的索引文件使用唯一超链接信息, 相关性等第不取决于词出现在文件, 或, 如果使用与常规相关性等第的组合单一地不取决于词出现在文件。反而, 相关性等第取决于那些文件的描述在超链接船锚文本指向文件。文件譬如文件J 被描述上面不会有一个高的被求和的相关性比分因为作者创造超文件文件不会包括超链接在他们的文件指向文件J 。
文件的大小不再是一个因素在相关性等第, 并且因此问题与相关文件大小可能被避免。
对分类词词典的用途也许较不重要因为既使词"律师" 从未出现在文件题为"加利福尼亚移民律师," 某人也许创造了超链接指向船锚文本包括词"律师的那个文件。"
图象、图表, 和声音, 不是搜查的由常规情报检索方法, 是搜查的如果有超链接指向他们。船锚文本也许并且是以图象、图表, 等的形式因此索引引擎也许用非原文船锚文本替代其它信息譬如尾巴文件的标题。
文件在一种外语也许并且被检索如果分度法执行与当前发明符合。如果文件被写在英语包含船锚指向外国语言文件, 外国语言文件将接受相关性比分与当前发明符合。
因而, 当文件数据库是足够大的, 和在万维网, 查寻结果情况下根据一投票, 文件的内容的描述由的地方怎样确定其他人描述文件而不是简单地由怎样文件自我描述。因而, 在例子被显示以上, 太阳的Java 讲解站点将接受一种高被求和的相关性等级即使期限"Java 讲解" 出现只一次在文件。
等第方法根据超链接指向一个指定的文件可能使用选择最普遍的文件在一个具体领域使用那个领域的特点词或描述作为询问对系统。由分析链接文件被描述在更喜欢的具体化, 和比较超链接的不同的描述指向同样文件, 系统可能自动地修建分类词词典或同义词工具。
前面详细的描述被给了为只了解的清楚, 并且多余的局限不应该被了解从那里, 因为修改对those.skilled.in.the.art 会是显然的。
* * * * * (出处:www.Gimoo.net)