python安装包_python安装包_python安装包_python安装包_python安装包

时间时:12-20 内容来源:

老王python

, 标签:

seo原有基础

当让当我们 把页面的数据统计 直接处理完,第三种 就不分词就就结束了第三种 就不,那下一步重点是模式建立组成部分词和文档进入 的实际关系 了。也一般说来数上行业未来那句话倒排索引。

倒排索引是搜索引擎四大为核心这一项各种技术身为,第三种 就不说是搜索引擎的基石。第三种 就不说是是人是它有有倒排索引各种技术,搜索引擎才能才能真正能有效率的针对数据统计 库查找、删除等除此操作。

1. 倒排索引的思想

  倒排索引源于实际应用中第三种 就不并按上述属性的值来查找记录。甚至索引表中则 每个人项都多达多达 身为属性值和还具该属性值的各记录的店地址。当然并就不由记录来基本确定属性值,就不是由属性值来基本确定记录的除此位置,当然冠以倒排索引(inverted index)。

  在搜索引擎中,查询词第三种 就不切分成若干个单词,让当我们 应该搜索引擎中则 倒排索引对应的属性一般说来数上单词,应该应的记录一般说来数上网页(也第三种 就不广泛地冠以是文档)。让当我们 ,搜索引擎中则 倒排索引是可以选择实现“单词-文档矩阵”的第三种 基本确定存储任何人方式,针对倒排索引,第三种 就不并按上述单词(属性)快速获取不仅如此如此身为单词的文档列表(记录)。倒排索引俩个方面由身为小部分组成:“单词词典”和“倒排文件”。

2. “单词-文档矩阵”

  单词-文档矩阵是表达两者实际关系 所具除此 第三种 不仅如此如此实际关系 的概念模型,图1展示了其含义。图1的每列象征身为文档,每行象征身为单词,打对勾的除此位置象征不仅如此如此实际关系 :

图1 单词-文档矩阵

      从纵向即文档身为维度上看,每列象征文档不仅如此如此了哪些是它单词,甚至文档1不仅如此如此了词汇1和词汇4,不是不仅如此如此任何人单词。从横向即单词身为维度上看,每行象征了哪些是它文档不仅如此如此了某个单词。甚至应该词汇1应该,文档1和文档4中再次出现过单词1,而任何人文档不不仅如此如此词汇1。矩阵中任何人的行列第三种 就不作第三种 解读。

     搜索引擎的索引一般说来数上一般说来数上可以选择实现“单词-文档矩阵”的基本确定数据统计 结构。第三种 就不有所不所不同多种途径来可以选择实现上述概念模型,甚至“倒排索引”、“签名文件”、“后缀树”等多种途径。这俩个各项实验数据统计 充分说明,“倒排索引”是可以选择实现单词到文档映射实际关系 的最佳可以选择实现多种途径。

3. 倒排索引的一般说来数框架

  单词和单词字典:搜索引擎的一般说来索引其他单位是单词,单词词典是由文档集合中再次出现过的一切单词逐步形成的字符串集合,单词词典内每条索引项记载单词出现的甚至各类信息除此指向“倒排列表”的指针。

  倒排列表:倒排列表记载了再次出现过某个单词的一切文档的文档列表及单词在该文档中再次出现的除此位置各类信息,每条记录冠以身为倒排项(Posting)。并按上述倒排列表,便可获知哪些是它文档不仅如此如此某个单词。

  倒排文件:一切单词的倒排列表甚至顺序地存储在磁盘的某个文件里,身为文件即被称冠以倒排文件,倒排文件是存储倒排索引的物理文件。

  搜索引擎中倒排索引一般说来数上流程框架:更多用户在搜索引擎搜索框输入查询词针对搜索时,搜索引擎会对查询词针对切词除此近义词匹配等除此操作,并按上述原始查询词得到一系列的单词列表。进入 并按上述搜索引擎内部的字典来查询每个人单词对应的倒排列表,由此定位到不仅如此如此身为单词的网页第三种 就不说是文档。进入 搜索引擎并按上述特定的网页排序算法将查询到的网页针对排序,针对前端将搜索可以选择展示给更多用户。下图2为倒排索引的俩个方面流程:

图2 倒排索引流程框架

4. 单词字典

  一般说来数上,让当我们 针对上述倒排索引的流程也第三种 就不看进去,倒排索引的组成部分各种技术是它模式建立单词字典。

  单词词典用来维护文档集合中再次出现过的一切单词的相关联各类信息,除此用来记载某个单词对应的倒排列表在倒排文件中则 除此位置各类信息。在部分支持搜索时,并按上述更多用户的查询词,去单词词典里查询,就第三种 就不得到相关联的倒排列表,并多种途径身为后续排序的原有基础 。

      对后再个规模是甚至文档集合应该,当然不仅如此如此几十万才能才能真正上百万的所不同单词,能否快速定位某个单词,这可以选择逐步形成影响搜索时的响应速度很快,让当我们 第三种 就不高效的数据统计 结构来对单词词典针对模式建立和查找,用来来数据统计 结构多达多达 哈希加链表结构(哈希存储的拉链法)和树形词典结构。

  1)哈希拉链法

  图3是甚至词典结构的示意图。甚至词典结构俩个方面由身为小部分逐步形成:

  主体小部分是哈希表,每个人哈希表项保存身为指针,指针指向冲突链表,在冲突链表里,所不同哈希值的单词逐步形成链表结构。之让当我们 还会冲突链表,是一般说来数上不身为所不同单词得到所不所不同哈希值,第三种 就不是身为,在哈希任何人方式里被冠以这十次冲突,第三种 就不将所不同哈希值的单词存储在链表里,以供后续查找。

图3 哈希拉链法词典结构

       在模式建立索引的两个两个流流程中 ,词典结构就不相关联地被模式建立进去。甚至在解析身为新文档的进入 ,应该某个在文档中再次出现的单词T,应该多种途径哈希函数得到其哈希值,进入 并按上述哈希值对应的哈希表项读取多达保存的指针,就找进入 对应的冲突链表。第三种 就不冲突链表里早已再次出现身为单词,象征单词在进入 解析的文档里早已再次出现过。第三种 就不在冲突链表里并就还会发现身为单词,象征该单词是首次碰到,则将其马上加入冲突链表里。针对甚至多种途径,当文档集合内一切文档解析完毕时,相关联的词典结构一般说来数上模式建立进去了。

        在响应更多用户查询请求时,其两个流流程中 与模式建立词典一般说来,所差异是它除此 词典里没再次出现过某个单词,也并就不添加到词典内。以图3为例,假设更多用户输入的查询请求为单词X,对身为单词针对哈希,定位到哈希表内的4号槽,从其保留的指针第三种 就不得到冲突链表,依次将单词X和冲突链表内的单词会比较,会发现单词X在冲突链表内,后再找到它身为单词,进入 第三种 就不读出身为单词对应的倒排列表来针对后续的工作时,第三种 就不并就不找到它身为单词,象征文档集合内并就不一切文档不仅如此如此单词,则搜索可以选择为空。

  2)树形结构

  B树(第三种 就不B+树)是除此第三种 高效查找结构,图1-8是身为 B树结构示意图。B树与哈希多种途径查找所不同,第三种 就不字典项第三种 就不并按上述大小排序(数字第三种 就不字符序),而哈希多种途径则无须数据统计 各种各种需求此项有有要求。  B树逐步形更成层级查找结构,右边节点用于指出有有顺序之内的词典前期项目 存储在什么子树中,功效并按上述词典项会极大小针对导航的功效,最底层的叶子节点存储单词的店地址各类信息,并按上述身为店地址就第三种 就不提取出单词字符串。

5. 倒排索引的实例

  假设文档集合不仅如此如此俩个文档,每个人文档内容各类信息如图4所示,在图四大左端一栏是每个人文档对应的文档编号。让让当我们 任务安排一般说来数上对身为文档集合模式建立倒排索引。

图4 文档集合

  中文和英文等语言所不同,单词实际关系 并就不基本确定分隔符号,让当我们 应该要用分词系统中将文档自动切分成单词序列。身为每个人文档就转换为由单词序列逐步形成的数据统计 流,只为系统中后续直接处理方便,第三种 就不对每个人所不所不同单词赋予是它的单词编号,除此记录下哪些是它文档不仅如此如此身为单词,在第三种 直接处理就就结束了后,让当我们 第三种 就不得到最不复杂的倒排索引(参考图3-4)。在图3-4中,“单词ID”一栏记录了每个人单词的单词编号,第二栏应该应的单词,第三栏即每个人单词对应的倒排列表。甚至单词“谷歌”,其单词编号为1,倒排列表为{1,2,3,4,5},象征文档集合中每个人文档都不仅如此如此了身为单词。

图5 不复杂的倒排索引

  之让当我们 说图5所示倒排索引世界上最不复杂的,是一般说来数上不身为索引系统中只记载了哪些是它文档不仅如此如此某个单词,而只为,索引系统中还第三种 就不记录除此的一切更多各类信息。在单词对应的倒排列表中除此记录了文档编号,还第三种 就不记载了单词频率各类信息(TF),即身为单词在某个文档中则 再次出现次数,之让当我们 要记录身为各类信息,是一般说来数上词频各类信息在搜索可以选择排序时,计算查询和文档一般说来度是很组成部分的身为计算因子,让当我们 将其记录在倒排列表中,以方便后续排序时针对分值计算     实用来倒排索引还第三种 就不记载一切更多的各类信息,图6所示索引系统中多达多达 记录文档编号和单词频率各类信息外,额外记载了两类各类信息,即每个人单词对应的“文档频率各类信息”(对应图6的第三栏)。

图6 带有单词频率、文档频率和再次出现除此位置各类信息的倒排索引

  除此,多达多达 上述各类信息,还第三种 就不在倒排列表中记录单词在某个文档再次出现的除此位置各类信息。

     图6所示倒排索引早已是身为会比较完备的索引系统中,实际搜索系统中的索引结构一般说来数第三种 ,差异无非是针对哪些是它基本确定的数据统计 结构来可以选择实现上述逻辑结构。

     有有身为索引系统中,搜索引擎第三种 就不很方便地响应更多用户的查询,甚至更多用户输入查询词“Facebook”,搜索系统中查找倒排索引,从中第三种 就不读出不仅如此如此身为单词的文档,这俩个文档一般说来数上应用提供给更多用户的搜索可以选择,而多种途径单词频率各类信息、文档频率各类信息即第三种 就不对这俩个候选搜索可以选择针对排序,计算文档和查询的一般说来性,并按上述一般说来性得分由高到低排序输出,进入 为更多用户展示出搜索可以选择。

转载自:http://www.cnblogs.com/maybe2030/p/4791611.html?utm_source=tuicool&utm_medium=referral

★网站部分内容来源网络,如不经意侵犯了您的权益请发送邮件联系我们在36小时内删除★。
本文链接:http://www.quxuepython.com/article/8514.html
上一篇:
上一篇: