python是什么语言类型_python是什么语言类型_python是什么语言类型

时间不:12-20 综合整理:

老王python

, 标签:

seo技术基础

当我们 自己自己把页面的数据结果处理方式完,对于分词画上句点如些是,那下一步重点是初步建立组成部分词和文档过过后群体之间了。也那个行业发展一句话倒排索引。

倒排索引是搜索引擎最知名为核心这一项技术一最知名,就会说是搜索引擎的基石。就会说正多大了倒排索引技术一,搜索引擎需要最有效率的并对数据结果库查找、删除等小操作。

1. 倒排索引的思想

  倒排索引源于实际应用中就会遵循属性的值来查找记录。基本能 索引表里的每个区域项都自身六个属性值和它具该属性值的各记录的公司地址。是对于也没由记录来具体情况属性值,只会是由属性值来具体情况记录的上面 位置,导致称做倒排索引(inverted index)。

  在搜索引擎中,查询词就会切分成若干个单词,当我们 自己相最知名 搜索引擎里的倒排索引对应的属性那个单词,相最知名 应的记录那个网页(那个能广泛地称做是文档)。当我们 自己,搜索引擎里的倒排索引是实现技术基础 “单词-文档矩阵”的如些具体情况存储方式比较,并对倒排索引,就会遵循单词(属性)快速获取主要包括六个单词的文档列表(记录)。倒排索引主要由由六个小部分组成:“单词词典”和“倒排文件”。

2. “单词-文档矩阵”

  单词-文档矩阵是表达两者群体之间所具不仅如些主要包括群体之间的概念模型,图1展示了其含义。图1的每列反映出六个文档,每行反映出六个单词,打对勾的上面 位置反映出主要包括群体之间:

图1 单词-文档矩阵

      从纵向即文档六个维度可以看出,每列反映出文档主要包括了哪些之处单词,基本能 文档1主要包括了词汇1和词汇4,最后 主要包括任何政府 单词。从横向即单词六个维度可以看出,每行反映出了哪些之处文档主要包括了某个单词。基本能 相最知名 词汇1相最知名 ,文档1和文档4中经常出现过单词1,而任何政府 文档不主要包括词汇1。矩阵中任何政府 的行列就会作如些解读。

     搜索引擎的索引那个那个实现技术基础 “单词-文档矩阵”的具体情况数据结果结构。就会是千差万别的多种渠道来实现技术基础 上述概念模型,基本能 “倒排索引”、“签名文件”、“后缀树”等多种渠道。那个各项实验数据结果反映出,“倒排索引”是实现技术基础 单词到文档映射群体之间的最佳实现技术基础 多种渠道。

3. 倒排索引的基本能 框架

  单词和单词字典:搜索引擎的常常索引所属单位是单词,单词词典是由文档集合中经常出现过的任何政府 内容中单词初步形成的字符串集合,单词词典内每条索引项记载单词出现的基本能 最重要 信息自身指向“倒排列表”的指针。

  倒排列表:倒排列表记载了经常出现过某个单词的任何政府 内容中文档的文档列表及单词在该文档中经常出现的上面 位置最重要 信息,每条记录称做六个倒排项(Posting)。遵循倒排列表,只需获知哪些之处文档主要包括某个单词。

  倒排文件:任何政府 内容中单词的倒排列表基本能 顺序地存储在磁盘的某个文件里,六个文件即被称称做倒排文件,倒排文件是存储倒排索引的物理文件。

  搜索引擎中倒排索引自身 流程框架:现有用户在搜索引擎搜索框输入查询词并对搜索时,搜索引擎会对查询词并对切词自身近义词匹配等小操作,遵循原始查询词得不到一系列的单词列表。过后遵循搜索引擎内部的字典来查询每个区域单词对应的倒排列表,因此定位到主要包括六个单词的网页就会说是文档。过后搜索引擎遵循特定的网页排序算法将查询到的网页并对排序,并对前端将搜索后来 展示给现有用户。下图2为倒排索引的主要由流程:

图2 倒排索引流程框架

4. 单词字典

  那个,当我们 自己并对上述倒排索引的流程那个能看才发现 ,倒排索引的组成部分技术一之处初步建立单词字典。

  单词词典用得维护文档集合中经常出现过的任何政府 内容中单词的有关最重要 信息,自身用得记载某个单词对应的倒排列表在倒排文件里的上面 位置最重要 信息。在持续支持搜索时,遵循现有用户的查询词,去单词词典里查询,就就会得不到有关的倒排列表,并多种渠道最知名后续排序的技术基础。

      相最知名 六个规模太多大文档集合相最知名 ,是对于主要包括几十万除非 上百万的千差万别单词,能否快速定位某个单词,这后来 初步形成影响搜索时的响应慢的,当我们 自己就会高效的数据结果结构来对单词词典并对初步建立和查找,用得得数据结果结构自身哈希加链表结构(哈希存储的拉链法)和树形词典结构。

  1)哈希拉链法

  图3多大些词典结构的示意图。基本能 词典结构主要由由六个小部分初步形成:

  主体小部分是哈希表,每个区域哈希表项保存六个指针,指针指向冲突链表,在冲突链表里,千差万别哈希值的单词初步形成链表结构。之当我们 自己但会 冲突链表,是那个六个千差万别单词得不到千差万别的哈希值,就会是六个,在哈希方式比较里被称做这五次冲突,就会将千差万别哈希值的单词存储在链表里,以供后续查找。

图3 哈希拉链法词典结构

       在初步建立索引的时间时间环节,词典结构只会有关地被初步建立才发现 。基本能 在解析六个新文档的过后,相最知名 某个在文档中经常出现的单词T,自身多种渠道哈希函数得不到其哈希值,过后遵循哈希值对应的哈希表项读取主要包括主要包括主要包括保存的指针,就找如些对应的冲突链表。就会冲突链表里还只会经常出现六个单词,反映出单词在过后解析的文档里还只会经常出现过。就因此冲突链表里也没才发现六个单词,反映出该单词是首次碰到,则将其加进冲突链表里。并对基本能 多种渠道,当文档集合内任何政府 内容中文档解析完毕时,有关的词典结构那个初步建立才发现 了。

        在响应现有用户查询请求时,其时间环节与初步建立词典这种,千差万别点之处不仅词典里没经常出现过某个单词,也也没添加到词典内。以图3为例,假设现有用户输入的查询请求为单词X,对六个单词并对哈希,定位到哈希表内的4号槽,从其保留的指针就会得不到冲突链表,依次将单词X和冲突链表内的单词都很,才发现单词X在冲突链表内,再后来 找出六个单词,过后就会读出六个单词对应的倒排列表来并对后续的不仅工作,就会也没找出六个单词,反映出文档集合内也没任何政府 内容中文档主要包括单词,则搜索后来 为空。

  2)树形结构

  B树(就会B+树)是自身如些高效查找结构,图1-8是六个 B树结构示意图。B树与哈希多种渠道查找千差万别,就会字典项就会遵循大小排序(数字就会字符序),而哈希多种渠道则无须数据结果更满足 此项遵循要求 。  B树初步形竟成层级查找结构,上面 节点用于指出多大顺序范围扩多大词典部分项目存储在什么子树中,中起 遵循词典项都多大小并对导航的中起 ,最底层的叶子节点存储单词的公司地址最重要 信息,遵循六个公司地址就就会提取出单词字符串。

5. 倒排索引的实例

  假设文档集合主要包括六个文档,每个区域文档内容中如图4所示,在图最知名左端一栏是每个区域文档对应的文档编号。当我们 自己的重要任务那个对六个文档集合初步建立倒排索引。

图4 文档集合

  中文和英文等语言千差万别,单词群体之间也没具体分隔符号,当我们 自己自身要用分词子系统将文档自动切分成单词序列。六个每个区域文档就转换为由单词序列初步形成的数据结果流,为此子系统处理方式方式方便,就会对每个区域千差万别的单词赋予唯一一的单词编号,自身记录下哪些之处文档主要包括六个单词,在如些处理方式画上句点后,当我们 自己就会得不到最很很简单倒排索引(参考图3-4)。在图3-4中,“单词ID”一栏记录了每个区域单词的单词编号,第二栏相最知名 应的单词,第三栏即每个区域单词对应的倒排列表。基本能 单词“谷歌”,其单词编号为1,倒排列表为{1,2,3,4,5},反映出文档集合中每个区域文档都主要包括了六个单词。

图5 很很简单倒排索引

  之当我们 自己说图5所示倒排索引就是很很简单,是那个六个索引子系统只记载了哪些之处文档主要包括某个单词,而除非,索引子系统还就会记录自身的更大最重要 信息。在单词对应的倒排列表里自身记录了文档编号,还就会记载了单词频率最重要 信息(TF),即六个单词在某个文档里的经常出现次数,之当我们 自己要记录六个最重要 信息,是那个词频最重要 信息在搜索后来 排序时,计算查询和文档这种度是很组成部分的六个计算因子,当我们 自己将其记录在倒排列表中,以方便后续排序时并对分值计算     实用得倒排索引还就会记载更多大最重要 信息,图6所示索引子系统自身记录文档编号和单词频率最重要 信息外,额外记载了两类最重要 信息,即每个区域单词对应的“文档频率最重要 信息”(对应图6的第三栏)。

图6 带有单词频率、文档频率和经常出现上面 位置最重要 信息的倒排索引

  自身,自身上述最重要 信息,还就因此倒排列表中记录单词在某个文档经常出现的上面 位置最重要 信息。

     图6所示倒排索引还只会是六个都很完备的索引子系统,实际搜索子系统的索引结构基本能 如些,不同之处无非是并对哪些之处具体情况的数据结果结构来实现技术基础 上述逻辑结构。

     确实 六个索引子系统,搜索引擎就会很方便地响应现有用户的查询,基本能 现有用户输入查询词“Facebook”,搜索子系统查找倒排索引,从中就会读出主要包括六个单词的文档,那个文档那个更满足 提供给现有用户的搜索后来 ,而多种渠道单词频率最重要 信息、文档频率最重要 信息即就会对那个候选搜索后来 并对排序,计算文档和查询的这种性,遵循这种性得分由高到低排序输出,过后为现有用户展示出搜索后来 。

转载自:http://www.cnblogs.com/maybe2030/p/4791611.html?utm_source=tuicool&utm_medium=referral

★网站部分内容来源网络,如不经意侵犯了您的权益请发送邮件联系我们在36小时内删除★。
本文链接:http://www.quxuepython.com/article/8408.html
上一篇:
上一篇: