强生公司网站建设原则,建站网站赚钱吗,WordPress如何添加cnzz,3模网站建设在ES的倒排索引机制中有四个重要的名词#xff1a;Term、Term Dictionary、Term Index、Posting List。 Term#xff08;词条#xff09;#xff1a;词条是索引里面最小的存储和查询单元。一段文本经过分析器分析以后就会输出一串词条。一般来说英文语境中词条是一个单词Term、Term Dictionary、Term Index、Posting List。 Term词条词条是索引里面最小的存储和查询单元。一段文本经过分析器分析以后就会输出一串词条。一般来说英文语境中词条是一个单词中文语境中一个词条是分词后的一个词组。 此处涉及到分词器分词器的作用是将一段文字分解为若干个词组不同的分词器使用的分词算法不同得到的分词结果也不同。 Term Dictionary词典词典是词条的集合顾名思义词典中维护的是Term。词典一般是由文本集合中出现过的所有词条所组成的集合。 Term Index词条索引由于词典中维护着文本中所有的词条为了在其中更快的找到某个词条我们为词条建立索引。通过压缩算法词条索引的大小只有所有词条的几十分之一因此词条索引可以存储在内存中因此可以提供更快的查找速度。 Posting List倒排表倒排表记录的是词条出现在哪些文档里以及出现的位置和频率等信息。倒排表中的每条记录称为一个倒排项posting。
将以上概念类比到词典中Term相当于词典中的词语Term Dictionary相当于词典本身Term Index相当于词典的目录。
举个栗子假设现在我们输入系统多段文本经过分词器分词后得到以下词条
elasticflinkhadoopkafkaspark 我们使用ES进行全文搜索时如图所示系统首先会通过Term Index找到该Term在Term Dictionary中的位置再通过倒排索引结构找到对应的Posting从而定位到该词组在文本中的位置完成一次搜索。