Slor的基本概念和倒排索引介绍
这篇文章主要讲解了“Slor的基本概念和倒排索引介绍”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Slor的基本概念和倒排索引介绍”吧!
创新互联公司长期为上千多家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为博乐企业提供专业的成都做网站、成都网站建设、成都外贸网站建设,博乐网站改版等技术服务。拥有10年丰富建站经验和众多成功案例,为您定制开发。
一、Solr介绍
Solr它是一种开放源码的、基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中。
Solr 提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。
Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。
通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。
此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。可以使用 Solr 的表现优异的基本搜索功能,也可以对它进行扩展从而满足企业的需要。
二、Solr的优点
高级的全文搜索功能;
专为高通量的网络流量进行的优化;
基于开放接口(XML和HTTP)的标准;
综合的HTML管理界面;
可伸缩性-能够有效地复制到另外一个Solr搜索服务器;
使用XML配置达到灵活性和适配性;
可扩展的插件体系。
三、索引(index)介绍
Lucene中的基本概念是:index(索引),document(文档),field(字段)和term(术语)
一个索引文件(index)包含一连串的文档(document);
一个文档(document)是由一连串字段(fields),类似于数据库中的一条记录;
一个字段(field)由一连串的术语(terms)组成;
一个术语(term)是一个字符串
ps:相同的字符串在不同的fields被认为是不同的term
四、倒排索引(索引核心)
index存储terms的统计数据,为了使得基于term的检索效率更高。相对于oracle中索引(B-TREE)结构,solr搜索引擎中采用的是一种倒排索引。 倒排索引(Inverted Index):倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。 文档(Document):一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖更多种形式,比如Word,PDF,html,XML等不同格式的文件都可以称之为文档。再比如一封邮件,一条短信,一条微博也可以称之为文档。在本书后续内容,很多情况下会使用文档来表征文本信息。
中文和英文等语言不同,单词之间没有明确分隔符号,所以首先要用分词系统将文档自动切分成单词序列。这样每个文档就转换为由单词序列构成的数据流,为了系统后续处理方便,需要对每个不同的单词赋予唯一的单词编号,同时记录下哪些文档包含这个单词,在如此处理结束后,我们可以得到最简单的倒排索引。在图中,“单词ID”一栏记录了每个单词的单词编号,第二栏是对应的单词,第三栏即每个单词对应的倒排列表。比如单词“谷歌”,其单词编号为1,倒排列表为{1,2,3,4,5},说明文档集合中每个文档都包含了这个单词。
之所以说上图所示倒排索引是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词,而事实上,索引系统还可以记录除此之外的更多信息。下面这张图是一个相对复杂些的倒排索引,与上图的基本索引系统比,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息(TF),即这个单词在某个文档中的出现次数。下图中,词“创始人”的单词编号为7,对应的倒排列表内容为:(3:1),其中的3代表文档编号为3的文档包含这个单词,数字1代表词频信息,即这个单词在3号文档中只出现过1次,其它单词对应的倒排列表所代表含义与此相同。
实用的倒排索引还可以记载更多的信息,索引系统除了记录文档编号和单词频率信息外,额外记载了两类信息,即每个单词对应的“文档频率信息”以及在倒排列表中记录单词在某个文档出现的位置信息。
“文档频率信息”代表了在文档集合中有多少个文档包含某个单词
以单词“拉斯”为例,其单词编号为8,文档频率为2,代表整个文档集合中有两个文档包含这个单词,对应的倒排列表为:{(3;1;<4>),(5;1;<4>)},其含义为在文档3和文档5出现过这个单词,单词频率都为1,单词“拉斯”在两个文档中的出现位置都是4,即文档中第四个单词是“拉斯”。
五、Lucene创建索引的过程
收集待索引的原文档
从数据库、web等获取原文档
将原文档交给分词组件(Tokenizer)
此过程叫做Tokenize,得到的结果称为Token。 会做如下几件事: a.将文档分成一个个独立的单词 b.去除标点 b.去除停词(stopword)
将得到的Token交给语言处理组件(LinguisticProcessor)
此过程处理的结果是Term 会做如下几件事: a.转为小写 b.将单词缩减为词根,如cars-->car c.将单词转变为词根,如drove-->drive
将得到的Term交给索引组件(Indexer)
会做如下几件事: a.将得到的Term创建字典 b.对字典按字母排序 c.合并相同的Term为倒排索引表
感谢各位的阅读,以上就是“Slor的基本概念和倒排索引介绍”的内容了,经过本文的学习后,相信大家对Slor的基本概念和倒排索引介绍这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!
网站标题:Slor的基本概念和倒排索引介绍
文章URL:http://pcwzsj.com/article/jhosie.html