结构化数据和非结构化数据检索_非结构化数据库项目资源-CSDN文库

全文检索原理

需积分: 50 75 浏览量 2017-12-26 14:17:46 上传评论 1 收藏 616KB PDF 举报

资源推荐

资源详情

资源评论

全检索

我们活中的数据总体分为两种：结构化数据和结构化数据。

•

结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据

等。

•

结构化数据：指不定长或固定格式的数据，如邮件，word档等。

当然有的地还会提到第三种，半结构化数据，如XML，HTML等，当根据需

要可按结构化数据来处理，也可抽取出纯本按结构化数据来处理。

结构化数据又种叫法叫全数据。

按照数据的分类，搜索也分为两种：

•

对结构化数据的搜索：如对数据库的搜索，SQL语句。再如对元数据

的搜索，如利windows搜索对件名，类型，修改时间进搜索等。

•

对结构化数据的搜索：如利windows的搜索也可以搜索件内容，

Linux下的grep命令，再如Google和百度可以搜索量内容数据。

对结构化数据也即对全数据的搜索主要有两种法：

种是顺序扫描法(Serial Scanning)：所谓顺序扫描，如要找内容包含某个

字符串的件，就是个档个档的看，对于每个档，从头看到尾，

如果此档包含此字符串，则此档为我们要找的件，接着看下个件，

直到扫描完所有的件。如利windows的搜索也可以搜索件内容，只是相

当的慢。如果你有个80G硬盘，如果想在上找到个内容包含某字符串的

件，不花他个时，怕是做不到。Linux下的grep命令也是这种式。

家可能觉得这种法较原始，但对于数据量的件，这种法还是最直

接，最便的。但是对于量的件，这种法就很慢了。

有可能会说，对结构化数据顺序扫描很慢，对结构化数据的搜索却相对较

快（由于结构化数据有定的结构可以采取定的搜索算法加快速度），那么

把我们的结构化数据想办法弄得有定结构不就了吗？

这种想法很天然，却构成了全检索的基本思路，也即将结构化数据中的

部分信息提取出来，重新组织，使其变得有定结构，然后对此有定结构的

数据进搜索，从达到搜索相对较快的的。

这部分从结构化数据中提取出的然后重新组织的信息，我们称之索引。

这种说法较抽象，举个例就很容易明，如字典，字典的拼表和部

检字表就相当于字典的索引，对每个字的解释是结构化的，如果字典没

有节表和部检字表，在茫茫辞海中找个字只能顺序扫描。然字的某些

信息可以提取出来进结构化处理，如读，就较结构化，分声母和韵

母，分别只有种可以列举，于是将读拿出来按定的顺序排列，每

项读都指向此字的详细解释的页数。我们搜索时按结构化的拼搜到读，

然后按其指向的页数，便可找到我们的结构化数据——也即对字的解释。

看到这个地，有可能会说，全检索的确加快了搜索的速度，但是多了索

引的过程，两者加起来不定顺序扫描快多少。的确，加上索引的过程，全

检索不定顺序扫描快，尤其是在数据量的时候更是如此。对个很

量的数据创建索引也是个很慢的过程。

然两者还是有区别的，顺序扫描是每次都要扫描，创建索引的过程仅仅需

要次，以后便是劳永逸的了，每次搜索，创建索引的过程不必经过，仅仅

搜索创建好的索引就可以了。

这也是全搜索相对于顺序扫描的优势之：次索引，多次使。

!

三、如何创建索引

全检索的索引创建过程般有以下步：

第步：些要索引的原档(Document)。

为了便说明索引创建过程，这特意两个件为例：

件：Students should be allowed to go out with their friends, but not allowed to

drink beer.

件：My friend Jerry went to school to see his students but found them drunk

which is not allowed.

!

第步：将原档传给分次组件(Tokenizer)。

分词组件(Tokenizer)会做以下件事情(此过程称为Tokenize)：

1. 将档分成个个单独的单词。

2. 去除标点符号。

3. 去除停词(Stop word)。

所谓停词(Stop word)就是种语中最普通的些单词，由于没有特别的意

义，因多数情况下不能成为搜索的关键词，因创建索引时，这种词会被

去掉减少索引的。

英语中挺词(Stop word)如：“the”,“a”，“this”等。

对于每种语的分词组件(Tokenizer)，都有个停词(stop word)集合。

经过分词(Tokenizer)后得到的结果称为词元(Token)。

在我们的例中，便得到以下词元(Token)：

“Students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，

“My”，“friend”，“Jerry”，“went”，“school”，“see”，“his”，“students”，“found”

，“them”，“drunk”，“allowed”。

!

剩余15页未读，继续阅读

内容反馈

cngxguilin

粉丝: 0
资源: 14

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip