2篇计算机方面的论文（理论篇）资源-CSDN文库

共2个文件

doc：2个

论文

需积分: 9 150 浏览量 2009-03-10 09:47:24 上传评论收藏 30KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

2篇.rar （2个子文件）

关系数据库CoDB中XML全文检索的设计与实现.doc 103KB

探究局域网的安全控制与病毒防治策略.doc 31KB

关系数据库 CoDB 中 XML 全文检索的设计与实现

5.1 索引的存储

我们使用和数据库存储分离的方式来保存全文检索.我们使用文件系统将索引的结果按词作

为文件名来存储,假设索引目录为%

INDEX%.我们对于中英文的分词处理也不同.对于中文按字索引所以不需要字典,英文单词

之间由于有空格分开可以很容易的分词.中

文索引文件名为十 6 进制的编码.例如"大"字对应的索引文件为 00F3B4H.英文单词的索引文

件较简单,例如单词 word 对应的索引文件为

%INDEX%/word.我们设置了最大词长度 MAX_WORD_LENGTH,当词的实际长度超过此长

度时,该词被忽略.自索引文件我们使用%

INDEX%/word_idx 作为文件名来存储.

文件中的每条记录的结构如下:TID ElementOffset OffsetToElement DeweyId

其中 TID 可以唯 1 的标记文档, ElementOffset 为该词所在的 XML 节点的起始位置(按字

节),OffsetToElement 为该词相对于该 XML 节点

的偏移量 ( 按字节 ). 该词在文档中的实际出现位置 ( 按字节 ) 为 ElementOffset +

OffsetToElement.DeweyId 为所在节点在 XML 文档中的

DeweyId.DeweyId 可以参看 XML 的编码 1 节.

为提高建立索引的速度,我们在写索引文件的时候使用 Cache 技术.建立索引时使用 Cache 和

不使用 Cache 速度上可以差十倍之多.目前

Cache 块数为 16k,每块大小为 8k,每块 Cache 对应 1 个词.

Xfti 为 Cache 的结构体 , 整个过程中只使用 1 个 , 由 CreateXftiIndex 函数生成 , 由

CloseXftiIndex 函数释放.该结构体其中包含索引目录

cDir,1 个 Cache 结构体数组 pCache 和 1 个指向 Cache 数组的指针数组.该数组用于对 Cache

按词序排序,以便 2 分法查找.iCacheCount 为使

用中的 Cache 块个数(总是出现在前面).其中每个 Cache 块的结构体包括:Cache 内容开始偏

移量 iStart(之前为该词)及结束偏移量

iEnd,以及块 cBuf(前面存储词,后面是 Cache 内容,如 cBuf="secret 2 3 4 5 6 ", iStart=7,

iEnd=19).

结构体 find_data 为 parse 出的结果信息.其中 cWord 为结果单词,pText 指向当前文档 iLength

为该词长度,iOffset 为当前单词在 XML 节

点中的相对偏移量,iPositoin 为词序,iPathLength 为当前 DeweyId 的长度,数组 iPath 为当前

DeweyId,数组 iStartOffset 为当前

DeweyId 上每个节点对应的开始偏移量,iStatus 和 iXmlStatus 用于标示当前 parse 状态.

自索引文件的存储采用按块存储的方法,每个块存储 1 个内部节点,1 个块不够存储时使用溢

出块并连接起来.

主要函数的说明:

InitFindData

对 struct find_data 的初始化,只被 IndexFile 调用

CheckXml

检查文档是否为 Xml 文档(只检查 xml 头)对非 xml 文档不使用 DeweyId,但现在实际上已经

放弃了,所有返回值均相同(在 struct

find_data 中),即对所有文档均按 xml 处理.

SeekToNextWord

定位到文档中下 1 词,其中包含比较复杂的 parse 过程,以及设置当前 DeweyId 等.

CopyWord

将定位到的词复制到 find_data 结构体中.

FindNextWord

查找下 1 词,结果放到 find_data 结构体中.

CreateXftiIndex

创建 Cache,用于建索引,必须的.须指定索引目录.

FlushXftiCache

将 Cache 中的内容写回磁盘

LocateXftiCache

定位到指定的词对应的 Cache,Cache 使用替换最满的策略

WriteXftiCache

将 1 个整数写入定位到的 Cache

CloseXftiCache

写盘和并释放 Cache 内存

IndexFile

对指定字符串(pFile)建索引.

5.2 利用索引进行检索

我们分开处理单个词和多个单词组合的情况.多个关键字调用单个词的检索函数并使用合并

算法进行合并.

我们采用检索单个单词的结构体 result:

struct result

{

unsigned int dwBid; // 文档的 TID 中的块号

unsigned short wPid; // 文档的 TID 中的块内偏移号

unsigned

int dwNextBid; // 为下次检索保留的块号

unsigned short wNextPid; // 为下次检索保留的块内偏移

int bEndFlag; // 结束标志

POCCUR pOccur; // 出现位置的数组

int iOccurCount; // 位置数组的个数

int iOccurMax; // 数组可以容纳的最大个数,不够的时候会自动调整

int iCurrentOccur; // 为多关键字检索时使用,记录当前数组的下标.

int* pPathBuf; // DeweyID 的内存,pOccur 中所有 DeweyId 存在这里

int iPathLength; // DeweyID 内存的大小

int iPathMax; // DeweyID 内存的最大上限,会自动调整.

FILE* hFile; // 文件句柄

char* pFileBuf; // 读取文件的缓冲区

int iCurrent; // 当前缓冲区的指针

int iEnd; // 指针到达缓冲区结束的标志

int iWord; // 为多关键字检索时使用,保留检索词

int iFirst; // 检索词是中文还是英文的标记

}

这个结构体中包含了所有的位置信息 OCCUR.OCCUR 结构的定义如下:

struct occur

{

int iPosition; // 词的位置

int iStartOffset; // 当前 XML 节点的偏移量

int iOffset; // 相对于当前节点的偏移量

int iPathOffset; // 在 DeweyId 内存中的位置

int iPathLength; // DeweyId 的长度

}

这部分主要函数说明:

CreateResult

初始化 result 结构并初始化

DeleteResult

释放 result 结构

SearchOpen

开始 1 个检索.传入关键字作为参数.它在 CreateResult 之后调用.

ReadBuffer

从文件中读入数据到缓冲区中.

ReadNext

从缓冲区中读入 1 条索引记录.

SearchNext

检索 1 条满足条件的结果.结果信息放在 Result 结构中返回 0 表示成功.

SearchClose

结束检索时要调用得函数.

多关键字检索的时候我们使用的是 Result2 结构,他包含了多个单关键字的 Result 结构,它的

定义如下:

struct result2

{

unsigned int dwBid; // 文档的块号

unsigned short wPid; // 文档的块内偏移

PNRESULT pNResult; // Result 数组每个词对应 1 个关键词

int iNResultCount; // 数组的长度

int iNResultMax; // 数组的最大长度

POCCUR2 pOccur2; // 位置信息的数组 Occur2,pNResult 中的数据实际存储在这里

int iOccur2Count; // 数组的长度

int iOccur2Max; // 最大数组长度

PRESULT* pResult; // 所有的 result 结构的数组.每个结构对应 1 个检索词

int iResultCount; // 数组的长度

int iResultAllocated; // 数组中有效数组的个数

int iResultMax; // 最大数组长度

char* pWords; // 所有的检索词例如:"word1\0word2\0word3\0"

};

多个关键字检索的结果信息存储在 OCCUR2 结构和 nresult 结构中,它的定义如下:

struct occur2

{

int iOffset; // 相对于文档的偏移量

int iWid; // 词的 id

int iDepth; // 相对于节点的偏移量

}typedef OCCUR2, *POCCUR2;

struct nresult // XML 节点的结构

{

int iOccur2; // 在 Occur 数组中的开始下标

int iOccur2Count; // 在 Occure 数组中的个数

int* pPath; // DeweyId 内容的指针

int iPathLength; // 长

度

float fRank; // Ranking 值

}typedef NRESULT, *PNRESULT;

每次查询 Result2 中返回的是 1 篇文档中的所有满足条件的子节点 . 每个子节点存在

pNResult 中,每个关键字的位置信息存在 pOccur2 中

.通过访问 nresult 结构中的 iOccur2 和 iOccur2Count 就可以从 Occur2 数组中获得每个关键字

的位置信息.

这部分主要函数的说明:

EnlargeArray

用于调整数组大小

CreateResult2

类似 CreateResult

DeleteResult2

类似 DeleteResult

Search2Open

类似 SearchOpen

Search2Close

类似 SearchClose

ReadFromIndex

将所有词对应的 result 定位到相同的 TID

CheckPosition

检查结果中中文短语是否连续,将不连续的结果做标记(如查找"侦探","探侦"或"侦察探"都不

是合法结果)

ComparePath

比较两个 DeweyId 是否相等

GetPathLength

返回两个 DeweyId 的公共部分长度

MergeResult

合并多个检索词的结果

SetRank

计算 Rank 值

Search2Next

类似 SearchNext

算法 5.1 为多关键字的检索算法.

算法 5.1 多关键字的检索算法:

多个关键字需要合并单关键字的结果.我们使用算法 5.2 进行合并.该算法的时间代价是

O(mn),m 和 n 分别是 A 和 B 的结果个数.

算法 5.2 合并两个检索结果

5.3 CoDB 中增加索引类型

上面讲到 CoDB 中增加索引需要实现各种接口函数

ftibuild,ftidelete,fticostestimate,ftibeginscan,ftigettuple,ftiendscan,ftiinsert.

CoDB 还要求对于新增加的索引类型要在 codb_am 系统表中注册这些函数.目前 CoDB 拥有

Hash,Btree,Rtree,Gist 等 4 种索引.我们需要增

加 1 种新的索引类型 FTI 就要在 catalog/codb_am.h 中增加下面 1 句:

#DATA(insert OID = 111 ( fti CODBUID 1 1 0 f f f t ftigettuple ftiinsert ftibeginscan ftirescan

ftiendscan

ftimarkpos ftirestrpos ftibuild ftibulkdelete fticostestimate ));

codb_am 结构的具体定义可以参看附录 5.

下面我们讲 1 下建立索引,检索的实现.

5.3.1 建立索引

首先每种搜索引擎都有自己的建立函数 build.例如 Gist 索引有 gistbuild 函数,Btree 索引有

btreebuild 函数.每个 Build 函数会调用

IndexBuildHeapScan 函数,这个函数需要传入 1 个 buildCallback 回调函数最为参数.这个函数

在每次扫描到 1 个元组的时候会调用这个

buildCallback 回调函数.通常回调函数会调用 index_formtuple 形成索引,然后调用形成调用特

殊索引的方法形成自己索引格式.例如

评论收藏

内容反馈

简单Show

粉丝: 3
资源: 6

2篇计算机方面的论文（理论篇）

论文模板（计算机方面）

计算机方面的论文.docx

计算机方面的中英文对照论文

计算机方面论文合集.zip

计算机方面论文题目参考.docx

ToSEM 2013-ACM Transactions on Software Engineering and Methodology 2013年论文集

SOSP 2013-ACM Symposium on Operating Systems Principles 2013年论文集

ISSTA 2012-International Symposium on Software Testing and Analysis 2012年论文集

OSDI 2012-Operating Systems Design and Implementation 2012年论文集

计算机英文论文 关于硬件方面的

学生信息管理论文 计算机方面

毕业课程设计论文-计算机方面

计算机方面的论文打包下载。

计算机论文软件方面，主要是本科毕业生参考

SIGCOMM 2012-ACM SIGCOMM conference on Data communication 2012论文集

人工智能感想的论文范文参考.docx

SIGCOMM 2011-ACM SIGCOMM conference on Data communication 2011论文集

CCS 2012-ACM Conference on Computer and Communications Security 2012年论文集

CCS 2011-ACM Conference on Computer and Communications Security 2011年论文集

计算机安全方面相关论文

云计算理论方面的论文

论文研究-D-S证据理论在公路车辆识别方面的应用 .pdf

矩阵理论在计算机视觉专业方面的应用

论文计算机模拟技术在建筑节能方面的应用.doc

用于不规则域上的标量和向量值数据的快速算法集合（计算机博士论文英文参考资料）.pdf

NDSS 2009论文集

深入理解计算机系统(国外必读经典)

深度强化学习综述_兼论计算机围棋的发展

SOSP 2011-ACM Symposium on Operating Systems Principles 2011年论文集

最新资源

计算机英文论文关于硬件方面的

学生信息管理论文计算机方面