下载  >  开发技术  >  其它  > 论文研究-基于CMS的交互式信息系统设计与实现 .pdf

论文研究-基于CMS的交互式信息系统设计与实现 .pdf 评分

基于CMS的交互式信息系统设计与实现,柏露露,王虹,本论文主要研究与设计了基于CMS(Content Management System)的信息在线服务系统,该系统实现了信息的自动采集以及信息的检索。本论文在��
山国武技记文在 初始仁URL队列 URL队列已全部被 选择一个URI 获取个UR对应的网页 解析URL,得到信息和一系列的链接 新的URL是否重复 放弃 服务器不允许采集 放弃2 URL是否不相关 放弃3 将R放入带爬队列 图主题网络爬虫 山国武技记文在 ∑ ∑∑ 公式(实现了网页标题向量和主题特征向量夹角余弦的计算最后按照的杖重比 例进行合并最终可以得到页面与主题的相关度。再根据设定的阈值进行过滤,相关度最高 的页面就是我们需要得到的页面,再将这个页面加入到页面库中保存起来。 其实对于网络爬虫而言,其中最重要的部分就是采集到的页面与主题相关度的计算,而 目前对于这个相关度的计算⊥要是通过建立向量空间模型方法。该模块充分利用了主题爬 虫,该爬虫是基于传统向量模型理论和 算法把主题文档和待爬虫的文档都加入到特 征向量空间上去,通过特定的公式计算彼此的相关度,相关度高的页面则就是所需要的,这 大大提高」网贞爬取的速度与性能。 向量空间模型和 算法 向量空间模型将文档映射为一个特征向量 其中 为一列互不雷同的词条项,为在中的权值一般被定义 在中出现频率 的函数,即 在信息检索中常用的词条权值计算方法为 函数,其中为所有文档的数目 为含有词条的文档数目。 公式有很多变种,下面是一个常用的 公式: 根据 公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能 力越低,其权值越小;另一方面,某一文档中某一词条岀现的频率越高,说明它区分文档內 容属性的能力越强,其权值越大。 两文档之间的相似度可以用其对应的向量之间的夹角余弦来表小,即文档 的 相似度可以表示为 ∑ 进行査询的过程中,先将査询条件进行向量化,主要依据布尔模型,当在查询条 件中时,将对应的第坐标置为,否则置为,盯 山国武技记文在 从而文档与查询的相似度为 向量空间模型可以实现文档的自动分类和对査询结果的相似度排序,能够有效提高检索 效牽。就是把对文本内容的处理简化为向量空间中的向量运算并且它以空间上的相似 度表达语义的相似度直观易懂。当文档被表小为文档空间的向量,就可以通过计算向量之 间的相似性来度量文栏档间的相似性。文本处理中最常用的相似度量方式是余弦距离。 是一种用丁资讯检索与资讯探勘的 常用加权技术 是一种统计方法,用以评估一字词对」一个文件集或一个语料库中 的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时 会随着它在语料库中出现的频率成反比下降。 加权的各种形式常被搜寻引擎应用 作为文件与用户查询之间相关程度的度量或评级。除了 以外,因特网上的搜寻引擎 还会使用基于连结分析的评级方法,以确定文件在拽寻结果中出现的顺序 在一份给定的文件里,词频( )指的是某一个给定的词语在该文件 中出现的频率。这个数字是对词数 的归一化,以防止它偏向长的文件。(同一个 词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定 文件里的词语来说,它的重要性可表示为 本论文的主题网络爬虫主要是建立在空间模型 把文本表示成 简记为 司时釆集主题也可以表示成 这样的一个向量 ;计算两个向量之间 的夹角余弦值就可以定量的反应主题和文档之间的相关程度 公式()可知,夹角的余弦佰取值在到之间当夹角的余弦值是的时候,表示 文档与主趣的相关性为当余弦值是的时候,表小此时文档与主题的相关度很高。 山国武技记文在 采集判 断模块 相美度计 信息采 HTML文档 算模块 集模块 解析模块 爬虫主 题模块 图信息采集模块的结构的组成 关于相关度计算模块在信息采集模块中占据了很大的重要性,而且主要功能是计算通过 找到的对应的网页与主题页面的计算工作。而且这种相关度的计主要是基于向量空间 模型和 算法的。至于这个网络爬虫模块的实现主要是完成爬虫界面。 主题网络爬虫与普道网络爬虫对比结果分析 主题爬虫的设计是以普通爬虫为基础的实际上它是对一个普通爬虫进行功能上的扩 充。在对网页的整个处理过程屮需要增加模块辶题确立模块、优化初妇和子模块、上题相 关度分析模块、排序模块。主题确立模块用于确立爬虫面向的主题主题相关度分析模块用 来进行网页主题相关度的计算初始种子模块用于生成面向特定主题的较好的种子站点使爬 行模块能够顺利展开爬行工作主题相关度分析模块是主趑爬虫的核心模块它决定血的取 舍排序模块是对面的最终处理给与主题相关贞面的价值一个较为全面的评价排序 其中初始种子模玦和主题确立模垬是两ˆ辅助模玦不参与数据流的处玊ε爬虫模块 取回网页调用相关度分析模块对网页进行相关度分析爬行模块根据分析的不同结果 进行相应的处理爬行模块从数据库取出等待处理的继续工作循环到第一步直至没 有新的 对网页的重要程度进行排序。 结果分析 表主题爬虫与普通爬虫对比图 主题爬虫 普通爬虫 拒绝文档 拒绝文档 提取失败 提取失败 提取文档 提取文档 发现文档 发现文档 实际爬行时间 「实际爬行时间 总搜索时间 总搜索时间 索引 索引 收集数据总数 收集数据总数 通过图可以看出虽然题爬虫时间比普通爬虫时间长,但是差距不是很大,而且主题爬 虫爬行旳工作量是少于普通爬虫的,主题爬虫页面一且被抛弃将不会再被处理,而普通爬虫 仍然会对所有的贝面进行爬取,实验还证明」当搜索的深度增加到一定的程度的时候,主题 爬虫耗费时间要比普通爬虫时间短,所以用主趣爬虫进行页血爬取在某些方面比普通爬虫吏 有效率。爬虫主体模块主要是实现整个爬虫的界面,爬虫参数设置界面和爬取结果页面分别 山国武技记文在 如图和图所示,爬虫搜索结果如图所示。 图爬虫参数设置界面 SLar I arch Par ameters Sarah Essult: 图爬取结果页面 an My Webspider Stat Stop 卫Lb5 TRT http://vrysinacom/imafnsid=a httdlf.soNzon.com/memorr E1519573475 http:iwyy.sinaconimghpaid-bdg4 则三ugou. com menorY 62af15g46s"3 dcec"032e55d569 http:/7yyysinacom/memory 上tp:iwwy.sougou.com http:/fyyysougoucom/memory rce/os-cn-her::Ii http:/xyy52.com/memory J五. ConI mu31c httn'//vvysa120n-cnm/imaensid=hd re/ns-rn-heT.TBI 91518573470825555 ttp: YYY. 34. con'beautrarti cl+/d httnil2yss 3211gon com/time http://v99sinacom/timc httpfyyY.5O.con'bcautrarticle/d httRidYYYF? 9ta1L":433 图爬虫搜索结果界面 山国武技记文在 结论 本论文主要研究与设计了基于 )的信息在线服务系 统。科讯內容管理本身有信息采集模块,但是由于在数据量多,资源广的情况下,性能与速 度会很低,所以本论文在基于传统网络爬虫的信息釆集的基础上,提出∫基于空间向量理论 和 算法的主题网络爬虫。该理论是将主题文档和待爬虫的文档都加入到特征向量空 间上去,通过特定的公式计算彼此的相关度,相关度高的页面则就是所需要的,跟普通网络 爬虫对比,大大提了网页爬取的速度与性能 参考文献 髙伟峰基于 的主题网终爬虫设计与实现广西:南宁职业技术学院, 谭龙远基于领域的网络爬虫技术的研究与实现硕士论文武汉:武汉理工大学, 夏皃主题搜索引擎网络爬虫搜索策略的研究与实现计算机系统应用 刘金红,陆余良,主题网终爬虫研究综述计算机应用研究院, 王舜燕,李蕾,吴兵华,基于分类算法的深庋网络爬虫设计,现代图书情报技术

...展开详情
所需积分/C币:7 上传时间:2019-08-21 资源大小:515KB
举报 举报 收藏 收藏
分享 分享
ModbusTCP/RTU网关设计

基于UIP协议栈,实现MODBUS联网,可参考本文档资料,有MODBUS协议介绍

立即下载
html+css+js制作的一个动态的新年贺卡

该代码是http://blog.csdn.net/qq_29656961/article/details/78155792博客里面的代码,代码里面有要用到的图片资源和音乐资源。

立即下载
iCopy解码软件v1.0.1.7.exe

解ic,id,hid卡密码破解ic,id,hid卡密码破解ic,id,hid破解ic,id,hid卡破解ic,id,hid卡密码密码卡密码破解ic,id,hid卡...

立即下载
分布式服务框架原理与实践(高清完整版)

第1章应用架构演进1 1.1传统垂直应用架构2 1.1.1垂直应用架构介绍2 1.1.2垂直应用架构面临的挑战4 1.2RPC架构6 1.2.1RPC框架原理6 1.2.2最简单的RPC框架实现8 1.2.3业界主流RPC框架14 1.2.4RPC框架面临的挑战17 1.3SOA服务化架构18 1.3.1面向服务设计的原则18 1.3.2服务治理19 1.4微服务架构21 1.4.1什么是微服务21 1.4.2微服务架构对比SOA22 1.5总结23 第2章分布式服务框架入门25 2.1分布式服务框架诞生背景26 2.1.1应用从集中式走向分布式.26?

立即下载
Camtasia 9安装及破解方法绝对有效

附件中注册方法亲测有效,加以整理与大家共享。 由于附件大于60m传不上去,另附Camtasia 9百度云下载地址。免费自取 链接:http://pan.baidu.com/s/1kVABnhH 密码:xees

立即下载
电磁场与电磁波第四版谢处方 PDF

电磁场与电磁波第四版谢处方 (清晰版),做天线设计的可以作为参考。

立即下载
压缩包爆破解密工具(7z、rar、zip)

压缩包内包含三个工具,分别可以用来爆破解密7z压缩包、rar压缩包和zip压缩包。

立即下载
source insight 4.0.0087 注册机序列号Patched(2017/10/17)

最新的sourceinsight4.0.0087和谐license及和谐文件。真正的4087版本,使用附件中的license文件,替换sourceinsight4.exe

立即下载
Java项目经验汇总(简历项目素材)

Java项目经验汇总(简历项目素材)

立即下载
支付宝转账demo-实现提现功能

支付宝单笔转账,实现提现功能,自己用到,所以分享给大家,希望可以帮到大家。(内有demo实例,望大家多多提意见)

立即下载