​H​e​r​i​t​r​i​x​的​面​向​特​定​主​题​的​聚​焦​爬​虫​研​究

所需积分/C币:23 2014-08-05 14:36:39 300KB PDF
收藏 收藏
举报

从百度文库花钱买的一片论文 ,研究利用heritrix 爬去特定内容的网页。
第2期 朱敏等:基于 heritrix的面向特定主题的聚焦爬虫研究 比较半均地散列到不同的队列中,以提高抓取效率。 个手机的贞面http://mobile.139shop.com/mobile/72/ 文中在 Heritrix中扩展 queue- assignment- policy,18366.htm,此页闻下的信息才是需要保存的。所以在 实现一个继承自 Queue Assignment Policy的类,覆写其此需要扩展 Heritrix,开发出自己的类,分析出单个手 中的 getClassKey()方法。该方法将一个链接对象处机页面的URL,并保持此类页面的信息,包括:手机类 理后,再调用散列算法生成一个Key值,相同Key的链型、外观设计、上市H期、手机制式、攴持频段、铃声系 接存于同一个队列中。散列算法有多种,范先爽在文统等数据,图3为北斗手机网手机大全列表,图4为联 献“基于 Heritrix网络爬虫算法的研究与应用”中引入想3GW101详细信息 ELFHash算法进行URL散列。文中 团产手机大全 共杭录了284个国“手机品牌 采用散列程度高且易使用的BK 联想 C0西帕 多达 DRhash算法生成Key值。覆写的 步步高 getClass Key()的主要部分代码如 //覆写的 getClasskey() 迪士尼 Public Class gelClassKey()( CrawlCon 贝尔 troller controller, CandidateURI cauri)i 立 新音 String uri caui. get( URI(). toString ng uri. BKDRHash(uri);∥ 友利H 利用 BKDRHash算法为U分配key值 String a= Long toString (hash%50); 图3北斗手机网手机大全列表 /50个线程,对应50个不同的URI处理队列 上市日期:2010年9月 retirn A. i 手机划: 经济 外狐设计: 直板 ∥/ BKDRHash算法 屏幕参数: 26万色TT屏:480×800ix 网络模式 GS,联通3GWCD public long BKDRHash( String 数据业务:y3G/GPRS 支持频段 WCDHA|/80900/1800/1900z long seed=131;//31131131313131131313etc. 操作系统 系抗塾: Android; long hash =0; 存储卡 T-F1ash/ MicrosD卡 for(int i=0; i< str length();i++) 输入方式: 支持手写输入 机身颜色 珍珠红、黑色 产品尺寸 1Zmx61m×12.5mn hash = hash seed ) str charAL(i); 标准配置 锂电泡;充电器 return hash 图4手机详细页面信息 3.3开发恃定的抓取类 Extractor和扩展 Scheduler 实战证明,引入 BKDRHash算法后,抓取效率提高 在 HeritrixProject项目下建立my. extractor包,在 了很多。 此包内新建类 Mobel39 Extractor,该类继承父类Ex- 3.2北斗手机页面分析 tractor,覆写 extract方法。在 cxtract( CrawIURI curi)方 文中以手机销售网站北斗手机网(www.139hop.法中判断传入其中的参数是否为北斗手机网的所有手 com)作为研究对象,进行页面信息分析。在139shop机品牌汇集页面,如果是,则解析出页面下的链接部分 网站里,手机是按照品牌进行分类的,分析出北斗手机的/ brand/后的id,并在id号前加上htp:// mobile 网手机品牌汇集页面地址为:htp:// mobile.139shp.139 shop. com/ brand/,生成对应i号的品牌手机汇集 com/brand/。查看此页面源码,得到与单个手机品牌页面地址:htp://mobile.139shop.com/brand/id/,然后 页面相关的URI地址内容:<li><ahef="/ brand/72/"将其加到等待 FrontierScheduler处理的列表中,以待处 target="_ blank">联想</a></li>,由于此地址不是完理。 整的UR地址,因此使用 Heritrix将抓取不到单个手 扩展 FrontierScheduler实现特定网页的抓取,在 机品牌页面的内容。通过从浏览器的地址栏上可以得 Heritrix Project项目下建立my. processor包,在此包下 知,联想手机实际页面为:htp://mobile.139shop.com新建类FrontierSchedulerFormoble139,该类继承父类 brand./72/,如果从此页面中单击某个手机,就转到单 FrontierScheduler,重写 schedule()方法,只有满足条件 计算机技术与发展 第22卷 的URL才允许加入到等待队列中。扩展新类后,Her-5结束语 rix中扩展的类及主要方法如表2所示 目前,搜索引擎技术越来越受关注,其应用领域也 表2 Heritrix中扩展类及主要方法说明 越来越广。文中所设计的面向北斗手机网的聚焦网络 所属的包 父类 新类 主要方法说明 爬虫的扩展应用,可针对某一特定主题快速搜集数据, extract( crawlURI ce),用来并且该方法具有通用性,易于移植到其他电子商务网 过滤传入的U班地址以及生 站上应用,可为电子商务的数据挖据准备数据源 成某个品牌页面的URI Extractor 139Ertractor line, substring( line. brand'")+6,ine. indexs("参考文献 [1]严莉莉,工倩倩,孟杰,等,基于聚类的个性化元搜索引 schedule( Candidate URI caU 擎设计[J]计算机技术与发展,2007,17(4):186-188 FrontierSched- r),.将满足条件的UH加入2]王刘军姚笑秋基于小型搜索引擎的个性化策略 my proces Frontier ulerForMoble等待队列 研究[J].计算机技术与发展,2007,17(11):36-38 scheduler getController(). getFrontier[3]沈贺丹,潘业楠,邵良杉.关于搜引擎的研究综述[J]计 (. schedule (caUri) 算机技术与发展,2006,16(4):147-149 [4] Pinkerton B. Finding what people want: experiences with the 在 moduls文件夹中的 Processor. options模板文件 web crawler[ C ]// Proceedings of the Second World-Wi 中添加 Moble39 Extractor和 FrontierSchedulerForMo Web Conference. Chicago, Illinois: sn.], 1994 blel39后,再在 Modules页面中心选择my. extractor..[5]Henn官方网站[EB/OL].[201104].hp:/lrar Moble139 Extractor FH my. processor. FrontierScheduler chive. org ForMable39,就可在 Heritrix中实现特定逻辑定制。 6] Guo Q, Guo H, Zhang Z Q, et al. Schema Driven Topic Specif ic Web Crawling[ C]//DASFAA. [s.I.]: [s.n. ], 2005 应用实例 [7]周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用, 2005,25(9):1965-1969 文中采用上述方法设计与实现了基于 Heritrix的(8]唐苏,刘循,基于超链接引导和链接图分析的主题搜 面向特定主题的聚焦爬虫,抓取网页后建立一个镜像 索引擎[计算机技术与发展,2011,21(2):155-158 目录存放某一手机网页的信息。 [9]Dong H, Hussain F K Focused Crawling for Automatic Service 由于HIML中的标签不一定成对出现,Web页而 Discovery, Annotation and Classification in Industrial Digital 中主要部分的格式编排不合理,虽然浏览器也能适应 Ecosystems[ J]. IEEE Trans on Industrial Electronics, 2011 这种不完美且复杂的格式,正确地显示其中的内容,但 58(6):2106-2116 对于用户则很难从中提取数据。文中引入一个开源项10]李刚,伟征服Ajax+Iene构建搜索引擎M]北 目 HTMLParser来解析网页,将所有手机网页下的原始 京:人民邮电出版社,2006 URL地址、手机类型外观设计等描述,以及产品的图1邱哲符滔酒Lene20+ Heritrix开发自己的搜索引擎 LM」.北京:人民邮电出版社,2007 片提取出来,图片文件名是经Hash算法转换后的字符 串,所有图片存在同一个目录下,供用户查询相关产品 [12]杨颂,欧阳柳波基于 Heritrix的面向电子商务网站增量 爬虫研究[J].软件导刊,2010,9(7):38-39 时显示。它与抓取目标的描述、抓取目标的分析、用户[13]杨定中,赵刚,王泰网络爬虫在Web信息搜索与数 的查询方式相联系,尽快地发现用户感兴趣的资源,提 据挖掘中的应用[J].计算机工程与设计,2009,30(24) 高Web信息挖掘的效率1。 56585662 蛛“““·““+““…·““””+··“+“+“ (上接第64页) environments[J]. TTSAP, 1999, 1(7): 55-58 工业出版社,2000 [3] Ghitza0. Auditory models and human performance in tasks[8]梁五洲抗噪语音识别特征提取算法的研究[D].太原:太 related to speech coding and speech recognition[ J ]. IRSAP 原理工大学,2006. 1994,1(2):113-131 [9]赵力语音信号处理[M].北京:机械信号处理出版社 [4]李霄寒戴蓓倩,方绍武高阶MC的话者识别性能及其 2003 噪声鲁棒性[]信号处理,2001,17(2):l24-129 [10]刘雅琴,智爱娟几种语音识别特征参数的研究[J].计算 [5] Shaughnessy D. Speech Communication[ M]. Reading, MA 机技术与发展,2009,19(12):67-70. Addision Wesley, 1987: 150-1 [11]沈江峰8kbiv/s低延迟语音编码算法研究[D]太原:太原 [6郝静基于粒计算的语音实时分段算法[D]太原:太原 理工大学,2007 理工大学,2008 [12]杨海.感知语音质量评价PESQ及其在通信系统中的应 7]张刚,张雪英,马建芬.语音处理与编码[M].北京:兵器 用[J江西通信科技,2004(2):46-47

...展开详情
试读 4P ​H​e​r​i​t​r​i​x​的​面​向​特​定​主​题​的​聚​焦​爬​虫​研​究
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    ​H​e​r​i​t​r​i​x​的​面​向​特​定​主​题​的​聚​焦​爬​虫​研​究 23积分/C币 立即下载
    1/4
    ​H​e​r​i​t​r​i​x​的​面​向​特​定​主​题​的​聚​焦​爬​虫​研​究第1页
    ​H​e​r​i​t​r​i​x​的​面​向​特​定​主​题​的​聚​焦​爬​虫​研​究第2页

    试读已结束,剩余2页未读...

    23积分/C币 立即下载 >