VIP会员
作者:CSDN
出版社:CSDN《程序员》
ISBN:1111111111117
VIP会员免费
(仅需0.8元/天)
¥ 40000.0
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
Hadoop实战中文版.pdf 评分:
Hadoop 是一个开源的MapReduce 平台,设计运行在大型分布式集群环境中,为开发者进行数据存储、管理以及分析提供便利的方法。《Hadoop硬实战》详细讲解了Hadoop 和MapReduce 的基本概念,并收集了85 个问题及其解决方案。在关键问题领域对基础概念和实战方法做了权衡。 《Hadoop硬实战》适合使用Hadoop 进行数据存储、管理和分析的技术人员使用。
上传时间:2015-12 大小:49.16MB
- 38.17MB
hadoop 实战 中文版
2011-12-13hadoop 实战 中文版 hadoop Action
- 39.80MB
hadoop 实战 中文
2013-03-11hadoop 权威实战指南 中文 讲解hadoop相关应用
- 33.73MB
hadoop中文实战
2014-08-16hadoop中文实战,一本学习hadoop的入门级教程。
- 28KB
hadoop中文文档
2012-03-14hadoop 中文文档index Prefetch chain 预处理链 Pre selector Precondition Enforcer Fetch chain 提取链 Fetch DNS Fetch Http Extractor chain抽取链 Extractor HTML Extractor JS Write Chain 写链 ARC Writer Processor Post process Chain Crawl State Updater Post selector 范围部件,边界部件,处理器链 预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。 提取链:主要是获得资源,进行DNS转换,填写请求和响应表单 抽取链:当提取完成时,抽取感兴趣的HTML,JavaScript,通常那里有新的也适合的URI,此时URI仅仅被发现,不会被评估 写链:存储爬行结果,返回内容和抽取特性,过滤完存储。 提交链:做最后的维护,例如,测试那些不在范围内的,提交给边界部件 1. Pre fetch Chain 预处理链。 1.1 precondition Enforcer: 预处理。Enforcer 处理。确定、提供捉取所需要的基本信息。 例如:查询、请求一个DNS,或者是 请求、分析一个robots.txt文件。--这些都是在进行下一步之前所要做的事情。 1.2 Pre selector :预选择器。查看爬虫的域,看是否这个URL已经被处理(捉取)过了。如果被捉取过了,那么就把这个URL的状态置为 OUT_OF_SCOPE (超出了域的范围),并且直接跳到 post processor(后处理),更新该爬虫的信息。 1.3 Quota Enforcer :限额处理。这是一个简单的配额处理器。检查主机、服务器、边界组 和现在的捉取URL已经超过了配额的话,阻塞正在处理的URL,并且该URL的状态设置为 S_BLOCKED_BY_QUOTA。 1.4 Runtime Limit Enforcer :持续时间限制处理。这是在爬虫程序中的时限控制处理器。 这个处理器是扩展和提高Heritrix 长时间运行能力所必不可少的一个类。设置允许的最大允许时间,如果对一个URL的处理超过了这个最大的时间,那么处理器可以停止或暂停这个URL的处理。 1.4.1 暂停工作-暂停爬虫。一个修改(增加)持续时间可以重新恢复爬虫的工作。如果试图恢复爬虫的运行,而不修改运行允许的持续时间的话,爬虫会再次被停止。 1.5 Runtime Limit Enforcer . Operation:状态变量枚举。包含处理状态的常量。暂停、停止、阻塞。 2. Fetch Chain 捉取处理链。 2.1 Fetch DNS :捉取DNS。处理器去分析 和处理以dns:开始的URL. 2.2 Fetch HTTP :捉取HTTP。使用了Apache 的 HttpClient类库。处理以http:开头的URL。 2.3 Fetch FTP : 捉取FTP。捉取FTP的目录和文档,远程的FTP服务器必须支持 NLIST 命令。现在大多数的FTP服务器支持。 2.4 Fetch Stats :捉取的主机、端口、或者是边检组的一个统计。 2.5 BDB Cookie Storage :缓存器。使用BDB嵌入数据库引擎实现的缓存器,存储容量大。 2.6 Default Server Cache :服务器默认缓存器。 2.7 Heritrix Http Method Retry Handler : http 方法重请求帮助类。 2.8 Heritrix Protocol Socket Factory : Hreitrix的标准协议端口工厂。 2.9 Heritrix SSL Protocol Socket Factory :heritrix的SSL 协议端口工厂。 2.10 Simple Cookie Storage : 简单缓存存储器。 3. Extractor Chain 链接提取处理链。 3.1 Extractor 处理捉取的URL链接,这个类提供错误帮助当分析文档内容的时候。当然可以用它的子类 ContentExtactor 来替代。 3.2 Extractor HTML 从HTML 内容里提取链接。 3.3 Extractor CSS 从 CSS 里面提取链接。 3.4 Extractor JS 从 JS 里面提取链接。 3.5 Extractor PDF 从 PDF里面提起链接。 3.6 Extractor SWF 从 Flash里面提取链接。 3.7 Extractor Universal 最后一个链接提取器,通过提取任何看起来像链接的。如果使用的话,那么一般把它放在链接提取链的最后一个。 3.8 Extractor URI 从URI 里面提取链接。如果该URI中含有其他链接的话。 3.9 Extractor XML 从XML里面提取 链接。 3.10 Link Context 链接字典的内容。 4. Write Chain 写处理链。 4.1 ARC Writer Processor 这是一个把捉取到的结果进行写写的处理,存储为 ARC(网络档案文件格式)的文档。每个 Heritrix实例只有一个这样的些处理线程在运行。 4.2 Default Metadata Provider 一个合适爬虫元数据的标准集。 4.3 Mirror Writer Processor 镜像 写处理。把捉取到的结果以镜像的形式存储。 4.4 Writer Pool Processor 写处理池。这是一个虚拟的文件池处理的实现。是ARC Writer Processor的父类。 5. Post Process Chain 后处理链。 5.1 Crawl State Updater :爬虫状态更新程序。 这是在处理了一个URL后的一步,用来更新已经被处理的URL的信息。这些信息包括IP、robots等信息。 5.2 Frontier Scheduler :定制边界URL的查询调度表。增加想要的或者是链接到其他地的链接。 5.3 Links Scope r 链接范围。确定哪个链接在范围内。把链接转换成Crawl URL类型,然后去查看该Crawl URL是不是在范围内。 5.4 Low Disk Pause Processor 当系统的磁盘很少了的时候,暂停处理。 5.5 Supplementary Links Scope r 做完普通的处理后再追加一些补充的处理的类。 5. Frontier 边界,下一个URL决定器。 5.1 Adaptive Revisit Frontier 重新检索边界程序。这是一个重复访问指定URL的边界程序。等待时间是可以设置的。 5.2 Adaptive Revisit Host Queue 是Crawl URL的一个主要的队列,每个队列应该代表一个主机(虽然这不是必须的)。 5.3 Adaptive Revisit Queue List 管理着Adaptive Revisit Host Queue 组成的列表。 5.4 BDB Frontier BDB数据库边界。使用 Berkeley DB 来维护自己知道的主机。 5.5 BDB Multiple Work Queues 是一个用嵌入式数据库实现的。 5.6 BDB Work Queue 一个独立的,有着相同class Key的列表。 6. Toe Pool 线程池。 6.1 Toe Pool 是一个Toe Thread线程池。 6.2 Toe Thread 是一个线程。 7 Crawl Controller Implement 主控制程序。 该类集合了所有的类,它可以协调执行爬虫和提供高水平的界面给运行的爬虫。
- 58.32MB
实战hadoop
2016-01-04《实战Hadoop:开启通向云计算的捷径》讲述了:作为谷歌云计算基础架构的模仿实现,Hadoop堪称业界最经典的开源云计算平台软件。《实战Hadoop:开启通向云计算的捷径》是原著的Hadoop编程技术书籍,是云计算专家刘鹏教授继《云计算》教材取得成功后,再次组织团队精心编写的又一力作,其作者均来自拥有丰富实践经验的云计算技术研发和教学团队。, 该书强调动手、强调实战,以风趣幽默的语言和一系列生动的实战应用案例,系统地讲授了Hadoop的核心技术和扩展技术,包括: HDFS、MapReduce、HBase、Hive、Pig、Cassandra、Chukwa和ZooKeeper等,并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。, 《实战Hadoop:开启通向云计算的捷径》读者对象为各类云计算相关企业、高校和科研机构的研发人员,亦适合作为高校研究生和本科生教材。
- 20.34MB
Hbase实战中文版.pdf
2017-06-22大数据 hbase hadoop
- 94.35MB
Hadoop权威指南(中文版).pdf
2014-02-27四、Hadoop实战 1. 数据加载:通过Hadoop的工具如Hadoop Streaming或自定义Mapper/Reducer,将数据导入HDFS。 2. 数据处理:利用MapReduce编写程序,处理HDFS上的数据,例如数据分析、挖掘、清洗等。 3. 数据查询...
- 8.97MB
hadoop权威指南第四版高清 pdf下载
2017-11-18《Hadoop权威指南》第四版的高清PDF版本提供了一个方便的学习资源,使得读者可以在不购买实体书的情况下,依然能够清晰地阅读和学习。然而,值得注意的是,尽管电子版方便,但理解Hadoop这样的复杂技术体系仍需要...
- 79.1MB
Hadoop资料
2012-03-29Hadoop FAQ.doc ...hadoop权威指南_中文版_带目录索引.pdf Hadoop权威指南_原版.pdf Hadoop权威资料 源代码.rar Hadoop源代码eclipse编译教程.pdf HBase:权威指南.docx HDFS.ppt 11 个文件 86,726,174 字节
- 49.16MB
实战Hadoop
2014-05-06本书是学习Hadoop技术的很好的书籍,简单易懂,里面有简单的例子
- 5.16MB
hadoop 实战
2011-11-24hadoop 实战 pdf
- 199.43MB
Hadoop权威指南(第4版)(修订版) 中英文PDF(含源码)
2019-01-07这些示例涵盖了Hadoop的各种应用场景,如数据处理、数据分析和实时流处理等,是学习Hadoop实战技能的重要资源。 通过这本书,读者不仅可以掌握Hadoop的基本操作,还能了解到Hadoop生态系统中的其他重要组件,如Hive...
- 8.59MB
Hadoop权威指南(第四版)-书签文字版.pdf
2018-11-07总之,《Hadoop权威指南》第四版是学习和掌握Hadoop不可或缺的参考资料,它覆盖了Hadoop的各个方面,从基础概念到高级应用,再到集群管理和实战经验,对于想要投身大数据领域的专业人士来说,是一本非常实用的宝典。
- 53.27MB
hadoop权威指南第三版 中文 pdf
2018-04-18最后,书中的“Hadoop权威指南3-书签-中文.pdf”可能包含了一些书签或注释,这些是读者在阅读过程中为了方便回顾和查找关键内容而添加的,可以帮助快速定位到特定知识点。 总的来说,《Hadoop权威指南》第三版是一...
- 1.86MB
Hadoop官方中文文档
2018-08-29Hadoop官方文档,中文手册,介绍Hadoop快速入门,集群搭建,HDFS架构设计、使用、权限、配额管理等,
- 975KB
hadoop实战教程.doc
2023-06-02保姆级Hadoop实战教程,手把手教您从入门到安装,从使用到开发,以及命令,部署,源码分析,图文并茂。适合新手朋友学习,也适合老司机参考。
- 37.72MB
hadoop学习实战
2018-05-10主要从基础讲述hadoop,比较容易入手,通过很多实例帮助理解和学习,对于初学者来说一本很好的自学书籍
- 53.92MB
《Hadoop+实战》
2019-04-13高清电子书hadoop
- 108.78MB
Hadoop权威指南 中文PDF扫描版
2018-03-15Hadoop权威指南 中文PDF扫描版[108MB]
- 2.65MB
Hadoop介绍及实战
2013-03-08Hadoop介绍及实战
- 49.31MB
Hadoop 高清完整中文PDF下载
2018-02-27Hadoop 高清完整中文PDF下载 Hadoop 高清完整中文PDF下载
- 1.85MB
Hadoop2.7.1中文文档
2018-10-26Hadoop2.7.1中文文档
- 448KB
分布式计算开源框架hadoop入门实践 高清完整中文版PDF下载
2018-02-26分布式计算开源框架hadoop入门实践 高清完整中文版PDF下载
- 6.39MB
一个基于hadoop的大数据实战.zip
2024-03-13人工智能-hadoop