使用PYTHON将PDF的指定页拆分成为一个新的PDF,支持选择PDF文件,输入起始页码和终止页码。
中图分类第五版,包含完整的上下级关系,第一级没在里面,可以自己添加,需要的同学自取,爬了好几天才爬下来的。
spark 的API chm
hadoop备份和恢复的方案,找了好久才下到,有需要的同学自己拿
在现实中如何设计mapreduce算法,也有常用的操作的mapreduce实现
基于YARN来将数据流构建为一个DAG,能够更好地优化程序的执行过程。应该比基于MapReduce引擎的程序效率和通用性都提高了。
Pig用来处理hadoop上非结构化的数据,做ETL什么的还是不错的。新版的Pig是基于tez来构建的。
Hadoop2的资源管理系统。tez、SAPRK都是基于YARN来构建的。
Oozie来调度hadoop上的任务,包括shell、java程序、mapreduce程序、sqoop、pig、hive、spark
Hadoop核心技术第四版,更新了Hadoop2的一些组件,值得一读。
分享宗师
创作能手