一步一步跟我学习hadoop(6)----hadoop利用FileSystem API 执行hadoop文件读写操作

-
hadoop filesystem api常见使用说明
spark newAPIHadoopFile问题_course
2017-06-05使用newAPIHadoopFile时候,不像hadoopFile方法那样可以传numPartition,请问怎么才能设置newAPIHadoopFile生成的rdd的分区数,请大神指教
一步一步跟我学习hadoop(6)----hadoop利用FileSystem API 执行hadoop文件读写操作下载_course
2020-08-08hadoop filesystem api常见使用说明 相关下载链接://download.csdn.net/download/wuyinggui10000/8954567?utm_source=bb
spark 中 textFile 、hadoopFile、newAPIHadoopFile等 有什么区别啊?_course
2017-08-30spark中 文件读取有多种,但是不知道他们的区别是什么? sc.textFile 、hadoopFile、newAPIHadoopFile、newAPIHadoopRDD、sequenceFile、
Spark使用 saveAsNewAPIHadoopFile 通过Bulkload写Hbase错误 _course
2017-10-11异常: Caused by: java.lang.ClassCastException: org.apache.hadoop.hbase.client.Put cannot be cast to org.apache.hadoop.hbase.Cell at org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2$1.write(HFileOutputFormat2.java:152) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply$mcV$sp(PairRDDFunctions.scala:1125) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply(PairRDDFunctions.scala:1123) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply(PairRDDFunctions.scala:1123) at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1341) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1131) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1102) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) at org.apache.spark.scheduler.Task.run(Task.scala:99) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:282) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) 核心代码: Configuration conf = HBaseConfiguration.create(); conf.set(TableOutputFormat.OUTPUT_TABLE, "wwtest"); conf.set(ConfigUtils.getHbaseZK()._1(), ConfigUtils.getHbaseZK()._2()); conf.set(ConfigUtils.getHbaseZKPort()._1(), ConfigUtils.getHbaseZKPort()._2()); Job job = Job.getInstance(); job.setMapOutputKeyClass(ImmutableBytesWritable.class); job.setMapOutputValueClass(Put.class); job.setOutputFormatClass(HFileOutputFormat2.class); Connection conn = ConnectionFactory.createConnection(conf); TableName tableName = TableName.valueOf("wwtest"); HRegionLocator regionLocator = new HRegionLocator(tableName, (ClusterConnection) conn); Table realTable = ((ClusterConnection) conn).getTable(tableName); HFileOutputFormat2.configureIncrementalLoad(job, realTable, regionLocator); SparkSession spark = SparkUtils.initSparkSessionESConf(HbaseBulkLoad.class.getName(), "local[3]"); JavaSparkContext javaSparkContext = new JavaSparkContext(spark.sparkContext()); ArrayList<Integer> integers = new ArrayList<>(); integers.add(1); integers.add(2); integers.add(3); JavaRDD<Integer> parallelize = javaSparkContext.parallelize(integers); JavaPairRDD<ImmutableBytesWritable, Put> mapToPair = parallelize.mapToPair(new PairFunction<Integer, ImmutableBytesWritable, Put>() { @Override public Tuple2<ImmutableBytesWritable, Put> call(Integer integer) throws Exception { /*KeyValue kv = new KeyValue(Bytes.toBytes(integer), "cf".getBytes(), "c1".getBytes(), Bytes.toBytes(integer));*/ Put put = new Put(Bytes.toBytes(integer)); /*put.addColumn("info".getBytes(), "c1".getBytes(), Bytes.toBytes(integer));*/ put.add(new KeyValue(Bytes.toBytes(integer), "cf".getBytes(), "c1".getBytes(), Bytes.toBytes(integer))); /*put.addImmutable("info".getBytes(), "c1".getBytes(), Bytes.toBytes(integer));*/ return new Tuple2<>(new ImmutableBytesWritable(Bytes.toBytes(integer)), put); } }).sortByKey(); mapToPair.saveAsNewAPIHadoopFile("/tmp/wwtest", ImmutableBytesWritable.class, Put.class, HFileOutputFormat2.class, job.getConfiguration());
hadoop FileSystem 连接hdfs报错:Connection refused_course
2015-08-18public static void main(String args) { // TODO Auto-generated method stub Configuration conf = new
-
学院
第1章 Java入门基础及环境搭建【java编程进阶】
第1章 Java入门基础及环境搭建【java编程进阶】
-
博客
spec文件:%systemd_post()
spec文件:%systemd_post()
-
下载
WeChatSetup.exe
WeChatSetup.exe
-
博客
ios测试重点
ios测试重点
-
博客
凭借1份SpringBoot的文档,征服了阿里、腾讯等一线大厂面试官
凭借1份SpringBoot的文档,征服了阿里、腾讯等一线大厂面试官
-
学院
【数据分析-随到随学】Hive详解
【数据分析-随到随学】Hive详解
-
下载
NI SignalExpress
NI SignalExpress
-
博客
收下了,这份面试文档简直无敌了,带你轻松吊打面试官(附pdf)
收下了,这份面试文档简直无敌了,带你轻松吊打面试官(附pdf)
-
博客
文本超出显示省略号
文本超出显示省略号
-
下载
长江流域码头汇总数据资料
长江流域码头汇总数据资料
-
下载
adc101s021.c C程序
adc101s021.c C程序
-
博客
python根据excle表信息批量生产建表create语句
python根据excle表信息批量生产建表create语句
-
下载
附件2:《孝敬父母有四层境界,你在哪一层?》.pdf
附件2:《孝敬父母有四层境界,你在哪一层?》.pdf
-
下载
Project 2016中文专业版(64位)大客户版 官方原版镜像
Project 2016中文专业版(64位)大客户版 官方原版镜像
-
博客
博客项目实现笔记
博客项目实现笔记
-
学院
彻底学会正则表达式
彻底学会正则表达式
-
博客
导出word乱码问题
导出word乱码问题
-
博客
JUC多线程基础(一)
JUC多线程基础(一)
-
下载
货车规格属性表.xlsx
货车规格属性表.xlsx
-
博客
VHDL的数据对象
VHDL的数据对象
-
下载
基于ABAQUS的切削残余应力仿真说明书.zip
基于ABAQUS的切削残余应力仿真说明书.zip
-
博客
RocketMQ高可用性机制
RocketMQ高可用性机制
-
下载
附件4:《疫情当前:人生有两条“天规”不能触犯,一旦违背,必定灾祸不断》.pdf
附件4:《疫情当前:人生有两条“天规”不能触犯,一旦违背,必定灾祸不断》.pdf
-
博客
vue-cli创建的项目,打包后的文件都是什么
vue-cli创建的项目,打包后的文件都是什么
-
学院
【数据分析-随到随学】数据分析建模和预测
【数据分析-随到随学】数据分析建模和预测
-
博客
数据结构与算法--单链表(Single Linked List)
数据结构与算法--单链表(Single Linked List)
-
学院
(新)备战2021软考网络规划设计师终极解密套餐
(新)备战2021软考网络规划设计师终极解密套餐
-
学院
单片机完全学习课程全五季套餐
单片机完全学习课程全五季套餐
-
学院
易语言开发通达信DLL公式接口
易语言开发通达信DLL公式接口
-
学院
备战2021软考网络规划设计师顺利通关培训套餐
备战2021软考网络规划设计师顺利通关培训套餐