SparkSQL的数据结构DataFrame构建方式
SparkSQL的数据结构DataFrame构建方式
本文SparkStream从磁盘文件、HDFS、KAFKA获取数据源,以单词频次统计作为入门案例,介绍了SparkStream模块API的使用。同时介绍了SparkStream的特点
本文讲述了Array、List、Map、本地磁盘文件、HDFS文件转化为DataFrame对象的方法;通过实际操作演示了dataFrame实例方法操作DataFrame对象、SQL语言操作DataFrame对象和ScalaAPI操作DataFrame对象
本文概述了hbase的定义、hbase的特点、hbase数据库的优缺点 讲述了hbase数据库在linux上搭建集群的步骤
本文讲述了flume中channel和sink简单描述和linux配置 包括:Memory channel、File channel及其它测试阶段的Channel; 及channel通过sink的输出配置Logger Sink、File Roll Sink、HDFS Sink、Avro Sink(多级流动、扇入流动、扇出流动); 及Source端增加的一些选择器、拦截器:多路复用/路由器Selector、timestamp拦截器、Serach And Replace Interceptor、Regex Filter Interceptor、Regex Extractor Interceptor、Host Interceptor、Static Interceptor、UUID Interceptor; 最后讲述了一个channel通过负载均衡机制,匹配多个sink中个一个输出
本文章讲述日志收集框架-Flume中的Agent组件的三部分Source、channel、sink; linux中angent组件的配置,启动命令及测试结果;flume-source中不符合场景的source自定义实现
笔耕不辍
勤写标兵
话题达人
阅读者勋章
持续创作
分享达人
创作能手
签到新秀
分享小兵
原力新人
分享学徒
新人勋章