• SparkSQL的数据结构DataFrame构建方式

    SparkSQL的数据结构DataFrame构建方式

    0
    33
    9KB
    2023-07-04
    5
  • SparkSQL的分布式执行引擎(Spark ThriftServer)

    SparkSQL的分布式执行引擎(Spark ThriftServer)

    0
    51
    32.88MB
    2023-07-03
    5
  • Spark - Resilient Distributed Datasets (RDDs)介绍

    RDD分区调整、聚合函数、关联函数的算子运用

    0
    37
    2KB
    2023-06-24
    5
  • SparkStreaming入门案例

    本文SparkStream从磁盘文件、HDFS、KAFKA获取数据源,以单词频次统计作为入门案例,介绍了SparkStream模块API的使用。同时介绍了SparkStream的特点

    0
    384
    354KB
    2020-06-22
    22
  • SparkSQL入门级教程

    本文讲述了Array、List、Map、本地磁盘文件、HDFS文件转化为DataFrame对象的方法;通过实际操作演示了dataFrame实例方法操作DataFrame对象、SQL语言操作DataFrame对象和ScalaAPI操作DataFrame对象

    0
    456
    576KB
    2020-06-19
    50
  • HABASE概述及安装.docx

    本文概述了hbase的定义、hbase的特点、hbase数据库的优缺点 讲述了hbase数据库在linux上搭建集群的步骤

    0
    191
    279KB
    2020-05-26
    23
  • Flume的channel和sink.docx

    本文讲述了flume中channel和sink简单描述和linux配置 包括:Memory channel、File channel及其它测试阶段的Channel; 及channel通过sink的输出配置Logger Sink、File Roll Sink、HDFS Sink、Avro Sink(多级流动、扇入流动、扇出流动); 及Source端增加的一些选择器、拦截器:多路复用/路由器Selector、timestamp拦截器、Serach And Replace Interceptor、Regex Filter Interceptor、Regex Extractor Interceptor、Host Interceptor、Static Interceptor、UUID Interceptor; 最后讲述了一个channel通过负载均衡机制,匹配多个sink中个一个输出

    0
    202
    1.01MB
    2020-05-16
    9
  • Flume.docx

    本文章讲述日志收集框架-Flume中的Agent组件的三部分Source、channel、sink; linux中angent组件的配置,启动命令及测试结果;flume-source中不符合场景的source自定义实现

    0
    89
    884KB
    2020-05-13
    5
  • 笔耕不辍

    累计2年每年原创文章数量>=20篇
  • 勤写标兵

    授予累计1周发布3篇原创IT博文的用户
  • 话题达人

    2≤参与话题个数<4
  • 阅读者勋章

    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持续创作

    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 分享达人

    成功上传6个资源即可获取
  • 创作能手

    授予每个自然周发布7篇到8篇原创IT博文的用户
  • 签到新秀

    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 分享小兵

    成功上传3个资源即可获取
  • 原力新人

    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 分享学徒

    成功上传1个资源即可获取
  • 新人勋章

    用户发布第一条blink获赞超过3个即可获得
关注 私信
上传资源赚积分or赚钱