• MYSQL索引知识

    想要了解mysql数据库索引的知识的道友们,可以看一下相关文档!

    0
    196
    346KB
    2018-12-07
    18
  • spark基本架构及原理

    大数据中spark的基本架构和原理,有需要的可以下载看一下!

    0
    1178
    1.21MB
    2018-12-02
    50
  • 人事面试题

    针对于互联网行业的人力资源的最新面试题目,可以借鉴一下!

    0
    137
    25KB
    2018-12-02
    26
  • spark入门学习基础知识

    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

    0
    179
    16KB
    2018-10-17
    29
  • es入门学习

    elasticsearch的框架,同样是以lucene为基础,并且吸收了前两代的教训而开发出的分布式多用户能力的全文搜索引擎,并且elasticsearch是基于RESTful web接口进行发布的,那么这就意味着,我们开发人员操作起来更方便快捷;同时es拓展节点方便,可用于存储和检索海量数据,接近实时搜索能力,自动发现节点、副本机制保障可用性

    0
    192
    105KB
    2018-10-15
    23
  • 大数据知识脉络总结

    分布式计算框架 编程模型 InputFormat Map 输入:偏移量、一行数据 输出:Text,Text 自定义对象 shuffle 数据从map端拉取 归并(汇总) 排序 Reduce 输入:Text,list<Text> 输出:Text,Text OutputForamt 特殊组件 partitioner 数据分区 key.hashcode % reduceTaskNum combiner 本地reduce,在map阶段运行 看情况使用 排序&TopN; 共同好友计算 分布式资源调度框架 架构 原理 分配流程

    0
    102
    4.33MB
    2018-10-14
    10
  • 140套简历模板

    实时了解行业的变化,跟踪客户的详细数据,为客户制定更完善的投放计划(合作过珍爱网、世纪佳缘、56视频、京东等客户) 2010.03-2012.03 杭州市泽熙信息科技有限公司 软件工程师 负责公司业务系统的设计及改进,参与公司网上商城系统产品功能设计及实施工作。 负责客户调研、客户需求分析、方案写作等工作, 参与公司多个大型电子商务项目的策划工作,担任大商集团网上商城一期建设项目经理。

    0
    145
    49.56MB
    2018-10-14
    9
  • JVM调优文档知识点总结

    JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机是实现这一特点的关键。一般的高级语言如果要在不同的平台上运行,至少需要编译成不同的目标代码。而引入Java语言虚拟机后,Java语言在不同平台上运行时不需要重新编译。Java语言使用Java虚拟机屏蔽了与具体平台相关的信息,使得Java语言编译程序只需生成在Java虚拟机上运行的目标代码(字节码),就可以在多种平台上不加修改地运行。Java虚拟机在执行字节码时,把字节码解释成具体平台上的机器指令执行。这就是Java的能够“一次编译,到处运行”的原因。

    0
    107
    1.54MB
    2018-10-13
    10
  • 大数据面试宝典

    第一章 分布式计算框架与资源调度 6 1.1 分布式计算框架 6 1.1.1 编程模型 6 1.1.2 特殊的组件partitioner与combiner 11 1.1.3 用mr进行数据的排序,然后求出topN 14 1.1.4 MapReduce 求两个人的共同好友算法 17 1.2 分布式资源调度框架 21 1.2.1 yarn的概念 21 1.2.2 yarn的架构 22 1.2.3 yarn的工作流程 22 1.2.4 yarn的调度器 Scheduler 24 1.3 分布式文件存储系统 26 1.3.1 架构 26 1.3.2 原理 27 1.3.3 API 30 1.4 项目 45 1.4.1 点击流日志模型 45 1.4.2 推荐系统项目 54 1.5 相关面试题 57 第2章 数据分析及其步骤 59 2.1 数据分析定义 59 2.2 数据分析的作用 59 2.2.1 现状分析 59 2.2.2 原因分析 60 2.2.3 预测分析 60 2.3 数据分析基本步骤(重点) 60 2.3.1 明确分析目的和思路 61 2.3.2 数据收集 65 2.3.3 数据处理 66 2.3.4 数据分析 66 2.3.5 数据展现(数据可视化) 67 2.3.6 报告撰写 67 2.4 行业前景 68 2.4.1 蓬勃发展的趋势 68 2.4.2 数据分析师的职业要求 69 2.5 大数据时代 70 2.5.1 大数据的含义 70 2.5.2 产生背景 70 2.5.3 影响 71 2.5.4 特征 73 2.5.5 思维变革 74 2.5.6 第三个思维变革: 74 不是所有的事情都必须知道现象背后的原因,而是要让数据自己“发声”,即不是因果关系,而是相关关系。 74 2.5.7 科技发展带来的挑战 74 2.5.8 分布式系统 75 2.6 面试题: 76 2.6.1 分布式和集群有啥区别呢? 76 2.6.2 集群 负载均衡 分布式 有什么区别? 77 2.6.3 Web流量日志数据自定义采集 78 2.7 Hive 87 2.7.1 Hive的基本简介 87 2.7.2 Hive数仓开发的基本流程。 88 2.7.3 Hive sql 知识点。 90 2.8 Hive面试题 94 2.8.1 Hive常见 94 2.8.2 海量数据处理方法 152 2.9 Hadoop HA 165 2.9.1 知识点 165 2.9.2 上课用图 174 2.9.3 3、 面试题 175 2.10 Hadoop的联邦机制 176 2.10.1 为什么会出现联邦? 176 2.10.2 联邦的实现 176 2.10.3 主要优点: 177 2.10.4 配置: 178 2.10.5 操作 179 2.11 项目 180 2.11.1 点击流日志模型 180 2.11.2 相关面试题 189 2.11.3 推荐系统项目 189 第3章 Storm 192 3.1 架构 193 3.1.1 Nimbus 193 3.1.2 Zookeeper 193 3.1.3 supervisor 193 3.1.4 worker 193 3.2 编程模型 194 3.2.1 Spout 194 3.2.2 Bolt 194 3.2.3 并行度 194 3.2.4 消息不丢失 195 3.3 Storm 物联网wifi项目 195 3.3.1 wifi项目背景 195 3.3.2 2)数据来源(采集) 196 3.3.3 集群规模配置 197 3.3.4 数据处理流程 197 3.3.5 数据计算流程 199 3.4 storm实时看板案例 199 3.4.1 需求分析 199 3.4.2 确定数据源 200 3.4.3 确定采集方案 200 3.4.4 确定存储 201 3.4.5 数据计算 201 3.4.6 展现 201 3.5 storm日志监控告警系统 202 3.5.1 需求分析 202 3.5.2 确定数据源 202 3.5.3 确定采集方案 202 3.5.4 确定存储 203 3.5.5 数据计算 203 3.6 Storm的框架 203 3.7 面试题 204 第4章 Kafka 204 4.1 kafka的介绍 204 4.2 kafka的架构 207 4.3 kafka集群的安装与搭建 210 4.4 kafkfa的原理 213 4.5 kafka的API使用 216 4.6 kafka与其他的整合使用 220 第5章 HBASE数据库 237 5.1 数据库 OLAP、OLTP的介绍和比较 237 5.2 Hbase基础 238 什么是OLTP 238 5.2.1 hbase数据库介绍 241 5.2.2 hbase集群结构 244 5.2.3 hbase集群搭建 (简易步骤) 245 5.2.4 命令行演示 245 5.2.5 hbase代码开发(基本,过滤器查询) 246 5.2.6 hbase内部原理 247 5.2.7 物理存储 249 5.2.8 寻址机制 253 5.2.9 读写过程 254 5.2.10 Region管理 256 5.2.11 Master工作机制 257 5.2.12 HBase容错性 257 5.3 Hbase高级应用 258 5.3.1 建表高级属性 258 5.3.2 HBase的设计原则 260 5.3.3 rowkey长度原则 260 5.3.4 什么是热点 261 1)加盐 261 2)哈希 262 3)反转 262 4)时间戳反转 262 5.4 HBase性能优化完全版 263 5.4.1 垃圾回收优化 263 5.4.2 启用压缩,详情自行搜索,暂时未曾尝试,后面持续更新。 264 5.4.3 优化Region拆分合并以及与拆分Region 264 5.4.4 4.客户端入库调优 265 5.4.5 HBase配置文件 266 5.4.6 HDFS优化部分 270 5.5 大数据Hbase 面试题 271 第6章 spark 277 6.1 什么是Spark 277 6.1.1 Spark的特点及相对于MapReduce的优势 277 6.1.2 Spark HA高可用部署 279 6.1.3 Spark的角色 280 6.1.4 Spark程序提交任务模式 281 6.1.5 Spark-Shell 282 6.1.6 在IDEA中编写WordCount程序 283 6.2 Spark Streaming 283 6.2.1 Spark Streming的特性 283 6.2.2 Spark Streaming 对比 Storm 283 6.3 算子操作 283 6.3.1 Transformations 283 6.3.2 OutputOperations 285 6.3.3 Spark Streming编程实战 286 6.3.4 SparkStreaming整合flume 286 6.3.5 SparkStreaming整合Kafka 286 6.3.6 Checkpoint 287 6.4 Spark SQL 288 6.4.1 几个知识点 288 6.4.2 002 以编程方式执行Spark SQL查询 289 6.4.3 JDBC数据源 291 6.5 SparkRDD 291 6.5.1 了解SparkRDD 291 1)什么是RDD 291 2)RDD的属性 292 3.为什么会产生RDD? 293 4) RDD在Spark中的地位及作用 293 6.5.2 创建RDD 294 6.5.3 RDD编程API 295 6.5.4 RDD常用的算子操作 297 6.5.5 RDD的依赖关系 300 6.5.6 RDD的缓存 301 6.5.7 DAG的生成 302 6.5.8 Spark任务调度 303 6.6 RDD容错机制之checkpoint 305 6.6.1 checkpoint是什么 305 6.6.2 checkpoint原理机制 305 6.6.3 Checkpoint常见面试问题 312 6.7 Spark运行架构 316 6.7.1 Spark运行基本流程 316 6.7.2 Spark运行架构特点 317 6.8 开发调优 323 6.8.1 调优概述 323 6.8.2 原则一:避免创建重复的RDD 323 6.8.3 原则二:尽可能复用同一个RDD 324 6.8.4 原则三:对多次使用的RDD进行持久化 325 6.8.5 原则四:尽量避免使用shuffle类算子 327 6.8.6 原则五:使用map-side预聚合的shuffle操作 328 6.8.7 原则六:使用高性能的算子 330 6.8.8 原则七:广播大变量 331 6.8.9 原则八:使用Kryo优化序列化性能 332 6.8.10 原则九:优化数据结构 332 6.9 资源调优 333 6.9.1 调优概述 333 6.9.2 资源参数调优 335 6.9.3 资源参数参考示例 339 6.10 数据倾斜调优 340 6.10.1 调优概述 340 6.10.2 数据倾斜发生时的现象 340 6.10.3 数据倾斜发生的原理 340 6.10.4 如何定位导致数据倾斜的代码 341 6.10.5 查看导致数据倾斜的key的数据分布情况 344 6.10.6 数据倾斜的解决方案 345 6.11 shuffle调优 358 6.11.1 调优概述 358 6.11.2 ShuffleManager发展概述 358 6.11.3 HashShuffleManager运行原理 358 6.11.4 SortShuffleManager运行原理 360 6.11.5 shuffle相关参数调优 362 6.12 Spark面试题汇总 365 1. spark中的RDD是什么,有哪些特性 366 2. 概述一下spark中的常用算子区别(map、mapPartitions、foreach、foreachPartition) 366 3. 谈谈spark中的宽窄依赖 366 4. spark中如何划分stage 367 5. spark-submit的时候如何引入外部jar包 367 6. spark 如何防止内存溢出 367 7. spark中cache和persist的区别 368 8. 简要描述Spark分布式集群搭建的步骤 368 9. spark中的数据倾斜的现象、原因、后果 368 10. 如何解决spark中的数据倾斜问题 369 11. flume整合sparkStreaming问题 370 12. kafka整合sparkStreaming问题 372 6.12.1 ----简答题 ---- 网上资料 --- 374 6.12.2 -------Spark on Yarn面试篇 379 6.12.3 -------spark sql 面试篇 383 6.12.4 ----选择题 --- 383 6.12.5 补充资料: (spark 集群standalone + spark on yarn) 385

    0
    0
    15.45MB
    2018-10-13
    13
  • 大数据知识总结

    分布式—>表示自己是分布式的; 协调服务软件—>表示该Zookeeper的作用是辅助其他集群(依靠小文件系统保证集群数据的一致性 依靠选举机制,辅助其他软件构建软件集群) Zookeeper本质是一个分布式的小文件存储系统,提供类似于目录树的数据存储结构。其中目录树的每一个节点既可以作为文件夹,又可作为文件存储小数据。每个节点默认最大存储1M数据

    0
    172
    1.73MB
    2018-10-13
    31
  • 笔耕不辍

    累计1年每年原创文章数量>=20篇
  • 分享精英

    成功上传11个资源即可获取
  • 持续创作

    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
关注 私信
上传资源赚积分or赚钱