• Spark2.0新特性

    * 通过whole-stage code generation(全流程代码生成)技术将spark sql和dataset的性能提升2~10倍 * 通过vectorization(向量化)技术提升parquet文件的扫描吞吐量 * 提升orc文件的读写性能 * 提升catalyst查询优化器的性能 * 通过native实现方式提升窗口函数的性能 * 对某些数据源进行自动文件合并

    0
    211
    259KB
    2018-12-19
    41
  • Spark的shuffle调优

    spark.reducer.maxSizeInFlight 48m reduce task的buffer缓冲,代表了每个reduce task每次能够拉取的map side数据最大大小,如果内存充足,可以考虑加大,从而减少网络传输次数,提升性能 spark.shuffle.blockTransferService netty shuffle过程中,传输数据的方式,两种选项,netty或nio,spark 1.2开始,默认就是netty,比较简单而且性能较高,spark 1.5开始nio就是过期的了,而且spark 1.6中会去除掉 spark.shuffle.compress true 是否对map side输出的文件进行压缩,默认是启用压缩的,压缩器是由spark.io.compression.codec属性指定的,默认是snappy压缩器,该压缩器强调的是压缩速度,而不是压缩率

    0
    1271
    50KB
    2018-12-19
    47
  • sqoop-1.4.6-cdh5.13.2.tar

    sqoopCDH版本 1、sqoop的解压并配置环境变量: tar -zxvf /bigdata/sqoop-1.4.6-cdh5.13.2.tar.gz -C /usr/local 配置环境变量: vi /etc/profile export SQOOP_HOME=/usr/local/sqoop-1.4.6-cdh5.13.2 export PATH=$PATH:$SQOOP_HOME/bin: 重新加载环境变量: source /etc/profile which sqoop 2、配置sqoop的环境配置文件: mv /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.template.sh /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.sh vi /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.sh export HADOOP_COMMON_HOME=/usr/local/hadoop-2.6.0-cdh5.13.2 export HADOOP_MAPRED_HOME=/usr/local/hadoop-2.6.0-cdh5.13.2 export HBASE_HOME=/usr/local/hbase-1.2.0-cdh5.13.2 export HIVE_HOME=/usr/local/hive-1.1.0-cdh5.13.2 #export ZOOCFGDIR= 3、将mysql的驱动包copy到sqoop目录中的lib目录下: cp /bigdata/mysql-connector-java-5.1.32.jar /usr/local/sqoop-1.4.6-cdh5.13.2/lib 4、测试 sqoop version

    0
    340
    29.28MB
    2018-12-19
    9
  • flume-ng-1.6.0-cdh5.13.2

    CDH版本的flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。

    0
    171
    65.46MB
    2018-12-19
    10
  • JDBC常用连接池 c3p0 BDCP Druid

    开发时常用的连接池jar包 C3P0是一个开放源代码的JDBC连接池,它在lib目录中与Hibernate一起发布,包括了实现jdbc3和jdbc2扩展规范说明的Connection 和Statement 池的DataSources 对象 DBCP (Database Connection Pool)是一个依赖Jakarta commons-pool对象池机制的数据库连接池,Tomcat的数据源使用的就是DBCP。目前 DBCP 有两个版本分别是 1.3 和 1.4。1.3 版本对应的是 JDK 1.4-1.5 和 JDBC 3,而1.4 版本对应 JDK 1.6 和 JDBC 4。因此在选择版本的时候要看看你用的是什么 JDK 版本了,功能上倒是没有什么区别 还有阿里的Druid

    0
    306
    2.99MB
    2018-12-19
    10
关注 私信
上传资源赚积分or赚钱