Hadoop_大数据_IT技术下载资源_免费-CSDN开发者文库

综合最新热门
数据分析，数据挖掘，ETL处理工程师等。

        中文官方教程_tableau_prep.pdf
       5 3819浏览
免费
完整版，带书签

        Apache Kylin权威指南pdf 下载
       5 0浏览
免费
《Hadoop实战》

        Hadoop实战
       0 0浏览
免费
阿里大数据之路的自我总结，希望分享给有需要的同学，包含大量自己画的图

        阿里大数据之路——关键总结版.pdf
       0 1211浏览
免费
中台和数据中台的理解，数据中台构建的实践总结，数据资产体系构建是核心。从数据资源到资产到服务，加速业务数据化，数据业务化的价值流转。

        数据中台-分享.pdf
       5 501浏览
免费
分为：应用运维、系统运维、运维开发和监控运维，当然还有DBA团队和安全团队。

        运维架构全览和平台自动化演变
       4 256浏览
免费
偶尔看到的京东大数据产品体系-王威PPT的相关介绍，可以从简单层面了解京东云大数据系统的构建来源 。

        京东大数据产品体系-王威PPT介绍
       0 1483浏览
免费
最好的大数据平台

        一个用户行为分析产品的设计与实现-曹犟
       3 277浏览
免费
数据治理及数据资产化创新实践-京东

        数据治理及数据资产化创新实践-京东.pdf
       0 604浏览
免费
Transwarp Data Hub（简称TDH）是星环信息科技（上海）有限公司研发的企业级大数据平台，经过这些年的快速成长，不断发展成熟，在邮政、交通、金融等行业获得了大量的部署实施经验，同时向新生的大数据技术领域进行积极的拓展和探索。

Transwarp Data Hub主要提供5类核心产品：分析型数据库(Transwarp Inceptor和Transwarp ArgoDB)，实时流计算引擎(Transwarp Slipstream)，知识库(Transwarp Search和Transwarp StellarDB)，操作型数据库(Transwarp Hyperbase)，数据科学平台(Transwarp Discover)。通过部署、安装、使用TDH，企业能够更有效的利用数据构建核心商业系统，加速商业创新。

        Transwarp Data Hub一站式大数据综合平台白皮书5.0.pdf
       0 569浏览
免费
阿里资深专家对于数据中台的介绍与共享，本次分享详细介绍了阿里在数据中台方面的实践经验与发展历程，帮助相关人员能够更快速的搭建数据中台架构

        数据中台-李楠-阿里资深算法专家.pdf
       0 248浏览
免费
Hadoop安全：大数据平台隐私保护

        Hadoop安全：大数据平台隐私保护
       5 0浏览
免费
Vertica的那些事博客整理，对于初学者掌握MPP数据库很有帮助。对于想要学习Vertica是很有用的，笔者曾从Vertica小白一步步走来，现在分享学习经验给大家，想要进一步交流可以在博客联系我。

        Vertica的那些事.pdf
       3 410浏览
免费
最新华为数据湖治理中心-数据治理方法论，供大家学习参考。

        华为数据湖治理中心-数据治理方法论.pdf
       5 993浏览
免费
BCOS 平台白皮书
面向分布式商业的区块链基础设施
工信部牵头发起的中国区块链技
术和产业发展论坛的重要成员单位，BCOS 平台在研发过程中，亦得到
了工信部信软司和中国电子技术标准化研究院专家们的指导和支持。
本白皮书是一次向分布式商业的展望、是一次对区块链技术的致
敬，是对面向未来的分布式商业环境下的公共基础设施治理服务的全
面阐释，并给出了用于企业级的区块链商用平台实现的描述。

        BCOS 平台白皮书-面向分布式商业的区块链基础设施
       5 230浏览
免费
Hadoop实战（第2版）

        Hadoop实战（第2版）
       0 0浏览
免费
14、HDFS 透明加密KMS
网址：https://blog.csdn.net/chenwewi520feng/article/details/130429278
本文旨在简单介绍hdfs的透明加密作用及其使用。
前提依赖：hadoop环境部署好且可用。部署文章可参考本专栏相关文章。
本文分为2部分，即介绍和部署及使用。

        14、HDFS 透明加密KMS
       0 3w+浏览
免费
#大数据标准化白皮书（2018版）编
编写单位：中国电子技术标准化研究院
全国信息技术标准化技术委员会大数据标准工作组

        #大数据标准化白皮书（2018版）编.pdf
       0 337浏览
免费
数仓-词根表-简版V4.0

        数仓-词根表-简版V4.0
       0 144浏览
免费
通过HBase、Hive、MySQL和Python的联合使用，对弹幕数据进行了基础的分析，文章适合大数据的初学者用于提升和进一步系统地认识。

        基于HBase和Hive的芒果TV综艺弹幕数据分析
       0 441浏览
免费
apache calcite论文：A Foundational Framework for Optimized  Qery Processing Over Heterogeneous Data Sources

        apache calcite论文
       0 257浏览
免费
目录：
阿里搜索技术，在Al路上走了多远?
直击阿里新-代数据库技术:如何实现极致弹性能力?
争分夺秒:阿里实时大数据技术全力助战双1 1
阿里小蜜这一年:从点到面的变迁
菜鸟仓配自动化UCS揭秘.
阿里怎么发红包?自研智能权益系统首次公开
2017双11:开启智能全链路压测之路
智能写手:智能文本生成在2017双11的应用
浅谈分布式存储系统Pangu2.0:它让双11运维变得智能起来
双11稳定性负责人叔同讲述:九年双11的云化架构演进和升级
阿里双11网络技术揭秘:百万级物理和虚拟网络设备的智能化之路
从10%到40%:阿里巴巴混部技术权威详解
经历400多天打磨，HSF的架构和性能有哪些新突破?
直击阿里容器技术Pouch
直击阿里双11神秘技术: PB级大规模文件分发系统“ 蜻蜓”
双11万亿流量下的分布式缓存
2017双11交易系统TMF2.0技术揭秘，实现全链路管理
一天造出10亿个淘宝首页，阿里工程师如何实现?
双十一安全技术:目标检测在淘宝直播中的应用
持续迭代下的双11供应链体系最新架构及功能解读
七层流量清洗提供安全防护新方案
2017双11:区块链在天猫国际商品溯源中的应用
直击Weex在优酷双11猫晚直播的应用
如何把范冰冰“送”到你家?双11晚会“逆天”技术首次公开

        阿里_D11互联网技术超级工程 终极版.pdf
       0 209浏览
免费
阿里巴巴-大数据工程师必读手册.pdf

        阿里巴巴-大数据工程师必读手册.pdf
       0 199浏览
免费
[宜信]大数据全流程平台在互联网金融场景下的实现和借鉴意义-侯松.pdf

        [宜信]大数据全流程平台在互联网金融场景下的实现和借鉴意义-侯松.pdf
       0 147浏览
免费
hadoop

        hadoop入门与实践
       0 52浏览
免费
MapReduce 基础及算法设计

        大数据--Hadoop MapReduce
       0 105浏览
免费
Presto is an open source distributed query engine
that supports much of the SQL analytics workload at Facebook.
Presto is designed to be adaptive, flexible, and extensible. It
supports a wide variety of use cases with diverse characteristics.
These range from user-facing reporting applications with subsecond
latency requirements to multi-hour ETL jobs that aggregate
or join terabytes of data. Presto’s Connector API allows
plugins to provide a high performance I/O interface to dozens
of data sources, including Hadoop data warehouses, RDBMSs,
NoSQL systems, and stream processing systems. In this paper, we
outline a selection of use cases that Presto supports at Facebook.
We then describe its architecture and implementation, and call
out features and performance optimizations that enable it to
support these use cases. Finally, we present performance results
that demonstrate the impact of our main design decisions.
Index Terms—SQL, query engine, big data, data warehouse

        Presto_SQL_on_Everything.pdf
       0 170浏览
免费
Flume 构建高可用、可扩展的海量日志采集系统，带有详细目录

        Flume 构建高可用、可扩展的海量日志采集系统
       0 76浏览
免费
简洁明了的大数据简介，让你简单轻松了解大数据，进入大数据的的时代

        大数据简介
       0 48浏览
免费
Hadoop 技术内幕：深入解析Hadoop Common 和 HDFS 架构设计与实现原理

        Hadoop 技术内幕
       0 117浏览
免费
13、HDFS Snapshot快照
网址：https://blog.csdn.net/chenwewi520feng/article/details/130362505
快照（Snapshot）是数据存储的某一时刻的状态记录；与备份不同，备份（Backup）则是数据存储的某一个时刻的副本。
HDFS Snapshot快照是整个文件系统或某个目录在某个时刻的镜像。
该镜像并不会随着源目录的改变而进行动态的更新。

        13、HDFS Snapshot快照
       0 3w+浏览
免费
Hadoop权威指南第四版，原版，高清，不可多得的第一手学习资源。欢迎大家下载。
分数不多，大家支持下。谢谢

        Hadoop权威指南
       0 47浏览
免费
haodop超详细安装教程：包含jdk配置，ssh免密登录以及单机版hadoop安装配置、伪分布式hadoop安装及配置，以及分布式集群安装配置。

        Hadoop单机、伪分布式、分布式集群安装教程
       0 329浏览
免费
Cloudera的学习指导

        Cloudera学习
       0 100浏览
免费
Hadoop 安装

        安装Hadoop详细攻略
       0 68浏览
免费
16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN
网址：https://blog.csdn.net/chenwewi520feng/article/details/130454036
本文介绍MapReduce常见的基本用法。
前提是hadoop环境可正常运行。
本文分为五个部分，即介绍自定义序列化、排序、分区、分组和topN。

        16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN
       0 3w+浏览
免费
安装过程记录

        VMware安装centOS+hadoop
       0 68浏览
免费
大数据期末复习资料

        大数据期末复习资料——
       0 254浏览
免费
数据分享和数据分析驱动方法增长论

        数据分析驱动方法增长论.pdf
       0 42浏览
免费
大数据技术课程的实验报告一，在Linux虚拟机上安装和配置Hadoop，实现伪分布式HDFS，并且测试wordcount实例。

        大数据，Hadoop，CentOS，Linux
       0 67浏览
免费
1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（一）
网址：https://blog.csdn.net/chenwewi520feng/article/details/130465139
本文通过在hdfs中三种不同数据格式文件存储相同数量的数据，通过hive和impala两种客户端查询进行比较。
本文前提：熟悉hadoop、hive和impala、kafka、flink等，并且其环境都可正常使用。（在后续的专栏中都会将对应的内容补全，目前已经完成了zookeeper和hadoop的部分。）
本文分为五个部分，即结论、三种文件介绍、需求、实现步骤、实现和网上别人的结论与验证。

由于本文太长，导致阅读可能比较麻烦，故一篇文章分为两篇，第一篇是准备数据，第二篇是查询比较。本文是第一篇。

本文接1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（二），比较的具体数据在第二篇。
————————————————
版权声明：本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章，遵循CC 4.0 

        1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（一）
       0 3w+浏览
免费
大数据（Big Data）是指规模庞大、复杂度高且难以用传统数据处理方法进行捕捉、管理和处理的数据集合。它通常具有以下三个特征：

数据量大：大数据指的是数据集的规模非常庞大，远远超出了传统数据处理工具的能力范围。这些数据集可能包含数十亿甚至数万亿的记录。

复杂度高：大数据往往包含多种类型和格式的数据，例如结构化数据（如关系型数据库中的数据）、半结构化数据（如XML文件）和非结构化数据（如文本、图像和音频等）。这些数据的复杂性使得处理和分析变得更加困难。

处理速度快：大数据处理要求在短时间内处理和分析大规模的数据。传统的数据处理方法往往无法满足实时或近实时处理的需求。

大数据的出现主要是由于以下几个因素的影响：

数据的爆发性增长：随着互联网的普及和各种传感器、设备的广泛应用，数据的产生和积累呈现爆发式增长的趋势。

新型数据源的涌现：除了传统的结构化数据，越来越多的非结构化和半结构化数据源涌现，例如社交媒体数据、日志文件、传感器数据、地理位置数据等。

技术的进步：大数据处理的技术工具和技术方法得到了快速发展，例如分布式计算、云计算、并行处理、机器学习和人工智能等技术的应用，使得大数据的存储、管理和分析变得可行和高效。

大数据的处理和分析可以带来许多潜在的好处，包括更深入的洞察力、更准确的决策支持、更精细的个性化服务、更高效的资源利用和创新等。在各个领域，如商业、医疗、金融、交通、科学研究等，大数据正发挥着重要的作用，并为我们带来了新的机遇和挑战。

        9种最常用数据分析方法.pdf
       0 156浏览
免费
大数据（Big Data）是指规模庞大、复杂度高且难以用传统数据处理方法进行捕捉、管理和处理的数据集合。它通常具有以下三个特征：

数据量大：大数据指的是数据集的规模非常庞大，远远超出了传统数据处理工具的能力范围。这些数据集可能包含数十亿甚至数万亿的记录。

复杂度高：大数据往往包含多种类型和格式的数据，例如结构化数据（如关系型数据库中的数据）、半结构化数据（如XML文件）和非结构化数据（如文本、图像和音频等）。这些数据的复杂性使得处理和分析变得更加困难。

处理速度快：大数据处理要求在短时间内处理和分析大规模的数据。传统的数据处理方法往往无法满足实时或近实时处理的需求。

大数据的出现主要是由于以下几个因素的影响：

数据的爆发性增长：随着互联网的普及和各种传感器、设备的广泛应用，数据的产生和积累呈现爆发式增长的趋势。

新型数据源的涌现：除了传统的结构化数据，越来越多的非结构化和半结构化数据源涌现，例如社交媒体数据、日志文件、传感器数据、地理位置数据等。

技术的进步：大数据处理的技术工具和技术方法得到了快速发展，例如分布式计算、云计算、并行处理、机器学习和人工智能等技术的应用，使得大数据的存储、管理和分析变得可行和高效。

大数据的处理和分析可以带来许多潜在的好处，包括更深入的洞察力、更准确的决策支持、更精细的个性化服务、更高效的资源利用和创新等。在各个领域，如商业、医疗、金融、交通、科学研究等，大数据正发挥着重要的作用，并为我们带来了新的机遇和挑战。

        7张图总结：SQL 数据分析常用语句.pdf
       0 149浏览
免费
17、MapReduce的分区Partition介绍
网址：https://blog.csdn.net/chenwewi520feng/article/details/130454574
本文介绍MR的分区Partition。
本文分为2个部分，即介绍与示例。
前提依赖：hadoop环境可正常使用。

        17、MapReduce的分区Partition介绍
       0 3w+浏览
免费
ZooKeeper服务器是用Java创建的，它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper是一个分布式协调服务，接下来我会详细介绍大数据中一个重要集群zookeeper的详细安装步骤。

        大数据之zookeeper集群详细安装步骤
       0 105浏览
免费
睿治数据治理平台技术白皮书

        睿治数据治理平台技术白皮书
       0 68浏览
免费
This book is written for anyone who needs to know how to analyze data using Hadoop. It is a good book for both Hadoop beginners and those in need of advancing their Hadoop skills. The author has explored every component of Hadoop. Prior to that, the author helps you understand how to setup Hadoop on your Linux platform. The Hadoop HDFS has been explored in detail. You will know how it manages the data files across different nodes in the cluster. The author helps you familiarize yourself with the various commands that you can use to perform various tasks within the Hadoop system. The author also helps you know how to write MapReduce programs in Java programming language and run them on Hadoop. You will know how to accomplish various tasks of data analysis in Hadoop by writing and running MapReduce programs.

        Hadoop from the beginning: The basics
       0 91浏览
免费
Data Science For Dummies

        Data Science For Dummies
       0 94浏览
免费
Docker进阶与实战

        Docker进阶与实战
       0 0浏览
免费
从Paxos到Zookeeper分布式一致性原理与实践从Paxos到Zookeeper分布式一致性原理与实践

        从Paxos到Zookeeper分布式一致性原理与实践
       0 0浏览
免费
大数据白皮书

        大数据白皮书.pdf
       0 61浏览
免费
REDHAT7.2 安装 CDH5.10 和 Kudu1.2,一步步完全教程，适合新手入门。

        REDHAT7.2 安装 CDH5.10 和 Kudu1.2
       0 129浏览
免费
Linux运维入门Hadoop实验参照手册一（安装VMware与CentOS）

        Linux运维入门Hadoop实验参照手册一（安装VMware与CentOS）
       0 217浏览
免费
Tachyon详细讲解

        Tachyon详细讲解
       0 173浏览
免费
7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法
网址：https://blog.csdn.net/chenwewi520feng/article/details/130337213
本文主要介绍大数据环境中常见的文件存储格式、压缩算法。
本文分为2个部分，即文件存储格式（Text File、Sequence File、Avro File、RCFile、ORC File、Parquet File、Arrow）和压缩算法（snappy、lz4、gzip、lzo）。

        7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法
       0 3w+浏览
免费
市场中第一本Hive图书。, Hive在Hadoop系统中的应用趋势比较可观。

        Hive编程指南
       0 173浏览
免费
本文主要介绍了CDH5的搭建步骤及遇到的问题和解决方案。

        CDH5搭建.pdf
       0 143浏览
免费
Hadoop环境安装设置(最简单的hadoop单机环境部署教程)
安装前设置
SSH设置和密钥生成
安装Java.下载Java (JDK<最新版> - X64 ...
下载Hadoop.下载来自Apache基金会软件，使用下面 ...
Hadoop操作模式
在单机模式下安装Hadoop....
模拟分布式模式安装Hadoop
验证Hadoop安装

        Hadoop环境安装设置(最简单的hadoop单机环境部署教程)
       0 410浏览
免费
hadoop实战pdf电子版

        Hadoop实战中文版
       0 0浏览
免费
Google Marketing Group 的statistician职位面试经验分享

        Google Statistics面经
       0 145浏览
免费

          1
        

          2
        

          3
        

          4
        

          5
        
前往
页