电子书推荐
-
Spark-内存管理.pdf 评分:
介绍Spark的内存管理
上传时间:2017-08 大小:487KB
- 3.82MB
Understanding-Memory-Management-In-Spark-For-Fun-And-Profit.pdf
2019-12-24Understanding-Memory-Management-In-Spark-For-Fun-And-Profit.pdf spark内存的设计
- 907KB
大数据-Inceptor技术白皮书.pdf
2022-12-24技术解析 基于Spark的交互式分析引擎技术解析 2014 TRANSWARP 星环科技 Transwarp Inceptor对Spark进行了大量的改进,具有高性能、稳定性好、功能丰富、易管理等特征,可以 切实解决Spark本身存在的难题。...
- 771KB
基于大数据下的spark快速大数据分析.pdf
2022-12-241 Spark 的五大组件 在 spark Core 中实现了 Spark 的一些基础的功 能, 例如进行内存的管理、 进行错误的恢复、 对任务 的调度、 与存储系统进行交互等功能。 它还包含了对 弹性分布式数据集的 API 定义。 Spark ...
- 2.32MB
利用Intel Optane PMEM技术加速大数据分析.pdf
2021-06-24议题介绍:分享如何使用Intel开源项目Optimized Analytics Package (OAP)加速Spark、Flink的性能,介绍现有Spark框架在内存管理、Shuffle实现等层面性能有进一步提升的空间,以及如何更好利用新硬件,比如利用Intel ...
- 704KB
大数据导论:认识大数据.pdf
2022-06-21课程: 大数据导论 课程简介 本课程首先介绍大数据的概念和商业应用,再引导理解大数据存储、处理和管理的技术 架构,浅尝 Hadoop2 生态圈、以及 Spark 框架结构,领略这些流行的框架是如何支持 大数据管理的。...
- 175KB
【容器系统】之大数据容器化-基于Kubernetes构建现代大数据系统.pdf
2022-12-24它的特点是基于内存计算,⽀持各类资源管理平台,其中以YARN最为常 见,同时⼜与Hadoop平台集成,在集群节点以HDFS作为分布式⽂件存储系统。 我们可以先看⼀下搭建⼀个常见的Apache Spark⼤数据平台需要哪些步骤: 1...
- 1.55MB
论文研究-一种Spark环境下的高效率大规模图数据处理机制.pdf
2019-07-22针对现有的图处理和图管理框架存在的效率低下以及数据存储结构等问题,提出了一种适合大规模图数据的处理机制。首先分析了目前的一些图处理模型以及图存储框架的优势与存在的不足。其次,通过对分布式计算的特性分析...
- 18.37MB
InceptorManual_T00147x-03-011_2017-02-22(1)(1).pdf
2019-11-03特性保证数据的准确性,允许多租户的隔离与管理,且能够利用内存或者SSD来加速数据的读取,支持与关系 型数据库实时对接并做统计分析,辅以高性能的SQL执行引擎,为企业提供高性价比和高度可扩展的解决方 案。
- 3.78MB
大数据基础知识入门.pdf
2022-12-24Spark 优点: 运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell 进行交互式编程 通用性:Spark提供了完整而强大的技术
- 516KB
大数据架构师应该做到的.pdf
2022-12-24Sqoop(数据导⼊导出⼯具) 3)Data sclence(数据科学) Spark(内存通⽤并⾏计算) 推荐相关 数据清洗 特征抽取 预测相关 对⽐ flink storm flink Spark sql(结构化数据处理) Spark streaming(spark流式处理) Zeppelin...
- 144KB
大数据开源框架集锦.pdf
2022-12-24Redis 开源的⽀持⽹络,基于内存可持久化⽇志,key-value数据库,可⽤于 数据库 缓存 消息中间件 Neo4j 开源⾼性能的NoSQL图形数据库 7 数据处理 MapReduce 分布式离线的计算框架 批处理 ⽇渐被spark和flink取代 ...
- 235KB
大数据场景化解决方案.pdf
2022-12-24Spark:基于内存的数据处理引擎,适合海量数据,处理速度⾼效。 Spark SQL:Spark处理结构化数据的⼀个模块。 HDFS介绍 HDFS(Hadoop Distributed File System)基于Google发布的GFS论⽂设计开发。 其除具备其它...
- 253KB
大数据的内涵理解.pdf
2022-12-24⼤数据涉及的技术:数据采集,数据存储,数据处理分析挖掘,数据可视化 ⼤数据技术的挑战:现有数据库管理技术的挑战 经典数据库没有考虑多类别的数据存储 实时数据的处理 ⽹络架构,存储 数据隐私安全 ⼤数据与...
- 99KB
Java及大数据学习路线.pdf
2022-12-24异步数据传输框架Ajax ⽂件的上传下载 1.3JavaEE框架 系统整体分层解耦框架spring 轻量级Web框架springmvc 轻量级持久层框架mybatis 服务器操作系统Linux 内存数据库Redis 项⽬架构、jar包管理⼯具Maven 1.4JavaEE⾼...
- 215KB
大数据离线计算.pdf
2022-12-24YARN资源管理系统 它是⼀个通⽤的资源管理模块,可为各类应⽤程序进⾏资源管理和调度.Yarn是轻量级弹性计算平台,除了MapReduce框架,还可以⽀持 其他框架,⽐如Spark、Storm等 多种框架统⼀管理,共享集群资源: ...
- 1.26MB
FusionInsightHD华为大数据平台.pdf
2022-12-24FusionInsightHD华为⼤数据平台 华为FusionInsight HD是⼀个... Spark 基于内存进⾏计算的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了⽐MapReduce⾼10到 100倍的计算能⼒。Spa
- 215KB
大数据--第一章大数据概述笔记分享.pdf
2022-12-24Spark是基于内存的迭代计算,Spark 处理速度⽐MapReuce快。 2、批处理是对数据批量处理,流计算是实时计算。 3、图计算针对⼤规模图结构数据的处理。 4、查询分析计算是⼤规模数据的存储管理和查询分析。 七、⼤数据...
- 381KB
企业数据运营管理与数据分析方法论.pdf
2022-12-23数据体量的增加 服务器/硬件的升级 数据底层架构的升级 数据体量增至PB/EB级 数据结构更加多元复杂 服务器 内存 存储 带宽 Hadoop Spark Greenplum Storm 数据应用层升级 如何将数据价值变现? 定义企业数据资产...
- 20.6MB
Inceptor使用手册.pdf
2021-09-29务特性保证数据的准确性,允许多租户的隔离与管理,且能够利用内存或者SSD来加速数据的读取,支持与关 系型数据库实时对接并做统计分析,辅以高性能的SQL执行引擎,为企业提供高性价比和高度可扩展的解决方 案
- 2.4MB
Scala-升级版.docx
2021-10-14Scala快速入门(适合为学Spark学习Scala的同学)Word文档
- 2.90MB
基于spark的图书推荐系统
2023-06-15推荐系统是一种信息过滤系统,能够自动预测用户对特定产品或服务的偏好,并向其提供个性化的推荐。它通常基于用户的历史行为、个人喜好、兴趣和偏好等,通过数据挖掘和机器学习算法,在大数据的支持下生成个性化的推荐内容,从而提高用户购买率和满意度。推荐系统广泛应用于电子商务、社交媒体、新闻资讯、音乐、电影等领域。推荐系统的作用是根据用户的历史行为和偏好,为用户推荐个性化的内容,以满足用户的需求和兴趣。 在推荐系统架构中,离线计算部分主要使用 Hadoop、Spark、Hive 等大数据处理技术,将海量历史数据进行离线处理,构建出推荐模型。在线计算部分则使用 Flask、Django 或 Tornado 等 Web 应用框架,将推荐模型部署到 Web 服务器上,实现实时推荐服务。
- 743KB
大数据期末课设~基于spark的气象数据处理与分析
2022-12-14大数据期末课设~基于spark的气象数据处理与分析 完整版Word 可以拿来直接交作业
- 550KB
全国职业技能大赛大数据赛项十套赛题(shtd)
2023-01-16使用Scala编写spark工程代码,将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。 1、 抽取shtd_store库中user_info的增量数据进入Hive的ods库中表user_info。根据ods.user_info表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较),只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.user_info命令,将结果截图粘贴至对应报告中;
- 69B
大数据全套教程完整版
2019-01-09大数据基础到精通完整版, 涵盖技术点:python 基础 java基础,mysql,oracle,ssm框架,linux,hadoop,hbase,zookeeper,flume,scala,spark。资源宝贵,速度下载
- 26.74MB
全国2014-2018年空气质量csv数据集文件数据
2019-06-23全国2014-2018年空气质量csv数据集文件数据,包含字段time(时间),city(城市),AQI,PM2.5,PM10,SO2,NO2,CO,O3,primary_pollutant(主要污染物),共计55万条数据。
- 0B
spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz
2022-11-23spark 3.3.1 使用 cdh 6.3.2 的hadoop版本。可以直接兼容并配合文档进行cdh spark-sql的使用。 具体查看https://editor.csdn.net/md/?articleId=127997188
- 1.1MB
Spark气象监测数据分析:代码整合,包括预处理,分析,数据可视化
2023-09-17【内容概要】 通过完整的气象监测数据处理与分析项目,了解Spark大数据分析的整体流程。代码涵盖数据工程、统计分析、机器学习预测建模等内容。可以学习如何使用Spark PySpark API处理大规模数据。 【适合人群】 具备一定Python编程基础,需要处理分析大规模数据的研发人员。 【能学到什么】 1. Spark数据处理:缺失值处理、降噪、特征工程等数据预处理技术 2. 统计分析:分组聚合、相关性分析、异常检测等统计方法 3. 机器学习:时间序列预测模型设计、集成学习提升效果 4. 微服务:模型API和Docker部署,提供后端服务 【学习建议】 项目代码完整覆盖了大数据分析全流程。在学习过程中,需要结合代码注释和文档,了解设计思路和背后的原理。同时调试并运行示例代码,加深理解。欢迎提出改进意见。
- 9.26MB
基于hadoop和echarts的教育大数据可视化系统
2023-05-04在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统平台的健康程度、学生的学习体验和在线课程的质量对于课程的教师和学校的管理人员都是非常重要的,这是进行数据分析的主要目的。可视化是一个重要的途径,它能够帮助大数据获得完整的数据图表并挖掘数据的价值,大数据分析离不开可视化这一工具的推动。 基于hadoop和echarts的教育大数据可视化系统,以B/S模式开发。通过Hadoop中Sqoop进行数据导入转换。以MapReduce构建数据分析,数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。最终使用ECharts可视化工具来对在线教育平台在学习过程中产生的数据进行可视化大屏展现,让更多人感受到可视化大数据的魅力。
- 1.71MB
python爬虫爬取股票评论,调用百度AI进行语义分析, matlab数据处理,股票涨跌和评论的关系
2019-03-22python爬虫爬取股票评论, 调用百度AI进行语义分析, matlab数据处理, excel作图 股票涨跌和评论的关系
- 9.96MB
大数据面试大总结300页.zip
2021-07-18大数据面试大总结300页.zip