没有合适的资源?快使用搜索试试~ 我知道了~
《大数据导论》复习资料.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 60 浏览量
2022-11-12
06:13:09
上传
评论 1
收藏 1.44MB PDF 举报
温馨提示
试读
33页
。。。
资源推荐
资源详情
资源评论
《大数据导论》课程期末复习资料
《大数据导论》课程讲稿章节目录:
第 1 章 大数据概述
(1)大数据的概念
(2)大数据的特征
(3)大数据的数据类型
(4)大数据的技术
(5)大数据的应用
第 2 章 大数据采集与预处理
(1)大数据采集
(2)大数据预处理概述
(3)数据清洗
(4)数据集成
(5)数据变换
(6)数据规约
第 3 章 大数据存储
(1)大数据存储概述
(2)数据存储介质
(3)存储系统结构
(4)云存储概述
(5)云存储技术
(6)新型数据存储系统
(7)数据仓库
第 4 章 大数据计算平台
(1)云计算概述
(2)云计算平台
(3)MapReduce 平台
(4)Hadoop 平台
(5)Spark 平台
第 5 章 大数据分析与挖掘
(1)大数据分析概述
(2)大数据分析的类型及架构
(3)大数据挖掘
(4)大数据关联分析
(5)大数据分类
(6)大数据聚类
(7)大数据分析工具
第 6 章 大数据可视化
(1)大数据可视化概述
(2)大数据可视化方法
(3)大数据可视化工具
第 7 章 社交大数据
精选文库
(1)社交大数据
(2)国内社交网络大数据的应用
(3)国外社交网络大数据的应用
第 8 章 交通大数据
(1)交通大数据概述
(2)交通监测应用
(3)预测人类移动行为应用
第 9 章 医疗大数据
(1)医疗大数据简介
(2)临床决策分析应用
(3)医疗数据系统分析
第 10 章 大数据的挑战与发展趋势
(1)大数据发展面临的挑战
(2)大数据的发展趋势
一、客观部分:(单项选择、多项选择)
(一)、单项选择
1.以下不是 NoSQL 数据库的是()
A.MongoDB
B.HBase
C.Cassandra
D.DB2
★考核知识点:NoSQL 与 NewSQL 主流系统
参考讲稿章节:3.7
附 1.1.1(考核知识点解释):
目前市场上主要的 NoSQL 数据存储工具有: BigTable、Dynamo 、Hbase、
MongoDB、CouchDB、Hypertable
还存在一些其他的开源的 NoSQL 数据库,Neo4j、Oracle Berkeley DB、Apache
Cassandra 等
另外,NewSQL 数据库。例如:GoogleSpanner、VoltDB、RethinkDB、Clustrix、
TokuDB 和 MemSQL 等。
2 以下不是目前主流开源分布式计算系统的是()
A.Azure
B.Hadoop
C.Spark
--
2
精选文库
D.Storm
★考核知识点:主流开源分布式计算系统
参见讲稿章节:4.2
附 1.1.2:(考核知识点解释)
由于 Google 没有开源 Google 分布式计算模型的技术实现,所以其他互联网公司
只能根据 Google 三篇技术论文中的相关原理,搭建自己的分布式计算系统。
Yahoo 的工程师 DougCutting 和 MikeCafarella 在 2005 年合作开发了分布式计算
系统 Hadoop。后来,Hadoop 被贡献给了 Apache 基金会,成为了 Apache 基金会
的开源项目。Hadoop 采用 MapReduce 分布式计算框架,并根据 GFS 开发了 HDFS
分布式文件系统,根据 BigTable 开发了 HBase 数据存储系统。尽管和 Google 内
部使用的分布式计算系统原理相同,但是 Hadoop 在运算速度上依然达不到
Google 论文中的标准。不过,Hadoop 的开源特性使其成为分布式计算系统的事
实上的国际标准。Yahoo,Facebook,Amazon 以及国内的百度、阿里巴巴等众多
互联网公司都以 Hadoop 为基础搭建自己的分布式计算系统。
Spark 也是 Apache 基金会的开源项目,它由加州大学伯克利分校的实验室开发,
是另外一种重要的分布式计算系统。它在 Hadoop 的基础上进行了一些架构上的
改良。
Storm 是 Twitter 主推的分布式计算系统,它由 BackType 团队开发,是 Apache
基金会的孵化项目。它在 Hadoop 的基础上提供了实时运算的特性,可以实时地
处理大数据流。
Hadoop,Spark 和 Storm 是目前最重要的三大分布式计算系统,Hadoop 常用于离
线的、复杂的大数据处理,spark 常用于离线的、快速的大数据处理,而 storm
常用于在线的、实时的大数据处理。
3.Apriori 算法是一种()算法
A.关联规则
B.聚类
C.分类
D.预测
★考核知识点:大数据挖掘算法
参见讲稿章节:5.3-5.7
--
3
精选文库
附 1.1.2:(考核知识点解释)
关联分析(Association analysis)是从有噪声的、模糊的、随机的海量数据
中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程,或称关
联规则学习(Association rule learning)。
Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有
两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。FP(Frequent
Pattern)-growth 算法基于 Apriori 构建,但采用了高级的数据结构减少扫描次数,
大大加快了算法速度。
分类(Classification)任务是在给定数据基础上构建分类模型,根据分类模
型确定目标对象属于哪个预定义的目标类别。常用的分类算法有:决策树、感知
机、K 近邻、朴素贝叶斯、贝叶斯网络、逻辑斯谛回归、支持向量机、遗传算法、
人工神经网络等。
聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子
集(类)的过程,每个子集称为一个簇( Cluster),同一个簇中的数据之间存在
最大相似性,不同簇之间的数据间存在最大的差异性。K-MEANS(K-均值)算
法是一种划分聚类方法,以 k 为参数,将 n 个对象分为 k 个簇,以使簇(类)
内具有较高的相似度,而簇间的相似度最低。
(二)、多项选择
1.大数据的特征包括( )
A.体量大(Volume)
B.多样性(Variety)
C.速度快(Velocity)
D.价值高(Value)
★考核知识点:大数据的特征
参考讲稿章节:1.2
附 1.2.1(考核知识点解释):
目前在描述大数据特征时,一般是按照国际数据公司 IDC 所提的“4V”模型来
刻画,即体量大(Volume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。
1). 体量大(Volume):数据量大是大数据的基本属性。数据规模的大小是用计
--
4
精选文库
算机存储容量的单位来计算的,数量的单位从 TB 级别跃升到 PB 级别、EB 级别,
甚至 ZB 级别。
2). 多样性(Variety):大数据除了体量大外,另一个最重要的特征就是数据类型
的多样化。即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3) 速度快(Velocity):大数据环境中速度快有两层含义:一是数据产生速度快;
二是要求数据分析处理速度快。
4) 价值高(Value):大数据拥有大量有价值信息,通过提炼的信息,能够在更
高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的
价值和商机。
2. 按照数据结构分类,数据可分为( )
A.结构化数据
B.半结构化数据
C.非结构化数据
D.无结构数据
★考核知识点: 按照数据结构分,大数据的数据类型
参考讲稿章节:1.3
附 1.2.2(考核知识点解释):
大数据不仅仅体现在数据量大,也体现在数据类型多。
按照数据结构分,数据可分为结构化数据、半结构化数据和非结构化数据。
在现有大数据的存储中,结构化数据仅有 20%,其余 80%则在存在于物联
网、电子商务、社交网络等 领域的半结构化数据和非结构化数据。据统计,全
球结构化数据增长速度约为 32%,半结构化数据和非结构化数据的增速高达
63%。
(1)结构化数据:结构化数据,通常存储在关系数据库中,并用二维表结
构通过逻辑表达实现。
所有关系型数据库(如 SQL Server、Oracle、MySQL、DB2 等)中的数据全
部为结构化数据。
生 活 中 我 们 常 见 的 结 构 化 数 据 有 企 业 计 划 系 统 ( Enterprise Resource
Planning,ERP)、医疗的医院信息系统(Hospital Information System,HIS)、校
园一卡通核心数据库
--
5
剩余32页未读,继续阅读
资源评论
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功