2020深唐杯大数据赛项考点总结.docx
大数据基础原理和技术架构 大数据概念:大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的 5V 特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 大数据前世今生:大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。 大数据特性:数据量大 Volume、类型繁多 Variety、速度快 Velocity、在线数据 Online、价值密度低 Value。 大数据与 NoSQL:易扩展大数据量,高性能灵活的数据模型高可用。 大数据与云计算:云计算 3 种服务模式:IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)。 大数据核心:利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。 大数据与机器学习:两者是互相促进,相依相存的关系。 大数据与数据仓库:数据仓库相对用途比较单一,主要用于支持管理决策,多服务于各种 BI 报表、仪表盘、自助分析等应用。大数据用途非常广泛,除了决策支持外,还常见于互联网搜索、市场营销、实时计算、物联网、机器学习等各种新型应用中。 Hadoop 由来:Hadoop 是 Apache 开源组织的分布式计算系统,其分为第一代 Hadoop 和第二代 Hadoop。 HDFS 基本原理:HDFS 由一个名叫 Namenode 的主节点和多个名叫 Datanode 的子节点组成。Namenode 存储着文件系统的元数据,这些元数据包括文件系统的名字空间等,向用户映射文件系统,并负责管理文件的存储等服务,但实际的数据并不存放在 Namenode。 大数据技术是当前 IT 行业的热点话题之一,具有广泛的应用前景和发展潜力。通过了解大数据的概念、特性、技术架构和应用场景,我们可以更好地理解大数据的价值和潜力,并且更好地应用大数据技术来解决实际问题。
剩余46页未读,继续阅读
- 粉丝: 84
- 资源: 4
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助