没有合适的资源?快使用搜索试试~ 我知道了~
新教材粤教版高中信息技术学业水平 综合测试第五章 数据处理与可视化表达.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 173 浏览量
2023-04-02
19:15:01
上传
评论
收藏 948KB PDF 举报
温馨提示
试读
11页
。
资源推荐
资源详情
资源评论
必修 1 数据与计算
第五章 数据处理和可视化表达
5.1 认识大数据
5.1.1 大数据
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的
数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海
量、高增长率和多样化的信息资产。
5.1.2 大数据的特征
(1)从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、多
样(Variety)、低价值密度(Value)、高速(Velocity)。
第一,数据体量巨大。从 TB 级别跃升到 PB 级别。
第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅
一两秒。
第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化。
(2)从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于
模糊,相关性重于因果。
第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调
数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据
时代,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观
层面拥有更好的洞察力。
第三,大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之
间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件
事情为何会发生,但是会提醒我们这件事情正在发生。
(3)从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并
行计算。
第一,大数据存储在互联网不同的服务器与各客户终端。
第二,应用分布式并行计算处理互联网的大数据。
5.1.3 大数据对日常生活的影响
1.大数据使人们日常生活更为便捷:方便支付;方便出行;方便购物与产品推介;方
便看病与诊病。
2.大数据对人们日常生活产生的负面影响:个人信息泄露;信息伤害与诈骗。
第 1 页 共 11 页
5.2 数据的采集
5.2.1 数据采集的基本方法
数据采集的基本方法包括:1.系统日志采集法;2.网络数据采集法;3.其他数据采集
法。
拓展:Python 网络数据采集程序使用的扩展库
(1)NumPy(NumericalPython)
是构建科学计算最基础的软件库;
(2)SciPy
是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;
(3)Pandas
是一个 Python 包,旨在通过标记(labeled)和关系(relational)数据进行工作;
(4)Matplotlib
是 Python 的一个 2D 绘图库。
在 Python 模块库中有大量模块可供使用,要想使用这些文件,就需要用import 语句
把指定模块导入当前程序中。使用 import 语句导入模块的语法如下:
import module
关键字 模块名
from import 语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使
用 from import 语句导入模块内指定方法的语法如下:
from module import name
关键字 模块名 关键字 方法名
5.2.2 数据的存储和保护
1.数据的存储
一种是把数据存在本地内部,另一种是把数据存在第三方公共或私有的“云端”存
储。
2.数据的保护
(1)数据安全保护技术。安装杀毒软件和防火墙只能防备数据安全隐患,而采用拷贝、
备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。
为了防止数据泄密,可采用对称式加密(加密、解密用同一密钥)和非对称式加密(加
密、解密用两个不同的密钥)。
(2)数据的隐私保护。解决办法有三个:一是技术手段,常用的隐私保护有:①数据收
集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据
分析时进行数据匿名处理等。二是提高自身的保护意识。三是要对数据使用者进行道德和法
第 2 页 共 11 页
律上的约束。
5.3 数据的分析
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的
结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过
去、预测未来发挥作用。
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
5.3.1 特征探索
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方
图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
5.3.2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物
中某些属性同时出现的规律和模式。
5.3.3 聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标
准,聚类分析能够从样本数据出发,自动进行分类。
K-平均算法是一种经典的自下而上的聚类分析方法。
5.3.4 数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先
训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某
一特点类别的功能。
贝叶斯分类技术在众多分类技术中占有重要地位。
5.4 数据的可视化表达
数据的可视化可以把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问
题,有效提升数据分析的效率。数据可视化是指以图形、图像、地图、动画等生动、易于
理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
5.4.1 数据可视化表达方式(见下页表 5-5)
5.4.2 数据可视化工具
Python 语言因其开源和包容的特性,嵌入了大量数据可视化的工具,如绘图工具模块
Matplotlib、Seaborn 和 Bokeh 等。
(1)Seaborn 主要关注统计模型的可视化。
(2)Bokeh 也是一个很好的可视化库,可实现交互式可视化。
第 3 页 共 11 页
剩余10页未读,继续阅读
资源评论
คิดถึง643
- 粉丝: 3907
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- VID20240521070643.mp4
- Android系统原理与开发学习要点详解-培训课件.zip
- 部署yolov8的tensorrt模型支持检测分割姿态估计的C++源码+部署步骤.zip
- 以简单、易用、高性能为目标、开源的时序数据库,支持Linux及Windows, Time Series Database.zip
- python-leetcode面试题解之第198题打家劫舍-题解.zip
- python-leetcode面试题解之第191题位1的个数-题解.zip
- python-leetcode面试题解之第186题反转字符串中的单词II-题解.zip
- 一个基于python的web后端高性能开发框架,下载可用
- python-leetcode面试题解之第179题最大数-题解.zip
- python-leetcode面试题解之第170题两数之和III数据结构设计-题解.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功