数据质量分析 缺失值 数据集中某个或某些属性的值是不完全的 处理方法:删除数据、数据补齐(统计补充,统一补充)、不处理 异常值分析 异常值定义 数据服从正态分布 ,一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。 箱型图分析 箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值 3倍标准差原则 根据正态分布的定义可知,距离平均值3δ之外的概率为 P("x-μ">3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。 因此,当样本距离平均值大于3δ,则认定该样本为异常值。 简单统计量分析 对属性值进行一个描述性的统计,从而查看哪些值是不合理的 处理方法 1.删除含有异常值的记录 2.将异常值视为缺失值,交给缺失值处理方法来处理 3.用平均值来修正 4.不处理 不一致值 这里不一致可能是不同属性值之间的不一致,比如城市和对应的邮编,也可能是同属性的单位不一致,或数据类型不一致等等。 这个问题大多数情况还是可以批量解决的,像数据类型转换,字符串的规范化,遇到城市和邮编的这种状况也可以用对应的邮编列表来更正 数据分析中的数据探索全文共4页,当前为第2页。数据分析中的数据探索全文共4页,当前为第1页。重复值 数据分析中的数据探索全文共4页,当前为第2页。 数据分析中的数据探索全文共4页,当前为第1页。 重复这个问题也是需要对数据做一个初步的判断,有些重复数据是无用的,需要查重并删除,但是有些情况,比如主题模型当中,需要统计词频,此时不但不能去重,而且相同词根的词也要做出处理,使其在统计时叠加,否则主题概率会出现问题。 特殊符号 具体分析 数据特征分析 数据分布分析 定义 分布分析用来解释数据的分布特征和分布类型,显示其分布情况。分布分析主要分为两种:对定量数据的分布分析和对定性数据的分布分析。 步骤 1:求极差 2:决定组距与组数。3:决定分点。4:得到频率分布表。5:绘制频率分布直方图 对比分析 定义 对比分析通常是把两个相互关系的指标数据进行比较,运用数字展示和说明研究对象规模的大小,水平的高低,速度的快 ,以及各种关系是否协调。 分类 对比分析可分为同比、环比和定基比分析,三者均用百分数和倍数表示。 统计量分析 方法 用统计学指标对定量数据进行描述性分析,例如均值,中位数,众数;极差,标准差,四分位数间距等。 周期性分析 数据分析中的数据探索全文共4页,当前为第4页。数据分析中的数据探索全文共4页,当前为第3页。定义 数据分析中的数据探索全文共4页,当前为第4页。 数据分析中的数据探索全文共4页,当前为第3页。 周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势、相对较短的有季度周期性趋势、周度周期性趋势、甚至更短的天、小时周期性趋势。 贡献度分析 贡献度分析又称为帕累托分析,他的原理是帕累托法则又称20/80定律,为什么称为20/80定律,因为对于一个公司来说,80%的利润来自20%最畅销的产品,而其他80%的产品只产生了20%的利润,表示把相同的投入成本放在不同的对象就会产生不同的效益。 相关性分析 散点图矩阵 当欲同时考察多个变量间的相关关系时,若一一绘制它们间的简单散点图,十分麻烦。此时可利用散点图矩阵来同时绘制各自变量间的散点图,这样可以快速发现多个变量间的主要相关性 散点图 数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势 简单相关分析 pearson相关系数 Person线性相关系数要求连续变量的取值服从正态分布 Spearman秩相关系数 不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数 总结上述两者: 只要两个变量具有严格单调的函数关系,那么他们一定是完全Spearman相关,Person相关只有在变量具有线性关系时才完全相关的。在正态分布下Person相关系数和Spearman秩相关系数在效率上面是等价的,但对于连续测量的数据,更适合Person相关系数进行分析。 判定系数 判定系数是相关系数的平方,r^2 来表示,一般用来衡量回归方程对y的解释程度,它的取值范围是0<=r^2<=1,当它越接近1表明x与y的相关性越高,接近0的话表示两个变量之间几乎没有相关性。 偏相关分析 在多要素所构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其他要素的影响视作常数(保持不变),即暂时不考虑其他要素影响,单独研究两个要素之间的相互关系的密切程度,所得数值结果为偏相关系数 数据分析中的数据探索
- 粉丝: 167
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 以下是一个基本的单片机开发流程和注意事项.txt
- 数据分析是一个涵盖广泛的过程,旨在通过适当的统计方法对收集到的大量数据进行分析.txt
- 以下是一个Unity开发的入门指南.txt
- SpringBoot和Vue前后端分离的物流管理系统源码.zip
- 空域增强技术.svg
- 基于STM32F103C8T6、FREERTOS、PCF8563、LCD1602时钟采集显示系统proteus仿真设计
- 多设备学习型红外遥控器
- poi-3.12-android-a.jar和poi-ooxml-schemas-3.12-20150511-a.jar
- 基于freertos、LCD1602、PCF8593的时钟采集显示系统proteus仿真设计
- NBM7100 电池能量管理设备.docx