现代商贸工业 2 0 2 0 年第 4 期 1 9 3 大数据中数据的质量问题探析 刘妍东 ( 北京信息职业技术学院, 北京 1 0 0 0 1 8 ) 摘 要: 随着云时代的来历, 大数据技术也越来越引起人们的关注.大数据带来的巨大的技术和商业机遇使 众多的企业趋之若鹜.大数据分析挖掘和利用将为企业带来巨大的商业价值, 但随着数据规模的急剧剧增, 数据 体量巨大、 数据类型繁多, 数据的价值参差不齐, 在数据分析时将导致分析偏差.所以在大数据时代, 数据的质量 问题也是重中之重.通过分析, 数据的质量问题主要存在这六大方面的问题: 准确性、 完整性、 一致性、 相关性、 时 效性、 可信性和可解释性. 关键词: 大数据; 质量问题 中图分类号: T B 文献标识码: A d o i : 1 0. 1 9 3 1 1 / j . c n k i . 1 6 7 2 G 3 1 9 8. 2 0 2 0. 0 4. 0 9 2 1 从采集的角度划分质量问题 1 . 1 准确性 准确性是指数据是否正确的, 数据存储在数据库中 的值是否对应于真实世界的值.例如, 某用户在使用支 付宝绑定银行卡时, 网站要求验证用户的真实姓名和身 份证号码.如果用户提供的证件号码与实际号码一致, 那么该号码存储在数据库中的值就是正确的. 数据的不准确由如下原因造成: 一 是 在 收 集 数 据 时, 设备出现故障, 导致数据存储的值出现乱码.二是 在数据输入时, 人为的输入不准确的信息, 或者计算机 内部出错导致录入的信息有误, 比如我们上网注册一些 信息时, 出于隐私考虑, 用户会故意输入不正确的信息, 包括年龄、 地址、 手机号等.三是在数据传输的过程中 出现错误.比如, 超出了传输缓冲区的大小, 数据会出 现截断等现象.最后一种是命名约定、 数据代码、 输入 字段的格式不一致导致出错.其中, 最常见的是: 不按 格式输入导致出错, 例如输入字段为日期时, 多个用户 输入日期的格式不一致. 1 . 2 完整性 完整性是指信息具有一个实体描述的所有必需的部 分.在传统关系型数据库中, 完整性通常与空值( N U L L ) 有关.空值是指缺失或不知道具体的值, 可能是一条记 录中的某个属性缺失, 也可能是整条记录都丢失. 不完整的数据对数据分析会产生影响, 比如考虑构 造一个预测交通事故发生率的模型.如果忽略了驾驶 员的年龄和性别信息, 那么除非这些信息可以间接地通 过其他属性得到, 否则模型的精度可能是有限的.这种 情况下, 我们就需要尽量采集全面的数据信息. 1 . 3 一致性 数据一致性是指在数据库中, 不同表中存储和使用 的同一数据应当是等价的, 表示数据有相等的值和相同 的含义. 表1 学生信息表 学号 姓名 性别 出生日期 所在专业 2 2 0 2 1 3 张三 男 1 9 9 9年1月 D 0 2 2 2 0 3 0 5 王丽 女 1 9 9 8年7月 D 0 3 2 2 0 1 2 3 李想 男 2 0 0 0年4月 M 0 1 表2 专业信息表 专业号 专业名称 专业班级编号 D 0 1 电子商务 2 2 0 1 D 0 2 软件技术 2 2 0 2 D 0 3 大数据技术 2 2 0 3 比如表1描述学生的基本信息, 包括学号、 姓名、 性 别、 出生日期和所在专业, 而所在专业必须从专业信息表 获取.表2描述了专业的基本信息.从这两个表可以看 到, 表1中的学生李想所在的专业号并没有出现在表2 中, 说明该条记录的专业号有误, 必须修改正确, 才能保证 两张表对应字段的正确性, 这是数据的逻辑不一致.数据 不一致还体现在记录的不规范上, 比如两个表中对日期 的格式记录不一致, 如2 0 1 0 0 4 0 5和2 0 1 9年4月5日这两 种格式, 会导致在数据集成中造成数据冲突. 另外在数据出现冗余的情况下, 数据内容由于各种 原因比如并发控制不当, 或程序故障导致前后数据不一 样也是造成数据不一致的原因. 2 从应用的角度划分质量问题 2 . 1 相关性 数据的相关性是指数据与特定的应用和领域有关. 与数据相关的应用场景一般有, 比如进行数据挖掘或构 造模型预测时, 需要采集相关的数据.例如考虑构造一 个模型, 预测交通事故发生率.如果忽略了驾驶员的年 龄和性别信息, 那么除非这些信息可以间接地通过其他 属性得到, 否则模型的精度可能是有 限 的.这 种 情 况 下, 我们就需要尽量采集全面的相关的数据信息. 另外一个相关性的质量问题表现在相同的数据, 在 不同的应用领域中, 相关性也是不一样的.例如, 对于 某个公司的大型客户数据库, 由于时间和统计的原因, 顾客地址列表的正 【大数据中的数据质量问题】 在大数据领域,数据质量是决定分析结果准确性和有效性的关键因素。随着云计算和大数据技术的发展,企业越来越依赖数据来驱动决策,因此数据的质量问题日益凸显。本文将深入探讨大数据中六个主要的数据质量问题:准确性、完整性、一致性、相关性、时效性以及可信性和可解释性。 **1. 准确性** 准确性是衡量数据是否真实反映实际情况的标准。数据的不准确可能源自设备故障导致的数据存储错误,人为输入错误(如用户为了隐私保护而故意提供错误信息),数据传输过程中的错误(如数据截断),以及命名约定、数据代码和输入格式不一致导致的问题。例如,日期格式的不一致可能导致数据整合时的混乱。 **2. 完整性** 完整性关注数据是否包含所有必要的信息。在关系型数据库中,完整性常常关联到空值(NULL),即缺少的或未知的值。不完整数据会影响数据分析,比如在构建预测模型时,若忽略关键变量(如驾驶员年龄和性别),可能会限制模型的预测精度。 **3. 一致性** 数据一致性确保数据库中同一数据在不同表中的表示是等价的。逻辑一致性问题可能出现在不同表间数据不匹配,如表间的参照完整性问题,或者记录格式不一致导致的数据冲突。数据冗余也可能引发一致性问题,因为并发控制不当或程序故障可能导致数据不一致。 **4. 相关性** 数据的相关性关乎数据是否与特定应用或领域相关。在构建模型或进行数据挖掘时,相关数据的采集至关重要。例如,预测交通事故发生率的模型需要包含驾驶员的年龄和性别信息。相同数据在不同应用中的相关性可能各异,对数据满意度的评价也会因使用场景不同而变化。 **5. 时效性** 数据的时效性是指数据随时间变化,过时的数据可能失去其价值。如顾客购买行为数据,只有最近的数据才能准确反映消费者的实时需求。因此,在进行推荐系统等实时分析时,需要定期更新数据以保持其时效性。 **6. 可信性和可解释性** 可信性涉及数据来源的可靠性,以及数据是否经过验证。数据的可解释性则关乎数据能否被理解和解析,以支持决策。如果数据难以理解或解释,其价值就会大大降低。 总结来说,大数据中的数据质量问题不仅影响分析结果的精确性,还直接影响到企业的决策质量和效率。因此,提高数据质量是大数据分析中的核心任务,需要通过有效的数据管理、清洗和验证流程来确保数据的准确性、完整性、一致性、相关性、时效性、可信性和可解释性。在大数据时代,企业应重视并投资于数据质量管理,以充分发挥数据的潜力。
- 粉丝: 192
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 通过python实现抽象工厂模式(Abstract Factory Pattern).rar
- 学习记录111111111111111111111111
- JavaScript函数
- java-leetcode题解之Range Sum Query 2D - Mutable.java
- java-leetcode题解之Random Pick Index.java
- java-leetcode题解之Race Car.java
- java-leetcode题解之Profitable Schemes.java
- java-leetcode题解之Product of Array Exclude Itself.java
- java-leetcode题解之Prime Arrangements.java
- MCU51-51单片机