收稿日期:2018-05-16;修订日期:2018-06-13
作者简介:康鲲鹏(1976-),男,副教授,硕士,主要研究方向:智能计算、大数据。
基金项目:河南省科技攻关项目(No.182102210486);河南省高等学校重点科研项目(No.18A520008)。
第 36卷 第 4期
2018年 8月
江 西 科 学
JIANGXI SCIENCE
Vol.36No.4
Aug.2018
doi:10.13990/j.issn1001-3679.2018.04.024
基于大数据的数据清洗研究
康 鲲 鹏
(商丘师范学院信息技术学院,476000,河南,商丘)
摘要:大数据具有体量大、来源和格式多样、增长速度快、价值密度低和处理难度大的特点,即使通过合理设计
参数对某段数据进行点估计的结果可能相当令人满意,但通过应用标准统计程序对整个数据体进行精度估
计得到的结果,却是差强人意,从而误导人们。目的旨在分析影响大数据清洗的主要因素有哪些,首先回顾了
数据获取对时间序列的依赖性并构造了一个大数据模型,然后在列出数据估计时所用的一些属性后,给出了
数据清洗时的回归分析,同时探讨回归系数估计的可能影响。最后给出了大数据处理中误差累积的通用表示
方法,提出了与时间序列理论中短程和长程依赖之间的区别大致相同的问题。
关键词:数据清洗;方差分量;大数据;长程依赖;多级模型;时间序列
中图分类号:TP301.6 文献标识码:A 文章编号:1001-3679(2018)04-654-04
ResearchonDataCleaningBasedonBigData
KANGKunpeng
(SchoolofInformationTechnology,ShangqiuNormalUniversity,476000,Shangqiu,Henan,PRC)
Abstract:Bigdatahasthecharacteristicsoflargevolume,diversesourcesandformats,rapidgrowth,
lowvaluedensityanddifficultprocessing.Eveniftheresultofapointestimationofapieceofdata
withareasonabledesignparametermaybequitesatisfactory,buttheaccuracyoftheentiredatabody
throughtheapplicationofstandardstatisticalprocedurestoestimatetheresultsmaystillbeunsatis
factory,thusmisleadingpeople.Thepurposeofthispaperistoanalyzethemainfactorsaffectingbig
datacleaning.Thearticlefirstreviewsthedependenceofdataacquisitionontimeseriesandcon
structsabigdatamodel.Then
,theregressionanalysisofdatacleaningisgivenaftersomeproperties
ofdataestimationarelisted.Thepossibleinfluenceofregressioncoefficientestimationisalsodis
cussed.Intheend,thegeneralrepresentationmethodoferroraccumulationinbigdataprocessingis
givenandtheproblemthatthedifferencebetweenshortrangeandlongrangedependenceintimese
riestheoryisroughlythesameisproposed.
Keywords:datacleaning;variancecomponents;largedata;longrangedependence;multilevelmod
el;timeseries
0 介绍
大数据提出了几个基本的统计学问题。会对
数据质量和定义的标准化以及将数据纳入数据库
的理由比较关注。同样重要的是,获得数据时对
问题的 2种调查方式是有所区别的,一种是调查