情报资料工作2020年3月 第 41卷 第 2期
信息技术
DOI: 10.12154/j .qbzlgz.2020.02.011
大数据环境下数据对象的可溯源性保障方法研究
朝 乐 门 李 昊 璟 冀 佳 钰 (中 国 人 民 大 学 信 息 资 源 管 理 学 院 北 京 100872)
摘 要 :[目的/意义]开展数据对象可溯源性保障研究,可降低大数据时代所凸显的跨领域、海量、异构和动态教据
的失信风险,有助于自动化实现数据质量评价、数据审计及数据恢复等问题,[方法/过程]基于数据溯源、密码编
码学等理论,以数据对象为操作单位,提出一种新的数据对象版本号计算方法;进一步提出了数据对象D N A 的概
念及其生成和回溯方法,并探讨其丨T 实 现 及 应 用 [结果/结论]本文提出统一溯源新方法数据对象D N A ,具有易生
成 、防篡改、普适性强等特点,可应用于数据对象的世系检验和数据连续性自动审计等场景。
关键词:数据对象数据溯源可溯源性保障数据连续性
An Analysis of Data Object Traceability Guarantee Method in Big Data Environment
C h a o L e m e n Li H a o j i n g J i J i a y u
( S c h o o l o f I n f o r m a t i o n R e s o u r c e M a n a g e m e n t , R e n m i n U n i v e r s i t y o f C h i n a , B e i j i n g , 100872)
Abstract: [Purpose/significance] D a t a o b j e c t tracea b ility a s s u r a n c e r e s e a r c h c a n r e d u c e e x p o s u r e risk o f c r o s s - d o
m a i n , m a s s i v e , h e t e r o g e n e o u s a n d d y n a m i c d a t a loss in b i g d a t a e r a , a n d c o n t r i b u t e to a u t o m a t e d d a t a q u al i t y e v a l u a
ti on , d a t a a u d i t a n d d a t a r e c o v e r y . [Method/process] B a s e d o n t h e t h e o r y o f d a t a p r o v e n a n c e a n d c r y p t o g r a p h y , a n e w
v e r s i o n n u m b e r c a l c u l a t i o n m e t h o d o f d a t a o b j ec t s is p r o v i d e d . T h e n , t h e c o n c e p t o f d a t a o b j e c t D N A a r e d e s c r i b e d ,
a n d a n e w m e t h o d for g e n e r a t i n g a s w e l l a s b a c k t r a c k i n g t h e d a t a o b j e c t D N A a r e al so p r o p o s e d . F u r t h e r m o r e , T h e I T
i m p l e m e n t a t i o n a n d a p p l i c a t i o n s o f it a r e d i s c u s s e d . [Result/conclusion] D a t a o b j e c t D N A , w h i c h is a n e w m e t h o d to
s u p p o r t u n i f i e d d a t a t r ace abi lit y, is p r o d u c i n g e asl iy, t a m p e r - p r o o f , s t r o n g u ni v er s a l it y , a n d c a n b e u s e d to d a t a o b j e c t
l i n e a g e i n s p e c t i o n a n d d a t a c o n t i n ui t y a u d i t .
Keywords: d a t a o b j e c t d a t a p r o v e n a n c e a s s u r a n c e o f trace a bilit y d a t a c o n t i n u i t y
1 引言
可溯 源 性是 数 据质 量 评 价 的 关 键 要 素之 一m 。在
数 据 连 续 性 研 究 中 ,数据 的 可溯源 性 是 数据质量在 时
间 维 度 上 的 重 要 表 现 形 式 ,数据可溯 源性保障是降低
数据的“失信 ”风险的主要手段|21。在 大数据环境下,数
据 失 信 风 险 主 要 源 自 数 据 本 身 的 多 源 、异 构 、海 量 、动
态 特 征 ,因此对数据质f i 审计时需要重视数据源、数据 *
类 型 、数 据 整 体 的 生 命 周 期 及 应 用 领 域 等 方 面 Pl。 目
前 ,失 信 风 险 的 凸 显 不 仅 对 数 据 的 可 信 度 审 计 提 出了
更 高 要 求 ,还 对 数 据 的 有 效 利 用 带 来 了 新 挑 战 。数据
的可 溯源 性已 成为 数 据管 理 领域 重 点研 究 的新 课 题,
这一 课 题的 研 究将 有 助于 数 据质 量 评价 、数 据 审 计 、权
属关系确认、数据恢复等领域的进步'
通 常 ,数 据 溯 源 性 保 障 主 要 采 用 数 据 溯 源 的方 法
和 技 术 实 现 。 目前 ,数 据溯源 方 法和 技术 已广 泛 应 用
*衣 文系国家社 会科学 基金项 目“數据连续性 的实现 方法与 保障机 制研究 ”(项 目 编 号 :15BTQ054)的研究成果
83