第35 卷第3 期 Vol35!No3 2020 年3 月 Mar. , 2020 统计与信息论坛 Statistics & Information Forum 【大数据与区块链专栏】 大数据环境下的统计元数据建设 李倩,刘冰洁,赵彦云 (中国人民大学统计学院,北京100872) 摘要:大数据环境下,元数据是科学管理数据资源和统计信息化的重要基础。以统计元数据建设为出发 点,分析国外统计元数据和元数据标准建设情况,然后剖析国内元数据和元数据标准建立流程、现状、存在问 题,最后结合互联网大数据的发展趋势,探索统计元数据和元数据标准建设的改革方向。研究表明,中国元 数据在建立流程、标准规范、数据共享等方面存在较大提升空间。在大数据环境下,应加强元数据顶层设计、 提高元数据科学性,从而有利于消除数据孤岛、实现数据的交换和共享,进而实现数据的无限组合和智能化 分析目标。 关键词:元数据;元数据标准;大数据 中图分类号:C829. 2 文献标志码:A 文章编号:1007-3116(2020)03-0014-07 一、引言 元数据(Metadata)又称中介数据、中继数据, 其本质定义为描述数据的数据*其作为描述信息 资源的特征和属性的数据,具有支持指示存储位 置、历史数据、资源查询、文件记录等功能:1\元 数据的研究最初集中于数字图书管理和网络搜索 引擎,目的是解决网络信息飞速发展下的数据量 剧增问题统计元数据则是将元数据应用于统 计数据生产和管理等业务流程,用来定义、描述和 解释数据生产过程中产生的各类实体统计数据本 身及其生产过程。其中,统计指标、统计分组、调 查方法、调查对象等都是元数据以调查方法 为例,调查方法包括全面调查、重点调查、抽样调 查、全面与抽样结合、抽样与重点结合等多种类 型,在数据生产阶段对数据调查方法描述,有利于 数据分类存储,并方便以后数据查询和分析。因 此,统计元数据是科学有效管理统计数据的重要 基础。对于各个统计部门而言,建立系统化元数 据体系、高效合理利用元数据,可以简单、有效、信 息化地管理数据。同时,执行规范统一的统计元 数据标准,可以将不同专业、不同单位之间的元数 据交换,以便于数据交叉融合以及进一步分析,发 挥数据资源价值。尤其在统计数据量骤增、数据 类型多样的情况下,元数据建设尤为重要。 国外对元数据的研究比较早,联合国欧洲经济 委员会、欧洲统计局、世界银行、经合组织等多个组 织对统计元数据进行了研究,提出了共同的元数据 框架(CMF)、共同生产框架(CSPA)、数据文件倡议 (DDI)、通用统计业务流程模型(GSBPM)、统计数 据和元数据交换(SDMX)等多个框架协议和标准, 规范了统计业务生产流程,提供了数据处理和交换 的标准。2000年,中国国家统计局开始与加拿大统 计局开展中加信息管理合作项目,开始研究元数据。 2011年,为了配合企业一套表改革,《统计数据与元 数据交换(SDMX)第1部分:框架》和《统计数据与元 数据交换(SDMX)第2部分:信息模型》由全国电子 业务标准化技术委员会(SAC/TC83)提出,经国家标 准化管理委员会批准,列入国家标准制定修订项目计 划。该标准于2017年7月31日由中华人民共和国 国家质量监督检验检疫总局冲国国家标准化管理委 员会发布,2018年2月1日实施 收稿日期"019-08-20;修复日期"019 —10 — 28 作者简介:李 倩,女,河北保定人,博士生,研究方向:政府统计,经济统计分析; 刘冰洁,女,湖北武汉人,博士生,研究方向:宏观经济统计分析; 赵彦云,男,天津人,教授,研究方向:宏观经济统计分析,互联网统计。 14 李倩,刘冰洁,赵彦云:大数据环境下的统计元数据建设 近些年,国内学者也开始关注统计元数据问题 研究。部分学者集中于国外元数据框架协议和标准 的介绍,王萍详细阐述了 GSBPM的模型结构5 ;张 艳和邓琳莹介绍了 SDMX标准的产生和发展历程, 解析标准的模型架构和主要内容陈燕和李贞以 荷兰为例,解读荷兰实施SDMX标准"起步晚,见效 快"的发展历程,为SDMX标准的国内应用提供建 议此外,部分学者探索中国统计元数据的构成 及建设。胡帆围绕"中国统计元数据应该是什么样 子""对统计业务工作起到什么作用""对统计数据资 源建设起到什么作用"这三个问题展开论述在 国内企业一套表制度实行以后,上海统计局和厦门 统计局基于国家企业一套表元数据库和元数据标 准,结合实际统计工作,开发设计服务于地方统计需 求的元数据库系统,提高统计信息化水平:9-10 : *苏 州市统计局则以统计元数据为核心,探索大数据时 代统计数据生产和应用方式的变革,以加快统计效 率提升和统计服务优化3 * 虽然国内元数据建设和研究已取得初步进展, 但是整体上
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 目标跟踪-基于目标中心点同时进行目标检测+目标跟踪算法实现-项目源码-优质项目实战.zip
- Python《文本特征分析-全唐诗数据挖掘及分析 》+源代码
- Netron-Setup-4.5.0
- 可编辑的地图图形3-世界、各洲、美国地图.xls
- NineAi 新版ChatGPT AI系统网站源码
- Anaconda3-2022.10windows版本
- 基于Servlet的URL访问安全控制.doc
- 可编辑的地图图形-2-中国到省、到市、到县地图.xls
- 快慢指针法判断链表是否有环-go语言实现
- Python《金融新闻数据挖掘分析 (数据抓取、NLP算法分析、量化策略、回测框架等)》+源代码+项目说明