没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘在监测数据分析中的应用探索(完整版)实用资料.doc
0 下载量 82 浏览量
2022-12-02
18:16:09
上传
评论
收藏 2.06MB DOC 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/87233797/0001-86ab95d713e0e980adcc08f7aec930e2_thumbnail-wide.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
74页
数据挖掘在监测数据分析中的应用探索(完整版)实用资料.doc
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/87233797/bg1.jpg)
数据挖掘在监测数据分析中的应
用探索(完整版)实用资料
(可以直接使用,可编辑 完整版实用资料,欢迎下载)
![](https://csdnimg.cn/release/download_crawler_static/87233797/bg2.jpg)
摘要:
本文简述了数据挖掘技术的基本概念、产生和发展的基础以及在现实生活中所发挥的巨大
作用。同时还就数据挖掘技术在全国广播监测网的应用做了初步的探索和尝试。
关键词: 数据挖掘 广播电视监测 决策支持
0 引言
随着广播电视监测网建设规模的不断扩大和运行时间的不断增加,广播电视监测网数
据库积累的各种监测数据也越来越多。激增的数据背后隐藏着许多重要的知识和信息,而
目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存
在的关系和规则,无法根据现有的数据预测未来的发展趋势。如何运用数据挖掘这一新兴
技术从大量的监测数据中发现有意义和有价值的知识,并根据这些知识来指导我们日常的
监测工作和维护工作,使我们的工作更有效率,成为广播电视监测领域里一个值得探索和研
究的课题。
1 数据挖掘技术简介
1.1 数据挖掘技术的基本概念
数据挖掘(Data
Mining就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含
在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几
层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识
要能够易于被用户理解,最好能用自然语言表达;并不要求发现放
![](https://csdnimg.cn/release/download_crawler_static/87233797/bg3.jpg)
应用探索
◎ 杨 京 国家广电总局监测数据处理中心
之四海皆准的知识,换句话说发现的知识都是相对的,是有
特定前提和约束条件,面向特定领域的。下面再简单解释一下知识的基本概念。从广
义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束
等看作知识。人们把数据看作是形成知识的源泉。而原始数据可以是结构化的,如关系数
据库中的数据;也可以是半结构
化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法
可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用
于决策支持和过程控制等。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从
低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。
数据挖掘所发现的知识最常见的有以下四类:
1.
广义知识(Generalization:广义知识指类别特征的概括性描述知识。根据数据的微观特性发
现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性
质,是对数据的概括、精炼和抽象。关联知识(Association:它反映一个事件和其他事件之间
![](https://csdnimg.cn/release/download_crawler_static/87233797/bg4.jpg)
依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依
据其他属性值进行预测。
2. 分类知识(Classification &Clustering:它反映同类事
物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是
基于决策树的分类方法。
3.
预测型知识(Prediction:根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也
可以认为是以时间为关键属性的关联知识。时间序列预测方法有经典的统计方法、神经网
络和机器学习等。
4.
偏差型知识(Deviation:此外,数据挖掘还可以发现其他类型的知识,如偏差型知识,它是对差
异和极端特例的
描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。
1.2 数据挖掘技术的基础
数据挖掘技术的三大基础技术包括计算机硬件技术、大规模数据库技术和数据挖掘算
法。在过去数十年里,计算机硬件技术得到了迅猛的发展,包括单个CPU的处理能力大幅提
升、内存和磁盘存储器价格的显著降低、支持多个CPU的并行处理结构的巨大进步等。大
型关系型数据库及数据库管理系统在各行各业的广泛应用、最近10年来数据挖掘算法的不
断发展、成熟和稳定。
数据挖掘是利用了人工智能和统计分析这两种技术致力于模式发现和预测。数据挖掘
不是为了替代传统的统计分析技术。相反,它是统计分析技术的延伸和扩展。大多数的统
计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对
使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计
算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领
![](https://csdnimg.cn/release/download_crawler_static/87233797/bg5.jpg)
域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,它们几乎不用
人的关照自动就能完成许多有价值的功能。
数据挖掘就是利用了统计和人工智能技术的应用程序,它把这些高深复杂的技术封装
起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问
题。
1.3数据挖掘和数据仓库之间的关系
数据挖掘与数据仓库的发展有着密切的关系。数据仓库的发展是促进数据挖掘越来越
热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从
操作数据源中挖掘信息。
大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。
从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘
的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没
必要再清理一次了,而且所有的数据不一致的问题都已经被你解决了(图1。
数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的
数据库。但如果你的数据仓库的计算资源已经很紧张,那你最好还是建立一个单独的数据
挖掘库。
当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个
巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的
数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成
。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当
作数据集市,然后在他上面进行数据挖掘(图2。
1.4 数据挖掘和传统数据分析的区别
数据挖掘与传统的数据分析如查询、报表、联机分析处理(OLAP是完全不同的工具,
基于的技术也完全不同。传统的查询和报表工具是告诉你数据库中都有什么,OLAP工具则
剩余73页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
zzzzl333
- 粉丝: 707
- 资源: 7万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)