没有合适的资源?快使用搜索试试~ 我知道了~
毕业生就业数据分析系统开发设计说明.docx
3 下载量 124 浏览量
2022-12-19
03:40:11
上传
评论 1
收藏 711KB DOCX 举报
温馨提示
试读
36页
毕业生就业数据分析系统开发设计说明.docx
资源推荐
资源详情
资源评论
能对过去的数据迸行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促迸 信息的传递。
1. 5. 2数据挖掘技术的定义与含义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据
中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。
从广义上讲,数据、信息也是知识的表现形式,但是人们更把概念、规那么、模式、 规律和约
束等看作知识。人们把数据看作是形成知识的源泉,不断地挖掘。原始数据 可以是结构化的,如关
系数据库中的数据;也可以是半结构化的,如文本、图形和图 像数据;甚至是分布在网络上的异构
型数据。发现知识的方法可以是数学的,也可以 是非数学的;可以是演绎的,也可以是归纳的。发
现的知识可以被用于信息管理,查 询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一 门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖
掘知识, 提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、 人工
智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投 身到数据挖掘这一
新兴的研究领域,形成新的技术热点。
数据挖掘也是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量 业务数据进行
抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性 数据。简而言之,数据挖掘
其实是一类深层次的数据分析方法。商业领域产生了大量 的业务数据,这些数据不再是为了分析的
目的而提供的,而是由于纯机会的
(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更 主要是为商
业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共 同问题是:企业数据量非
常大,而其中真正有价值的信息却很少,因此从大量的数据 中经过深层分析,获得有利于商业运作、
提高竞争力的信息,就像从矿石中淘金一样, 数据挖掘也因此而得名。
L6贝叶斯分类算法贝叶斯算法的介绍
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类 的算法°在许
多场合,朴素贝叶斯(Naive Bayes
5
NB)分类算法可以与决策树和神经网 络分类算法相媲美,该
算法能运用到大型数据库中,而且方法简单、分类准确率高、 速度快。
由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设 在实际情况中
经常是不成立的,因此其分类准确率可能会下降。为此,就衍生出许多
降低独立性假设的贝叶斯分类算法‘如TAN(tree augmented Bayes network)算法°L 6. 2贝叶斯
定理
贝叶斯定理(Bayes' theorem)是概率论中的一个结论,它跟随机变量的条件概 率以与边缘概率分布
有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何 利用新证据修改已有的看法。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概 率是不一样的;然而,这
两者是有确定的关系,贝叶斯定理就是这种关系的述。贝叶 斯公式的用途在于通过己知三个概率函数推出第
四个。它的容是:在B出现的前提下,A 出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以
B出现的概率。 通过联系A与B,计算从一个事件产生另一事件的概率,即从结果上溯原。
作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主 义者和贝叶斯主义者
对于在应用中,某个随机事件的概率该如何被赋值,有着不同的 看法:频率主义者根据随机事件发生的频率,
或者总体样本里面的发生的个数来赋值 概率;贝叶斯主义者那么根据未知的命题来赋值概率。这样的理念导
致贝叶斯主义者有 更多的机会使用贝叶斯定理。
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一那么定理。
其中P(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:
(1)P(/)是/的先验概率或边缘概率。之所以称为“先验”是因为它不考虑任何方方 面的因素。
(2)P(/|8)是6发生后/的条件概率,也由于得自6的取值而被称作/的后验 概率。
(3)P(引力)是
A
发生后£的条件概率,也由于得自
A
的取值而被称作6的后验 概率。
(4)P(£)是夕的先验概率或边缘概率
5
也作标准化常量^normalizing constant)° 按这些术语
,
Bayes定理可表述为:
后验概率=(相似度米先验概率)/标准化常量。
也就是说,后验概率与先验概率和相似度的乘积成正比。
另外
,
比例P(外/)/P(8)也有时被称作标准相似度(standardised likelihood)
,
Bayes定理可表
述为:
后验概率二标准相似度米先验概率。
1. 6. 3朴素贝叶斯分类的原理与流程
朴素贝叶斯分类法是一种十分简单的分类算法,朴素贝叶斯分类名字缘由是因为 这种方法的思想很朴
素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求 解在此项出现的条件下各个类别出现的概率,
哪个概率最大,就认为此待分类项属于 哪个类别。通俗说,就好比这么个道理,你在街上看到一个黑人,我
们不能确切说他 是从哪里来的,但是你十有八九猜是非洲人。主要原因是黑人中非洲人的比率最高, 不能否
认黑人也可能是美洲人或其他,但是在没有其它可用信息下,我们一定是会选 择条件概率最大的类别,这就
是朴素贝叶斯的思想基础。
朴素贝叶斯分类法的正式定义如下:
P(3| A)P(A)
(1.1)
1、设X =。加}为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合C = {y,券,,…,o
3、计算
P(yi
I x),尸(二 | X),...,
P(y
n
| x)
o
4、如果 P(/ I
x) =
max{P(yi |
x\P{yi\
P(>| x)},那么 x£ /。
现在的关键是计算第3步中各个条件概率,就能得出第4步的最大值。
接下来我们可以这么做:
1、先要找到一个分类的待分类项集合,这个集合称为训练样本集。
2、然后统计得到在各类别下各个特征属性的条件概率估计。即
P(〃i| yi),P(〃2| y),…/),尸3| "),…F(〃相 |P(〃i| yJPQI y?)
o3、如果各个特征属性是条件独立的,那么根据贝叶斯定理有如下推导: P(y[x)二」(喟心)(1.2)
P⑴
因为分母对于所有类别为常数,即我们只要将分子最大化。又因各特征属性为条件 独立的,所以有:
〃?
?(%| y)P(y) =
P(ai \
y)P(〃2 | y).•尸(a〃/ y)P(y) = ?(»)口尸3 |
y) jT
(1.3)
根据上述分析,朴素贝叶斯分类的流程可以由下列图1T表示:
图1-1朴素贝叶斯分类流程图可以看到,整个朴素贝叶斯分类分为三个阶段:
第一阶段一一准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备, 主要工作是根据具
体情况确定特征属性,并对每个特征属性进行适当划分,然后由人 工对一局部待分类项进行分类,形成训练
样本集合。这一阶段的输入是所有待分类数 据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分
类中唯一需要人工完 成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、 特
征属性划分与训练样本质量决定。
第二阶段一一分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计 算每个类别在训练样
本中的出现频率与每个特征属性划分对每个类别的条件概率,并 将结果记录。其输入是特征属性和训练样本,
输出是分类器。这一阶段是机械性阶段, 根据前面讨论的公式可以由程序自动计算完成。
第三阶段一一应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其 输入是分类器和待分
类项,输出是待分类项与类别的映射关系。这一阶段也是机械性 阶段
9
由程序完成。
1.6.4 估计类别下特征属性划分的条件概率与Laplace校准
我们可以看出计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤, 当特征属性为离散
值时,只要很方便的统计训练样本中各个划分在每个类别中出现的 频率即可用来估计P(a|y),下面重点
讨论特征属性是连续值的情况。
当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。
即:
(\
1一(力-〃)2
g的㈤二否^ Uh。⑷
而
P(ak | yi) = g(ak,小,
6)。
因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入上 述公式即可得到需要
的估计值。
另外出现P(a|y)=O时应该怎么处理。当某个类别下某个特征项划分没有出现时, 就会产生这种现象,
这种现象会令分类器质量大大降低。为解决这个问题,我们引入 Laplace校准,其思想很简单,就是对没
类别下所有划分的计数加1,这样如果训练样 本集数量充分大时,并不会对结果产生影响,并且解决了上述
频率为0的尴尬局面, 问题得到解决。
1.6.5 贝叶斯定理应用
贝叶斯定理用于投资决策分析是在相关工程B的资料,而缺乏论证工程A的 直接资料时,通过对B工程的
有关状态与发生概率分析推导A工程的状态与发生概率。 如果我们用数学语言描绘,即当事件Bi的概率P(Bi)
和事件Bi已发生条件下事 件A的概率P(A | Bi),那么可运用贝叶斯定理计算出在事件A发生条件下事件Bi
的概 率 P (Bi | A)。
按贝叶斯定理进行投资决策的基本步骤是:
(1)列出在工程B条件下工程A的发生概率,即将P(A | B)转换为P(B | A); (2)绘制树型图;(3)
求各状态结点的期望收益值,并将结果填入树型图;
(4)根据对树型图的分析,进行投资工程决策;
搜索巨人Google和Autonomy,一家出售信息恢复工具的公司,都使用了贝叶斯定 理(Bayesian
principles)为数据搜索提供近似的(但是技术上不确切)结果。研究 人员还使用贝叶斯模型来判断病症和疾
病之间的相互关系,创立个人机器人,开发能 够根据数据和经验来决定行动的人工智能设备。
1.7小结
本章介绍了本课题选题的的背景、目的和意义。阐述了数据挖掘技术的概念和含 义。本章主要归纳了
数据挖掘技术中的贝叶斯分类法,详细描述了朴素贝叶斯分类的 原理与流程以与它的应用。
第2章方案论证
2.1设计原理、方案选择
随着社会开展,科学进步,计算机技术日益提高,以与计算机用户的操作水平的不断 提高,用户对计算机
应用系统的要求也越来越高。如何保证设计开发出来的应用系统 能够适应用户的更高要求,是每个程序开发
人员必须先要考虑的问题。同时,在设计 过程中也应充分考虑系统的灵活性和可扩充性,使得系统在操作起
来更容易上手,并 且有很好的界面,这些都是开发人员应该要考虑的问题。
总的来说,一个好的系统性能应该到达以下几个标准:
(1)先进性:系统先进,可靠,设计合理;(2)实用性:操作简单,功能齐全,各个模块之间有较好
的连接接口 ;
(3)可扩充性:易于维护,能够适应新的操作环境;(4)稳定性:成熟,稳定,平安性,兼容性好。
对于我所设计的毕业生就业信息管理系统:
首先应该通过录入往届毕业生的各种信息以与他们在毕业后的就业情况,建立数 据库,利用所建立的
数据库,从中随机抽取一局部的数据。接着根据数据的分类分为 两步,第一步:建立一个模型,用来描述预
定的数据类集。通过分析由属性描述的数 据库元组(记录)来构造模型。假定每个元组属于一个预定义的类,
由一个称作类标 号属性的属性确定。对于分类,数据元组也称作样本,为建立模型而被分析的数据元 组形
成训练数据集。第二步:使用模型进行分类。首先评估模型(分类法)的预测准 确率,如果认为模型的准确率
可以接受,就可以用它对类标号未知的数据元组进行分 类。
用贝叶斯分类算法分析数据并按要求对其进行分类,该分类法的准确性可用保持 方法进行评估:将给
定的数据随机的划分成两个独立的集合:训练集(取随机抽样集 的2/3)和测试集(取随机抽样集的1/3)。如
图2-1所示。
图2-1系统方案图
用
户
剩余35页未读,继续阅读
资源评论
黑色的迷迭香
- 粉丝: 721
- 资源: 4万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功