云南大学数学与统计学院
《数据挖掘与决策支持实验》上机实践报告
一、实验目的
学习使用 R 语言进行变量选择。
二、实验内容
对 iris 数据进行贝叶斯分类。
三、实验平台
Windows 10 Pro 1803;
Microsoft
©
Visual Studio 2017 Enterprise。
Version 1.1.442 – © 2009-2018 RStudio, Inc.
四、算法设计
贝叶斯方法是一种分类法。数据并不是总体或待建模系统的唯一可用的信息资源。贝叶斯方法提供了
一套将这些外部信息融入数据分析过程的原理方法。这个过程先给出待分析数据集的概率分布。因为这个
分布在给出时没有考虑任何数据,所以称为先验分布(prior distribution)。新的数据集将先验分布修正后
得到后验分布(posterior distribution)。进行这个修正的基本工具就是贝叶斯定理。
设
是一个类标号未知的数据样本,
为某种假定:数据样本
属于某特定的类
。要求确定
,即
给定了观测数据样本
,假定
的概率。其实这就是贝叶斯公式的一种具体形式。
表示给定数据集
之后,我们对假设
成立的后验概率。后验概率
比先验概率
含有更多的信息。
贝叶斯定理可以表示如下:
评论0